本文包含了利用python中的numpy包和pandas包实践数据分析和数据清洗工作,其中共有两个案列,朝阳医院的销售案例和拉勾网的求职招聘案例
学习步骤:
1.掌握numpy和pandas中参数的用法
#numpy用于数学计算
#pandas是基于numpy的数据分析包,提供了一套名为数据框的数据结构,可以方便的对表结构数据进行分析
#matplotlib是一个图形绘制库,用于图形数据分析的可视化
2. 导入Excel数据,本文列出两种
3.清洗数据- 1)截取数据
2)查看数据是否有异常值
3)删除无用的字符串,列,空值,重复数据
4)重新排序
5)重命名索引
以下来自我的 Jupyter Notebook 笔记,更多详细内容请访问笔记,其中有医院案例分析和拉勾网的数据分析http://note.youdao.com/noteshare?id=aeb875c4c7b2719e274ff7c5391f5f2cnote.youdao.com
import pandas as pd
imy_dfmport numpy as np
import warnings; warnings.simplefilter('ignore')
%matplotlib inline
import matplotlib.pyplot as plt
#一维数组
a = np.array([1,2,3,4,5])
#查询元素
print(a[0])
#切片访问
print(a[1:4])
#循环访问
for i in a:
print(i,end=',')
#查看数据类型
print('数据类型为:', a.dtype)
#运算
print('平均值为:', a.mean())
#标准差
print('标准差为:', a.std())
b = np.array([2,3,4])
c = b*5
print(c)
#pandas 一维数组,index参数用于指定每个元素的索引, Series中的 'S' 要大写
x = pd.Series([54,190,173,1050,181,1137], index = ['腾讯','阿里巴巴','苹果','谷歌','脸书','亚马逊'])
pr