前言
python大量的库为数据分析提供了完整的工具集。python拥有numpy、matplotlib、scikit-learn、pandas、ipython等工具在科学计算方面十分有优势,尤其是pandas,在处理中型数据方面可以说有着无与伦比的优势,已经成为数据分析中流砥柱的分析工具
python数据分析优势
Python语言得益于它的简单方便,使得其在大数据、数据分析以及人工智能方面都有十分明显的存在感,对于数据分析从业者以及想要进入数据分析行业的人来说,简单易学容易上手的优势也是一个优势。
python数据分析步骤
(1)数据抽取
(2)数据加载
(3)数据处理
(4)数据可视化
(5)预测模型的创建和评估
(6)部署(得出结果)
如何用Python进行数据分析
一、理解数据
首先导入excel文件
#导入excel文件
fileNameStr="朝阳医院2018年销售数据.xlsx"
xls=pd.ExcelFile(fileNameStr)
salesDf=xls.parse('Sheet1')
查看数据的基本信息
salesDf.head(3)
salesDf.shape
二、清洗数据
1.选择子集
#数据清洗
#一、选择子集
subsalesDf=salesDf.loc[:,'销售时间':'销售数量']
subsalesDf
选择子集
2.列名重命名
#二、列名重命名
colNameDict={'购药时间':'销售时间'} #构建一个旧列名和新列名对应关系的字典
salesDf.rename(columns=colNameDict,inplace=True) #inplace为True直接在源数据框中进行修改
salesDf
3.缺失值处理
#三、缺失值处理
print("含缺失值:",salesDf.shape)
salesDf=salesDf.dropna(subset=['销售时间','社保卡号'])
pri