python数据分析是什么？如何用Python进行数据分析_谈谈自己对python大数据分析的理解-CSDN博客

本文链接：https://blog.csdn.net/2201_75571291/article/details/130215362

本文介绍了Python在数据分析中的重要性，强调了其简单易学的优势。文章详细阐述了Python数据分析的步骤，包括数据抽取、加载、处理、可视化以及模型创建和评估。并提供了Python数据清洗的方法，如选择子集、重命名列、处理缺失值和异常值等。此外，还分享了Python数据分析的资源和学习路径，适合初学者和进阶者。

摘要由CSDN通过智能技术生成

前言

python大量的库为数据分析提供了完整的工具集。python拥有numpy、matplotlib、scikit-learn、pandas、ipython等工具在科学计算方面十分有优势，尤其是pandas，在处理中型数据方面可以说有着无与伦比的优势，已经成为数据分析中流砥柱的分析工具

python数据分析优势

Python语言得益于它的简单方便，使得其在大数据、数据分析以及人工智能方面都有十分明显的存在感，对于数据分析从业者以及想要进入数据分析行业的人来说，简单易学容易上手的优势也是一个优势。

python数据分析步骤

（1）数据抽取

（2）数据加载

（3）数据处理

（4）数据可视化

（5）预测模型的创建和评估

（6）部署（得出结果）

如何用Python进行数据分析

一、理解数据

首先导入excel文件

#导入excel文件
fileNameStr="朝阳医院2018年销售数据.xlsx"
xls=pd.ExcelFile(fileNameStr)
salesDf=xls.parse('Sheet1')

查看数据的基本信息

salesDf.head(3)
salesDf.shape

二、清洗数据

1.选择子集

#数据清洗
#一、选择子集
subsalesDf=salesDf.loc[:,'销售时间':'销售数量']
subsalesDf

选择子集

2.列名重命名

#二、列名重命名
colNameDict={'购药时间':'销售时间'} #构建一个旧列名和新列名对应关系的字典
salesDf.rename(columns=colNameDict,inplace=True) #inplace为True直接在源数据框中进行修改
salesDf

3.缺失值处理

#三、缺失值处理
print("含缺失值：",salesDf.shape)
salesDf=salesDf.dropna(subset=['销售时间','社保卡号'])
pri