python数据分析是什么?如何用Python进行数据分析

本文介绍了Python在数据分析中的重要性,强调了其简单易学的优势。文章详细阐述了Python数据分析的步骤,包括数据抽取、加载、处理、可视化以及模型创建和评估。并提供了Python数据清洗的方法,如选择子集、重命名列、处理缺失值和异常值等。此外,还分享了Python数据分析的资源和学习路径,适合初学者和进阶者。
摘要由CSDN通过智能技术生成

前言

python大量的库为数据分析提供了完整的工具集。python拥有numpy、matplotlib、scikit-learn、pandas、ipython等工具在科学计算方面十分有优势,尤其是pandas,在处理中型数据方面可以说有着无与伦比的优势,已经成为数据分析中流砥柱的分析工具

python数据分析优势

Python语言得益于它的简单方便,使得其在大数据、数据分析以及人工智能方面都有十分明显的存在感,对于数据分析从业者以及想要进入数据分析行业的人来说,简单易学容易上手的优势也是一个优势。

python数据分析步骤

(1)数据抽取

(2)数据加载

(3)数据处理

(4)数据可视化

(5)预测模型的创建和评估

(6)部署(得出结果)

 如何用Python进行数据分析

 

一、理解数据

首先导入excel文件

#导入excel文件
fileNameStr="朝阳医院2018年销售数据.xlsx"
xls=pd.ExcelFile(fileNameStr)
salesDf=xls.parse('Sheet1')

查看数据的基本信息

salesDf.head(3)
salesDf.shape

二、清洗数据

1.选择子集

#数据清洗
#一、选择子集
subsalesDf=salesDf.loc[:,'销售时间':'销售数量']
subsalesDf

选择子集

2.列名重命名

#二、列名重命名
colNameDict={'购药时间':'销售时间'} #构建一个旧列名和新列名对应关系的字典
salesDf.rename(columns=colNameDict,inplace=True) #inplace为True直接在源数据框中进行修改
salesDf

3.缺失值处理

#三、缺失值处理
print("含缺失值:",salesDf.shape)
salesDf=salesDf.dropna(subset=['销售时间','社保卡号'])
pri
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值