python怎么读数据实战的案例_Python数据分析实战（来源CSDN课程）笔记

最新推荐文章于 2022-10-22 07:00:00 发布

weixin_39611308

最新推荐文章于 2022-10-22 07:00:00 发布

阅读量66

点赞数

文章标签： python怎么读数据实战的案例

第一章：课程导读

背景

１、数据清洗是整个数据分析过程的第一步，也是整个数据分析项目中最耗费时间的一步

２、数据清洗的过程决定了数据分析的准确性

３、随着大数据的越来越普及，数据清洗是必备的技能之一

４、利用Python进行高效的数据处理变得十分重要

以电商数据为基础

课程目标

１、熟练掌握数据清洗相关方法和技巧

２、熟练掌握Numpy和Pandas库在数据清洗中运用

３、能够独立完成数据分析项目中数据清洗阶段

课程大纲

１、数据清洗之常用工具

１、Numpy常用数据结构和方法

２、Numpy常用数据清洗函数

３、Pandas常用数据结构series和方法

４、Pandas常用数据结构dataframe和方法

２、数据清洗之文件操作

1、Pandas读写CSV文件和相关参数解释

2、Pandas读写excel文件和相关参数解释

3、Pandas与mysql的交互

３、数据清洗之数据表处理

１、数据筛选

２、数据增加和删除

３、数据修改和查找

４、数据整理

４、数据清洗之数据转换

１、字符串数据处理

２、日期格式数据处理

３、利用函数或者映射对数据转换

５、数据清洗之数据统计

１、数据分组groupby方法

２、分组对象聚合函数运用

３、分组对象和apply函数运用

６、数据清洗之数据预处理

１、重复值处理

２、缺失值处理

３、异常值处理

４、数据离散化

数据清洗之总结

数据清洗实质上是将实际业务问题中，脏数据清洗干净，转换为‘干净的数据’，所谓的脏，指数据可能存在以下几种问题(主要问题)：

１、数据缺失(Incomplete)是属性值为空的情况。如Occupancy=""

２、数据噪声(Noisy)是数据值不合常理的情况。如Salary="-100"

３、数据不一致(Inconsistent)是数据前后存在矛盾的情况。如Age="042"或者Birthday="01/09/1985"

４、数据冗余(Redundant)是数据量或者属性数目超出数据分析需要的情况。

５、离群点/异常值(Outliers)是偏离大部分值得数据

６、数据重复是在数据集中出现多次的数据

第二章：数据清洗之常用工具

１、数据清洗的意义

１、现实生活中，数据并非完美，需要进行清洗才能进行后面的数据分析

２、数据清洗是整个数据分析项目最耗费时间的一步

３、数据的质量最终决定了数据分析的准确性

４、数据清洗是唯一可以提高数据质量的方法，使得数据分析的结果也变得更加可靠

２、数据清洗

１、目前在Python中，numpy和pandas是最主流的工具

２、Numpy中的向量化运算使得数据处理变得高效

３、Pandas提供了大量数据清洗的高效方法

４、在Python中，尽可能多的使用numpy和pandas中的函数，提高数据清洗的效率

３、Numpy常用数据结构

１、Numpy中常用的数据结构是ndarray格式

２、使用array函数创建，语法格式为array(列表或元祖)

３、可以使用其他函数例如arange、linspace、zeros等创建

说明：ndim返回维度，shape返回数组的结构，size返回数组的总元素个数，dtype返回数组元素的类型

np.array[a,b]　　a:代表行索引　　b:代表列索引

４、Numpy常用数据清洗函数

４．１、排序函数

sort函数：从小到大进行排序，关键字axis确定轴向，reverse确定排序方向

argsort函数：返回的是数据中，从小到大的索引值

４．２、数据的搜索

where函数：np.where(s>3,1,-1)s>3，返回１，否则-1

extract函数：np.extract(s>3,s)条件满足找出，否则丢弃

５、Pandas常用数据结构Series和方法

通过pandas.Series来创建Series数据结构

pandas.Series(data,index,dtype,name)

上述参数中，data可以为list，array或者dict。

上诉参数中，index表示索引，必须与数据同长度，name代表对象的名称

6、Pandas常用数据结构dataframe和方法

通过pandas.DataFrame来创建DataFrame数据结构

pandas.DataFrame(data,index,dtype,columns)

上述参数中，data可以为list，array或者dict

上述参数中，index表示行索引，columns代表列名或者列标签

第三章：数据清洗之文件读写

１、CSV文件读写

pandas内置了10多种数据源读取函数，常见的就是CSV和Excel

使用read_csv方法读取，结果为dataframe格式

在读取csv文件时，文件名称尽量是英文

参数较多，可以自行控制，但很多时候用默认参数

读取CSV时，注意编码，常用编码为utf-8,gbk,gbk2312和gb18030等

使用to_csv方法快速保存

df = pd.read_csv('meal_order_info.csv',encoding='gbk')df =pd.read_csv('meal_order_info.csv',encoding='gbk',nrows=10)df.to_csv('df.csv', index=False)

小技巧：1a.set_option('display.max_rows':100)

2import os

os.chdir('path')

整理的流程：

２、Excel文件读写

使用read_excel方法读取，结果为dataframe格式

读取excel文件和csv文件参数大致一样，但要考虑工作表sheet页

参数较多，可以自行控制，但很多时候用默认参数

读取excel时，注意编码，常用编码为utf-8,gbk,gbk2312和gb18030等

使用to_excel方法快速保存为xlsx格式

df = pd.read_excel('meal_info.xlsx',sheet_name='sheet1')

df = pd.read_excel('meal_info.xlsx',encoding='utf-8',nrows=10)df.to_excel('a.xlsx',sheet_name='sheet1',index=False,encoding='utf-8')

３、数据库文件读写

使用sqlalchemy建立连接

需要知道数据库的相关参数，如数据库IP地址、用户名和密码等

通过pandas中read_sql函数读入，读取完以后是dataframe格式

通过dataframe的to_sql方法保存

sql = 'select * from meal_order_info'df1 = pd.read_sql(sql,conn)df.to_sql('testdf',con=conn,index=False,if_exists='replace')

数据库建立连接参数

conn = create_engine('mysql+pymysql://user:passward@IP:3306/test01')

root:用户名

passward:密码

IP:服务器IP，本地电脑用localhost

3306:端口号

test01:数据库名称

df.to_sql(name, con=engine,if_exists='replace/append/fail',index=False)

name是表名

con是连接

if_exists：表如果存在怎么处理。三个选项append代表追加，replace代表删除原表，建立新表，fail代表什么都不干

index=False　不插入索引index

weixin_39611308

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫