Python第二弹：数据处理

最新推荐文章于 2021-08-22 20:49:32 发布

houjing1990

最新推荐文章于 2021-08-22 20:49:32 发布

阅读量512

点赞数

分类专栏： Python数据分析

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/houjing1990/article/details/70211057

版权

Python数据分析专栏收录该内容

2 篇文章 1 订阅

订阅专栏

重复值处理：drop_duplicates()（去重distinct）

缺失值处理：方式1：数据补齐；2：删除对应缺失行，函数dropna()；3：不处理。

空格值处理：strip()

字段抽取：slice(start,stop)

字段拆分：split(sep,n,expand=False)，n为分割为几列，expand为是否展开为数据框，如果为True，返回数据框，否则返回Series。

记录抽取：dataframe[condition],condition是过滤条件，返回一个DataFrame。

随机抽样：numpy.random.randint(start,end,num)，number抽样个数，返回值为行数的索引值序列。

记录合并：concat([dataFrame1,dataFrame2,...]),返回一个DataFrame。

字段合并：x = x1+x2+...；返回一个Series合并后的序列；例如：tel=df['运营商']+df['area']+df['num']

字段匹配：merge(x,y,left_on,right_on),x,y分别为第1,2个数据框，left_on为第一个数据框用于匹配的列，返回一个DataFrame。

数据标准化：x=(x-min)/(max-min),例如：scale=(df.score-df.score.min())/(df.score.max()-df.score.min())

数据分组：cut(series,bins,right=True,labels=NULL)，series需要分组的数据，bins分组的划分数组，right分组的时候，右边是否闭合，labels分组的自定义标签。

例如：import pandas;

from pandas import read_csv;

df=read_csv("路径",sep='|');

bins=[min(df.列名1)-1,20,40,60,80,100，max(df.列名1)+1];

labels=['20以下','20到40'，...];

pandas.cut(df.列名1,...)

日期转换：date=to_datetime(dateString,format);使用：from pandas import to_datetime

%Y:年份；%m:月份；%d:日期，%H:小时，%M:分钟，%S:秒。

日期格式化：apply(lambda x:datetime.strftime(x,format))

日期抽取：datetime列.dt.property，案例：df_time.time.second

second:1-60秒，从1开始，到60；minute，hour，day，month，year，weekday。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。