Pandas
berry2q
这个作者很懒,什么都没留下…
展开
-
pandas的read_csv()读入报错
在windows上文件路径要用//,或者在文件路径前加pd.read_csv(r'filepath')要是还报错编码错误,应该再加上encoding参数pd.read_csv('filepath', encoding='utf-8')原创 2020-07-15 14:01:29 · 243 阅读 · 0 评论 -
Pandas series.str.get 获取字符列切片
作者:grug350链接:https://www.jianshu.com/p/bf267e3be9ca来源:简书著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。原创 2020-07-14 08:24:55 · 1017 阅读 · 0 评论 -
Series中是list获得值
若Series中的值是list,Series.str.get() 得到Series中的第几个值原创 2020-07-13 18:04:15 · 597 阅读 · 2 评论 -
DataFrame.merge和DataFrame.concat
pandas.DataFrame.mergeDataFrame.merge(right, how=‘inner’, on=None, left_on=None, right_on=None, left_index=False, right_index=False, sort=False, suffixes=(’_x’, ‘_y’), copy=True, indicator=False)[source]right:右边的dfhow:连接方式。Inner outer left rightleft_on原创 2020-07-13 16:17:01 · 186 阅读 · 0 评论 -
pandas默认输出行列显示不完全解决方法
#显示所有列pd.set_option(‘display.max_columns’, None)#显示所有行pd.set_option(‘display.max_rows’, None)#设置value的显示长度为100,默认为50pd.set_option(‘max_colwidth’,100)————————————————版权声明:本文为CSDN博主「立志成为摄影师的健身虾」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。原文链接:https://bl转载 2020-07-13 11:06:14 · 705 阅读 · 0 评论 -
数据清洗步骤及常用的方法
流程确定数据分析目的-获取数据-清洗数据-探索数据-建模分析-结果交流探索数据:对整个数据集有全面的认识,一边后续开展工作建模分析:常常用到机器学习、深度学习算法结果:使用报告、图表展示数据,将成果与他人分享脏数据:重复、残缺、错误数据、不符合规则的数据(噪声数据)分为数据的读写、数据的探索与描述、数据简单处理、重复值处理、缺失值处理、异常值处理、文本字符串的处理、时间格式序列的处理。除了前三个以外顺序可以调整。数据读写pd.read_csv()pd.read_excel()数据的探索与原创 2020-07-12 17:57:11 · 4980 阅读 · 0 评论 -
pandas.to_csv()中文乱码问题
加入encoding=‘utf-8’后还是乱码df.to_csv('filename.csv', encoding='utf-8')加入utf-8_sig后正常显示df.to_csv('filename.csv', encoding='utf-8_sig')原创 2020-07-10 09:48:27 · 1634 阅读 · 0 评论 -
pandas to_datetime处理日期错误的数据 日期转换报错的可以试试我这个方法
今天数据分析老师布置的作业 给了一个数据文件 其中有一个问题是让我们把字符串的时间转换为时间类型最后我使用了errors参数解决解决问题的过程如下 :刚开始 我看报错信息是有一个时间的天数超出月份所规定的天数这么长的错误心态有没有崩 哈哈哈 我刚开始心中一万只草泥马在翻腾注意最后提示信息然后 我又加上了format结果错误变成这样了我还特意看了一下日历好么 这个老师太坑了 防不胜防啊 居然把2018年的2月弄成了29天然后就各种搜 看别人的博客 结果看了好多 没有人遇见这种转载 2020-07-10 00:24:44 · 1495 阅读 · 0 评论 -
pandas.to_datetime
https://blog.csdn.net/qq_39290225/article/details/98313743转载 2020-07-10 00:08:13 · 702 阅读 · 0 评论 -
pandas 分列(一)之split()
pandas 分列(一)之split()hhq2lcl 2018-12-06 17:55:51 3706 收藏 10分类专栏: 数据清理版权一、函数详解split()左分列,rsplit()右分列df[‘A’].str.split(pat = None,n = -1,expand = False )pat:str,要拆分的字符串或正则表达式。如果未指定,则拆分空格。n:int,默认-1;限制输出中的分割数。None,0和-1被解释为返回所有拆分。【就是当用于分列的依据符号在有多转载 2020-07-09 23:57:49 · 1506 阅读 · 0 评论 -
concat
pd.concat(objs, axis=0, join=‘outer’, join_axes=None, ignore_index=False,keys=None, levels=None, names=None, verify_integrity=False,copy=True) https://blog.csdn.net/zzpdbk/article/details/79232661原创 2020-07-09 23:35:10 · 99 阅读 · 0 评论 -
astype更改数据类型
df.dtypes 查看数据类型astype(dtype, copy=True, errors=‘raise’, **kwargs)errors: raise或ignore。其中raise表示允许引发异常,ignore表示抑制异常,默认为raisepd.to_numeric(arg, errors=‘raise’, downcast=None)将传入的参数转换为数值类型arg:表示要转换的数据,可以是list tuple Serieserrors:错误处理方式df.A.astype(int)原创 2020-07-09 23:21:11 · 604 阅读 · 0 评论 -
异常值的处理
原理3西格玛准则,对一组数据计算处理后,可以得到一个置信区间,在此区间之外的部分应该被视为异常值。3西格玛:0.68-0.95-0.99。处理方法:箱线图上下两边出现的点视为异常值.Pandas中提供boxplot()方法绘制箱型图a)直接删除b) 使用前后两个边界值的均值替换c) 不处理d) 视为缺失值,利用缺失值的处理方法修正若要对异常值进行修改,使用pandas.DataFrame.replaceDataFrame.replace(self, to_replace=None, v原创 2020-07-09 23:11:59 · 1439 阅读 · 0 评论 -
重复值处理duplicated()
重复值标记为True,否则标为False,默认后面出现的被标记为Trueduplicated(subset=None, keep='first')# subset:用于识别重复出现的列标签或列标签序列,默认识别所有的列标签# keep: 删除重复项并保留第一次出现的。取值可以为first last False# 默认不替代,原理同上drop_duplicated(subset=None, keep='first', inplace=False)重复值处理完后,index会有不连续,通过rei原创 2020-07-09 20:30:50 · 5537 阅读 · 0 评论 -
空值和缺失值处理
fillna() 全局替换缺失值 NaN和None————————————————————————# 对指定列的缺失值进行填充fillna({'A':4, 'B':5})原创 2020-07-09 20:19:29 · 922 阅读 · 0 评论 -
数据预处理:pandas类型转化astype
Python中和Pandas中数据类型对应关系如下:如果数据是纯净的数据,可以转化为数字astype基本也就是两种用作,数字转化为单纯字符串,单纯数字的字符串转化为数字,含有其他的非数字的字符串是不能通过astype进行转化的。需要引入其他的方法进行转化,也就有了下面的自定义函数方法自定义函数进行转化replace()方法去掉字符串里面的一些不想要的东西def convert_currency(var): """ convert the string number to a转载 2020-07-09 17:52:16 · 2164 阅读 · 0 评论 -
生成Series索引并根据索引获取值,根据值获取索引
series = pd.Series()根据索引获取值series原创 2020-07-09 11:51:59 · 5038 阅读 · 0 评论