python-pandas学习
文章平均质量分 52
kingsam_
这个作者很懒,什么都没留下…
展开
-
Python-Pandas 如何shuffle(打乱)数据?
在Python里面,使用Pandas里面的DataFrame来存放数据的时候想要把数据集进行shuffle会许多的方法,本文介绍两种比较常用而且简单的方法。应用情景:我们有下面以个DataFrame我们可以看到Type的数值是按照1,1,1,...2,2,2...,3,3,3..这样排列的,我们希望不保持这个次序,但是同时列属性又不能改变,即如下效果:原创 2017-04-28 15:50:31 · 139397 阅读 · 6 评论 -
Python-Pandas 学习 数据中对时间的操作
Pandas中对 时间 这个属性的处理有非常非常多的操作。具体可以参考以下链接:pandas而本文对其中一个大家可能比较陌生的方法进行讲解。其他的我会陆续上传。应用情景是这样的:考虑到有一个数据集,数据集中有用户注册账号的时间(年-月-日),如下图格式。如果我们希望对用户账号注册时间转为具体的天数,我们可以用如下代码。import pandas as pddf=d原创 2017-04-11 12:57:19 · 15412 阅读 · 3 评论 -
pandas-matplotlib 画图初级教程。
摘要本文主要是关于在pandas中如何画图(柱状图、曲线图等等)的一个简单教程。pandas 中画图其实也是利用了matplotlib库。所以会matplotlib库的下面的内容可以不用看了。1.如何画柱状图?1.1情景一假如我们有一个数据集data,我们想统计data中某一列(feature)中每个值出现的次数,并给出柱状图分布。我们可以这样做:需要用原创 2017-07-27 15:47:33 · 5806 阅读 · 0 评论 -
pandas apply函数的入门
摘要在使用pandas是,我们经常会用到groupby。我们groupby的目的其实就是对不同的分组进行单独的处理。pandas 已经为我们写好了一些groupby后常用的操作的。但是有很多情况下,我们在pandas库中找不到对应的实现方法。这个时候就可以用apply来高效的实现。下面会通过几个例子说明。1.简单入门————分组求和假设我们有数据集df如下原创 2017-08-12 11:39:05 · 2487 阅读 · 1 评论 -
python-pandas 时间日期的处理(下篇)
摘要在上一篇文章,时间日期处理的入门里面,我们简单介绍了一下载pandas里对时间日期的简单操作。下面将补充一些常用方法。时间日期的比较假设我们有数据集df如下在对时间日期进行比较之前,要先转一下格式。转格式的时候用import pandas as pdpd.to_datetime()我们需要先对df中的date这一列转为时间原创 2017-08-12 11:06:51 · 48039 阅读 · 1 评论 -
pandas 如何分割字符
摘要:本文主要是在pandas中如何对字符串进行切分。我们考虑一下下面的应用场景。这个是我们的数据集(data),可以看到,数据集中某一列(name)是某个行业的分类。各个行业之间用符号 ‘|’分割。我们要把用每个‘|’进行分割的内容抽取出来。pandas有个一步到到位的方法,非常方便。import pandas as pddata['name'].str.split(原创 2017-07-27 14:43:08 · 47692 阅读 · 0 评论 -
pandas如何去掉、过滤数据集中的某些值或者某些行?
摘要在进行数据分析与清理中,我们可能常常需要在数据集中去掉某些异常值。具体来说,看看下面的例子。0.导入我们需要使用的包import pandas as pdpandas是很常用的数据分析,数据处理的包。anaconda已经有这个包了,纯净版python的可以自行pip安装。1.去掉某些具体值数据集df中,对于属性appPlatform(最后一列),我们想删除掉取值为2的那些样本。如何做?非常简单...原创 2017-07-26 11:03:31 · 140102 阅读 · 16 评论 -
python- pandas cumsum用法(求累计次数)
本文主要是针对 cumsum函数的一些用法。具体应用场景看下面的数据集。第一列是userID,第二列是安装的时间,第三列是安装的次数。我们现在想做一件事情。就是统计用户在某一天前累计的安装次数。譬如,对userID为20的用户,问在16天前,其安装次数为多少? 答案应该是4次。用python的实现也很简单。又譬如,userID为44在19天前安装的次数,那就应该是1+3+1原创 2017-06-07 15:52:04 · 99283 阅读 · 11 评论 -
python pandas 组内排序、单组排序、标号
摘要:本文主要是讲解一下,如何进行排序。分为两种情况,不分组进行排序和组内进行排序。什么意思呢?具体来说,我举个栗子。****注意****如果只是单纯想对某一列进行排序,而不进行打序号的话直接使用.sort_values就可以了。下文是关于如何把序号也打上的————————————————————————————我们有一个数据集如下:我们下面想进行两种排序。先说第一种比原创 2017-05-17 15:38:13 · 51821 阅读 · 9 评论 -
pandas python 分组统计的方法
首先,看看本文所面向的应用场景:我们有一个数据集df,现在想统计数据中某一列每个元素的出现次数。这个在我们前面文章《如何画直方图》中已经介绍了方法,利用value_counts()就可以实现(具体回看文章)但是,现在,我们考虑另外一个场景,我们假如要想统计其中两列元素出现次数呢?举个栗子:在df数据集中,如果我们想统计A、B两列的元素的出现情况,也就是说,得到如下表。从原创 2017-05-17 11:43:14 · 45227 阅读 · 6 评论 -
python pandas 如何去掉/保留数据集中的重复行?
摘要:本文主要是关于如何把去掉数据集中的重复行,也就是去重的工作。应用场景:假如我们有如下的一个数据集,6行4列。此时,我们3个想法。第一个想法:把所有重复的行去掉第二个想法:只保留第一次出现的重复行第三个想法:保留最后一次出现的重复行这三个想法都可以用pandas中自带一个方法实现。 DataFrame.drop_duplicates()具体实现如原创 2017-05-16 16:18:16 · 25849 阅读 · 2 评论 -
Python -Pandas 如何画柱状图?
摘要:本文主要是讲一下用python如何画柱状图(频率直方图),老规矩,先看看我们最终实现的效果。。可以看到,横轴是某个属性的取值,而纵轴是出现是频数。本图来自于以下的数据集:-----------------------------------------------------------------------------------------------首原创 2017-05-10 22:33:15 · 41629 阅读 · 4 评论 -
python-Pandas学习 如何对数据集随机抽样?
摘要:有时候我们只需要数据集中的一部分,并不需要全部的数据。这个时候我们就要对数据集进行随机的抽样。pandas中自带有抽样的方法。应用场景:我有10W行数据,每一行都11列的属性。现在,我们只需要随机抽取其中的2W行。实现方法很简单:利用Pandas库中的sample。DataFrame.sample(n=None, frac=None, replace=False,...原创 2017-05-02 14:25:55 · 120081 阅读 · 6 评论 -
Python-Pandas 学习 合并两个含空缺值列表的其中一个方法
在pandas中,合并两个列表有非常非常多的方法,每个方法都因需求不一样,找个时间我把各种情况的写一写,现在先来写一种常会用到,但是可能比较陌生的方法。有以下两个列表。第一个列表,为df1第二个列表为df2考虑一种情景: 我们需要把df1中的空缺值用df2这个列表对应的值来填补。可以使用以下函数:df1.combine_first(df2)结果就如下:原创 2017-04-10 21:01:21 · 1125 阅读 · 0 评论 -
Python-Pandas 学习 append的效率
在Pandas中,列表的合并有很多种方式,其中有一种是 .append()。这个方法的效率很低,不推荐使用。建议先转为list后,再直接使用.append()。具体来说,考虑以下场景:假如有一份表格,1000W条(随便举),要按照某个属性groupby(分组)后,重新组成一个表输出的。这个时候就可以用转为list在append会快很多,非常多。import pandas as pd原创 2017-04-11 13:20:32 · 19459 阅读 · 3 评论 -
python pandas 怎么替换某列的一个值?
摘要:本文主要是讲解怎么样替换某一列的一个值。应用场景:假如我们有以下的数据集:我们想把里面不是pre的字符串全部换成Nonpre,我们要怎么做呢?做法很简单。df['col2']=df['col1']df.loc[df['col1'] !=' pre','col2']=Nonpre原创 2017-05-10 22:53:14 · 57647 阅读 · 0 评论