pandas学习笔记
幸运的Alina
这个作者很懒,什么都没留下…
展开
-
利用itertuples对DataFrame进行遍历
最近在做推荐系统实践的时候需要生成物品同现矩阵和用户物品矩阵,发现了对DataFrame对象进行遍历很方便的函数itertuples与此相关的有如下:iterrows() : 将DataFrame迭代成(index ,series)iteritems(): 将DataFrame迭代成(列名,series)itertuples(): 将DataFrame迭代成元组示例如下:...原创 2019-05-09 14:53:51 · 25259 阅读 · 0 评论 -
Pandas数据拼接操作merge、join、concat
在做数据处理过程中会遇到多个数据集之间进行拼接的操作,这里由于平时都是用的Pandas读取的数据集,所以一般是针对的是DataFrame类型的数据进行拼接操作。1. merge用于通过一个或多个键将两个数据集的行连接起来,类似于 SQL 中的 JOIN。该函数的典型应用场景是,针对同一个主键存在两张包含不同字段的表,现在我们想把他们整合到一张表里。在此典型情况下,结果集的行数并没有增加,列...原创 2019-03-25 15:53:02 · 1308 阅读 · 0 评论 -
Pandas读取tsv报ParserError: Error tokenizing data. C error
在加载tsv格式的文件的时候,报错ParserError: Error tokenizing data. C error: Expected 2 fields in line 43043, saw 3train=pd.read_csv("../input/TrainData.tsv",sep="\t",delimiter="\t")后面检查了下加了如下的参数就解决了tra...原创 2019-02-25 15:21:30 · 5493 阅读 · 0 评论 -
pandas聚合函数groupby
1.groupby聚合函数汇总min() 最小值max() 最大值sum() 求和mean() 平均数std() 标准差size() 按照groupby的值计算该值的个数 与count函数的区别在于,size函数会计算NAN值,而count函数不会计算NAN值count() 计算个数...原创 2019-02-06 18:48:25 · 11426 阅读 · 0 评论 -
pandas中通过iloc ,loc,ix索引
关于Pandas中的DataFrame数据结构,可以类比数据库中的表格或者是Excel 表格,带有行索引和列索引。下面我们将会讲解其索引的方式。首先解析下DataFrame主要有三个核心:Data :表格中的数据index : 行索引columns:列名我们先创建一个DataFramedf=pd.DataFrame({'x':range(3),'y':range(2,5...原创 2018-08-07 10:33:53 · 1054 阅读 · 0 评论 -
python数据处理pandas
近期做数据处理做的比较多,对用到的Pandas模块里面的方法做下总结,以便自己以后可以更容易的去查看自己所学:import pandas as pd df=pd.read_csv('data.csv')1)删掉数据中的异常值 df.drop(df[df.price>100].index,inplace=True)删掉某列:删掉列名为price的整列数据,axis为...原创 2018-07-03 18:13:40 · 458 阅读 · 0 评论 -
pandas处理时间汇总
1. dateframe中读取的时候直接读取为时间序列格式,ps:有时候直接利用pandas读取数据的时候,时间列直接存储为了string类型,这个时候就不能够直接支持时间相关的操作了。train=pd.read_csv("../input/train.csv",parse_dates=['first_active_month'])#读取文件的时候用parse_dates参数来指定列,...原创 2019-02-06 17:45:31 · 3301 阅读 · 0 评论 -
将Dataframe数据一次性导入到Mysql
背景: 我们平时使用Pandas读取数据的时候还会涉及到将所读数据插入数据库中,今天就记录下怎么快速的讲DataFrame数据导入mysql这里需要用的函数是pandas.io.sql.to_sql这里需要注意的是我们使用的是sqlalchemy引擎,这也是有原因的。然后对to_sql里面的参数进行下解析:frame: 指的是数据Dataframe型name: 指将要放的...原创 2018-10-27 16:22:29 · 4759 阅读 · 0 评论