python的小白笔记
执一spot
这个作者很懒,什么都没留下…
展开
-
pandas re_index 和rename
今天在处理数据的时候,需要dataframe进行重排,记忆中有两个相似的方法reindex和rename,这里记录一下常见用法和区别:rename:重命名,就是对col进行命名的修改,他只改变col的名字,相当于起了个别名,原来叫a,以后叫breindex:重新索引,他可以修改还列的索引关系以及index‘行的索引关系rename:官方文档给的示例:>>> df = pd.原创 2018-01-12 09:44:59 · 9328 阅读 · 0 评论 -
python deepcopy 与copy
最近在将数据导入mongodb的时候,遇到一些问题:1、多条插入 insert_many() 接收一个list参数(此处为new_post[])2、在list[i]中存储的是一个字典,每次读取文件的时候,给字典赋值(line此处为list,数据来自读取文件)3、将data_es append 到list中,需要使用deepcopy,否则,下一次循环的时候,修改字典data_e原创 2018-01-05 10:35:03 · 269 阅读 · 0 评论 -
pandas chunksize
chunk的type是DataFramepd.concat在此处接受的事一个list(chunks[])原创 2018-01-08 15:52:13 · 8634 阅读 · 0 评论 -
charset 编码判断
处理很多数据时,遇到大量的编码问题,因此想到使用chardet库,通过os的walk方法遍历文件夹,将每个文件的编码方式序列化到一个json文件中,需要使用的时候json load一下就可以了#!/ USR / bin中/ env的蟒 # - * -编码:UTF-8 - * - 进口 argparse 进口 OS 从 chardet的进口检测 进口 JSON #输出的目录的字符原创 2018-01-08 15:56:11 · 443 阅读 · 0 评论 -
pandas笔记,pandas常用操作
常用的dataframe操作:1、df.fillna()2、df.drop(axis = 0/1,[' one','two']); axis=1 删除one,two两列;df.drop(columns = ['one','two'])也可以这样删除某一列3、df.dropna(axis,how = 'any'/'all') axis 同上;any情况下,只要某一行/某一列存在一个na,原创 2018-01-09 10:50:02 · 619 阅读 · 0 评论 -
numpy的动态数组问题
在处理一个文件流时,不想频繁的写入文件,采用list存储读取的数据。但是numpy的array不支持动态扩展的功能,每次np.append都会重新分配数组,然后进行复制。 想起python的list支持动态的append,可以对python数组append,然后通过np.reshape(())实现。np.reshape可以采取缺省值(-1),比如np.reshape((-1,4))代表构造四列原创 2018-01-30 11:16:36 · 5129 阅读 · 0 评论