自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Iris

山河悠长,代码无量

  • 博客(6)
  • 问答 (1)
  • 收藏
  • 关注

原创 numpy的动态数组问题

在处理一个文件流时,不想频繁的写入文件,采用list存储读取的数据。但是numpy的array不支持动态扩展的功能,每次np.append都会重新分配数组,然后进行复制。 想起python的list支持动态的append,可以对python数组append,然后通过np.reshape(())实现。np.reshape可以采取缺省值(-1),比如np.reshape((-1,4))代表构造四列

2018-01-30 11:16:36 5126

原创 pandas re_index 和rename

今天在处理数据的时候,需要dataframe进行重排,记忆中有两个相似的方法reindex和rename,这里记录一下常见用法和区别:rename:重命名,就是对col进行命名的修改,他只改变col的名字,相当于起了个别名,原来叫a,以后叫breindex:重新索引,他可以修改还列的索引关系以及index‘行的索引关系rename:官方文档给的示例:>>> df = pd.

2018-01-12 09:44:59 9307

原创 pandas笔记,pandas常用操作

常用的dataframe操作:1、df.fillna()2、df.drop(axis = 0/1,[' one','two']); axis=1 删除one,two两列;df.drop(columns = ['one','two'])也可以这样删除某一列3、df.dropna(axis,how = 'any'/'all') axis 同上;any情况下,只要某一行/某一列存在一个na,

2018-01-09 10:50:02 594

原创 charset 编码判断

处理很多数据时,遇到大量的编码问题,因此想到使用chardet库,通过os的walk方法遍历文件夹,将每个文件的编码方式序列化到一个json文件中,需要使用的时候json load一下就可以了#!/ USR / bin中/ env的蟒 # - * -编码:UTF-8 - * - 进口 argparse 进口 OS 从 chardet的进口检测 进口 JSON #输出的目录的字符

2018-01-08 15:56:11 422

原创 pandas chunksize

chunk的type是DataFramepd.concat在此处接受的事一个list(chunks[])

2018-01-08 15:52:13 8604

原创 python deepcopy 与copy

最近在将数据导入mongodb的时候,遇到一些问题:1、多条插入 insert_many() 接收一个list参数(此处为new_post[])2、在list[i]中存储的是一个字典,每次读取文件的时候,给字典赋值(line此处为list,数据来自读取文件)3、将data_es  append 到list中,需要使用deepcopy,否则,下一次循环的时候,修改字典data_e

2018-01-05 10:35:03 259

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除