1.pandas数据分割,cut()
cut:是将数据划分成几个区间,每个区间长度一样,区间数据个数不一定一样
qcut:划分区间只能是0—1之间数,差值是分位数,包含0和1,按分位数划分,如果差值a小于1,就没有1000个值,共a*1000个数
2.pandas数据过滤和筛选
np.random.seed(number) number是生成随机数的种子
np.random.randn() 默认生成随机数的种子数是当前时间的时间戳
定义一个种子数,种子数只能用一次
3.pandas读取文件数据
(1)pd.read_csv()
(2)pd.read_table(),默认逗号分隔,使用sep指定分隔符
(3)读取没有标题的csv文件,手动指定数据标题
添加names,即指定列索引
通过添加columns,指定行索引
(4).将读取的数据进行层次化索引
指定行索引
将文件以list形式打开
添加分隔符
(5)通过skiprows读取不规则文件
(6)处理存在NA的数据文件
(7)na_values=将数据进行NaN替换
4.pandas存储文件,df.to_csv(‘路径’)
(1)sys.stdout
不生成文件,不改变文件本身,如果要保存就将sys.stdout替换成要保存的文件名
(2)na_rep=’NULL’对缺失值进行NULL标记