第六章 数据载入、存储及文件格式
pd.read_csv(,,,)
sep='' 分隔符
header=None 数据是否包含列标题
name= 自定义列标题
index_col='列名' 规定某列为index
逗号分隔文件
第七章 7.3 字符串操作
pandas允许你将字符串和正则表达式简洁地应用到整个数据数组上,此外还能处理数据缺失带来的困扰。
str的方法 str
count,endwith,startwith,join,index,find,replace,strip,rstrip,lstrip,split,lower,uppe
2.正则表达式 re模块
三个主题:模式匹配、替代、拆分
match 开头
search 首次
findall 所有 finditer
sub替代
split
编译模式 re.compile
清理杂乱的数据集用于分析通常需要大量的字符串处理和正则化。包含字符串的列有时会含有缺失数据,使事情变得复杂
3.跳过NA值的字符串操作
可以使用data.map将字符串和有效的正则表达式方法(以lambda或其他函数的方式传递)应用到每个值上,但是在NA(null)值上会失败。为了解决这个问题,Series有面向数组的方法用于跳过NA值的字符串操作。这些方法通过Series的str属性进行调用
第八章 数据规整:连接、联合与重塑
背景:数据可能分布在多个文件或数据库中,抑或以某种不易于分析的格式进行排列。
1.分层索引
(1)设置分层索引
分