学习总结
import pandas as pd # 数据处理,数据分析
data = pd.DataFrame(data) # 将list变为DataFrame格式,方便使用pandas进行分析
data.shape # 显示数据大小
data.info() # 查看数据行列信息,可以大概了解是否有缺失值
data.head(N) # 显示数据的前N行,默认前五行
del data["update_date"] # 删除 update_date 特征(删除某一列)
split()
- 用途
split() 通过指定分隔符对字符串进行切片,如果参数num有指定值,则分隔num+1个字符串
- 语法
str.split(str="", num=string.count(str)).
- str – 分隔符,默认为所有的空字符,包括空格、换行(\n)、制表符(\t)等。
- num – 分割次数。默认为 -1, 即分隔所有。
返回分隔后的字符串列表
set()
- 用途
set() 创建一个无序不重复的元素集,可进行关系测试,删除重复数据,还可以计算交集、差集、并集等
- 语法
class set([iterable])
- iterable – 可迭代对象对象;
返回新的集合对象。
也可以删除重复的字符串
groupby()
reset_index()
参考自 https://blog.csdn.net/a1272899331/article/details/104936079
set_index()将某一列作为 index
df.reset_index() #默认drop=False 获得新的index,原来的index变成数据列保留下来
df.reset_index(drop=True) #如果你不想保留原来的index,drop=True
参考资料: