刚刚开始学习机器学习,学了很短时间的pandas,使用一些api不熟练,经常忘记。
很菜,所以来记一下笔记,加深印象,方便日后查找(百度了太多才找到我想要的。。。。懒得搜了以后)。
----删除异常数据行
datas = df.replace('?', np.nan).dropna(how = 'any') # 所有的’?‘替换为nan,之后只要有列为空,就进行删除操作
-----查询某列为指定数的行
res_df = df.query('UNIT_ID == "10102"') #查找UNIT_ID列中值为“10102”的所有行
------查找UNIT_ID列中值为“10102”并且GA_ID列中值为“910”的所有行
df.query('UNIT_ID == "10102"').query('GA_ID == "910"')
-----查询某列数据值的数量
df['Bare Nuclei'].value_counts()
------判断是否有缺失值
df.isnull()
-----判断哪些列存在缺失值
df.isnull().any()
-----只显示存在缺失值的行
df[df.isnull().values==True]