1.pandas数据分析中,读取数据并选取其中一行想要输出,但是输出过程中数据并未全部显示,中间的部分用省略号代替了,但是,为了调试或发现所有值的可能性,有时需要数据全部显示,那么如何能让其显示全部数据?
参考https://www.2cto.com/kf/201712/704750.html,在代码中加入
#pda.set_option('display.width',23752) #这个可以不加
pda.set_option('display.max_rows',None)
就可以啦!!!
还可以借鉴
https://blog.csdn.net/xiaodongxiexie/article/details/70147683了解set_option更多参数。
https://blog.csdn.net/qq_16234613/article/details/64217337了解更多pandas的用法。
2.参考https://blog.csdn.net/u012965373/article/details/70158129做pandas匹配时,运行到
print(result.str.get(0))
时出错,可能是文章中是python2,而我用的是python3的原因吧,最后参考https://blog.csdn.net/claroja/article/details/64929819,将最后的输出改成
#print(data.str.extract(pattern,expand=True)) #匹配不上的会用nan代替
print(data.str.extractall(pattern)) #只返回匹配成功的
就可以啦!!!
pandas库了解可参考:https://www.cnblogs.com/P--K/p/8443995.html
3.pandas根据列的值选取某些行,比如“是否合格”这一列,合格记为0,不合格记为1,当想把所有的不合格项单个列出来找规律时,可参考https://blog.csdn.net/KyrieHe/article/details/80422213实现
data1=data.loc[data["是否合格"]==1]
data1.to_csv('unqualified_data.csv',encoding="utf-8_sig")
4.想要统计每个食品分类的合格率,参考https://blog.csdn.net/qq_22238533/article/details/72367792(很好的参考)
d3=data.groupby(by=['一级分类','是否合格'])
newdata=d3.size()
print(newdata.reset_index(name='times'))
newdata.to_csv('E:\\ruanjianinstall\\pycharm_project\\20180828\\times.csv',encoding='utf-8_sig')
crosstab_data=pd.crosstab(data.一级分类,data.是否合格,margins=True)
crosstab_data.to_csv('E:\\ruanjianinstall\\pycharm_project\\20180828\\crosstab_data.csv',encoding='utf-8_sig')
增加列的值计算:https://blog.csdn.net/bxprog/article/details/47806409
可能会用到的:https://blog.csdn.net/prince140678/article/details/78811546
5.python读取修改过的csv和xls文件时报错,不能解决,后来直接在虚拟机上打开没有修改过的csv和xls文件,在虚拟机上进行修改,修改完成后再发送到window下,window下可以打开文件,且在pycharm下可以读取(不知道为什么会这样)
6.python中dataframe常见操作:取行、列、切片、统计特征值
https://blog.csdn.net/tanlangqie/article/details/78656588
7.接下来主要参考:
https://blog.csdn.net/lxcnn/article/details/4362500