在家无聊,不如跟我一起学Python,从数据获取、数据清洗,到数据探索、数据可视化,我会的都会分享,不会的我会继续学习,学无止境,今天分享的是文本数据的导入,一起学习吧!
一、CSV文件读取
打开原始的数据如下所示,通过写代码读取数据,当我们处理的数据量很大时,通过写代码的方式,简洁并且高效。
程序代码都放到代码框里了,大家一定要动手多练练!
!type D:python数据分析数据shuju1.csv #查看数据情况
!type D:python数据分析数据shuju1.csv #查看数据情况
df = pd.read_table(open('D:/python数据分析/数据/shuju1.csv'),sep=',') #指定分隔符
df
df = pd.read_csv(open('D:/python数据分析/数据/shuju1.csv'),index_col='id') #指定行索引
df
df = pd.read_csv(open('D:/python数据分析/数据/shuju1.csv'),index_col='id') #指定行索引
df
二、TXT文件读取
除了数值型数据,这种文本数据在数据分析时,也占了很大的比重,比如商品评论分析,网站舆情监测分析,前期都要做很多文本数据的处理,数据处理的好坏,关乎到数据结果,本例的文本数据如下
!type D:python数据分析数据shuju3.txt #数据情况
!type D:python数据分析数据shuju3.txt #数据情况
!type D:python数据分析数据shuju3.txt #数据情况
df = pd.read_table(open('D:/python数据分析/数据/shuju3.txt'),sep='s+') #正则表达式的使用
df
df = pd.read_table(open('D:/python数据分析/数据/shuju3.txt'),sep='s+') #正则表达式的使用
df
三、文本数据存储
数据清洗阶段完成后,可以将“干净”的数据导出,作为一个新样本研究,其研究质量会有大幅度的提升。
df.to_csv('D:/python数据分析/数据/out1.csv') #存储文本数据
!type D:python数据分析数据out1.csv
df.to_csv('D:/python数据分析/数据/out2.csv',sep='?') #指定分隔符,存储文本数据
!type D:python数据分析数据out2.csv
df.to_csv('D:/python数据分析/数据/out3.csv',index=False) #处理行和列索引
!type D:python数据分析数据out3.csv
df.to_csv('D:/python数据分析/数据/out3.csv',index=False) #处理行和列索引
!type D:python数据分析数据out3.csv