python pandas读取文件内容_Python之Pandas 简介与Pandas 读取csv文件及相关操作01

importpandas as pd

df=pd.read_csv('hotelreviews50_1.csv') #hotelreviews50_1.csv文件与.py文件在同一级目录下

print(df.head(3)) #读取前3行

控制台输出:

1504684-20200626110027086-1322015728.png

从输出可见,默认会将第一行当成列名

(2)在读数之后自定义标题

importpandas as pd

df=pd.read_csv('hotelreviews50_1.csv') #hotelreviews50_1.csv文件与.py文件在同一级目录下#在读数之后自定义标题

columns_name=['mysql_id','hotelname','customername','reviewtime','checktime','reviews','scores','type','room','useful','likenumber']

df.columns=columns_nameprint(df.head(3)) #读取前3行

控制台输出:

1504684-20200626111924221-402424117.png

(3)csv文件没有列标题,从第一行就直接开始是数据的录入了

importpandas as pd

df=pd.read_csv('hotelreviews50_1.csv',header=None) #hotelreviews50_1.csv文件与.py文件在同一级目录下#在读数之后自定义标题

columns_name=['mysql_id','hotelname','customername','reviewtime','checktime','reviews','scores','type','room','useful','likenumber']

df.columns=columns_nameprint(df.head(3)) #读取前3行

这个时候一定要加'header=None', 这样读进来的列名就是系统默认的0,1,2... 序列号

1504684-20200626112342444-1167085495.png

由上可见编号为201 的数据读进来了。

(4)使用pandas读取csv文件的指定列方法:pd.read_csv("filepath",usecols=[0,1,2,...],[encoding='编码'])

读取csv文件中每行的前3列

importpandas as pd

df=pd.read_csv('hotelreviews50_1.csv',header=None,usecols=[0,1,2,3]) #hotelreviews50_1.csv文件与.py文件在同一级目录下#在读数之后自定义标题#columns_name=['mysql_id','hotelname','customername','reviewtime','checktime','reviews','scores','type','room','useful','likenumber']

columns_name=['mysql_id','hotelname','customername','reviewtime']

df.columns=columns_nameprint(df.head(3)) #读取前3行

控制台输出:

1504684-20200626135101430-747797286.png

(5)pandas 在Dataframe中新添加一列

其实在Dataframe中新添加一列很简单,直接指明列名,然后赋值就可以了。

df['split_word_result']='new'

importpandas as pd

df=pd.read_csv('hotelreviews50_1.csv',header=None) #hotelreviews50_1.csv文件与.py文件在同一级目录下#在读数之后自定义标题

columns_name=['mysql_id','hotelname','customername','reviewtime','checktime','reviews','scores','type','room','useful','likenumber']

df.columns=columns_name

df['split_word_result']='new'

print(df.head(3))

控制台输出:

1504684-20200626153308854-1573847279.png

3.Pandas查看数据表信息

(1)维度查看

利用df.shape

importpandas as pd

df=pd.read_csv('hotelreviews50_1.csv',header=None,usecols=[0,1,2,3]) #hotelreviews50_1.csv文件与.py文件在同一级目录下#在读数之后自定义标题#columns_name=['mysql_id','hotelname','customername','reviewtime','checktime','reviews','scores','type','room','useful','likenumber']

columns_name=['mysql_id','hotelname','customername','reviewtime']

df.columns=columns_nameprint(df.head(3)) #读取前3行

print(df.shape)

控制台输出:

1504684-20200626135902290-2083056249.png

(2)数据表基本信息(维度、列名称、数据格式、所占空间等)

importpandas as pd

df=pd.read_csv('hotelreviews50_1.csv',header=None,usecols=[0,1,2,3]) #hotelreviews50_1.csv文件与.py文件在同一级目录下#在读数之后自定义标题#columns_name=['mysql_id','hotelname','customername','reviewtime','checktime','reviews','scores','type','room','useful','likenumber']

columns_name=['mysql_id','hotelname','customername','reviewtime']

df.columns=columns_nameprint(df.head(3)) #读取前3行

print(df.info())

控制台输出:

D:\softwaretools\anaconda\python.exe D:/pycharmprojects/hoteltest01/hoteltest01/test_csv_pandas.py

mysql_id hotelname customername reviewtime

0201 杭州马可波罗假日酒店 _***7 发表于2020-05-25

1 202 杭州马可波罗假日酒店 舟***猫 发表于2020-04-10

2 203 杭州马可波罗假日酒店 1***8 发表于2020-05-05

RangeIndex:50 entries, 0 to 49Data columns (total4columns):

mysql_id50 non-null int64

hotelname50 non-null object

customername50 non-null object

reviewtime50 non-null object

dtypes: int64(1), object(3)

memory usage:1.6+KB

None

(3)每一列数据的格式

利用df.dtypes

importpandas as pd

df=pd.read_csv('hotelreviews50_1.csv',header=None,usecols=[0,1,2,3]) #hotelreviews50_1.csv文件与.py文件在同一级目录下#在读数之后自定义标题#columns_name=['mysql_id','hotelname','customername','reviewtime','checktime','reviews','scores','type','room','useful','likenumber']

columns_name=['mysql_id','hotelname','customername','reviewtime']

df.columns=columns_nameprint(df.head(3)) #读取前3行

print(df.dtypes)

控制台输出:

D:\softwaretools\anaconda\python.exe D:/pycharmprojects/hoteltest01/hoteltest01/test_csv_pandas.py

mysql_id hotelname customername reviewtime

0201 杭州马可波罗假日酒店 _***7 发表于2020-05-25

1 202 杭州马可波罗假日酒店 舟***猫 发表于2020-04-10

2 203 杭州马可波罗假日酒店 1***8 发表于2020-05-05mysql_id int64

hotelname object

customername object

reviewtime object

dtype: object

(4)查看前3行数据、后3行数据

df.head() #默认前10行数据,注意:可以在head函数中填写参数,自定义要查看的行数

df.tail() #默认后10 行数据

importpandas as pd

df=pd.read_csv('hotelreviews50_1.csv',header=None,usecols=[0,1,2,3]) #hotelreviews50_1.csv文件与.py文件在同一级目录下#在读数之后自定义标题#columns_name=['mysql_id','hotelname','customername','reviewtime','checktime','reviews','scores','type','room','useful','likenumber']

columns_name=['mysql_id','hotelname','customername','reviewtime']

df.columns=columns_nameprint(df.head(3)) #读取前3行

print(df.tail(3)) #读取后3行

控制台输出:

1504684-20200626140927194-706527021.png

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值