pandas8 数据的载入

1.数据载入

1.1读写文本文件
(1)文本文件的读取:

文本文件是一种由若干个字符构成的计算机文件,典型的一种顺序文件。CSV是一种逗号分隔的文件格式,分隔符不一定是逗号,又叫做字符分隔文件,文件以纯文本形式存储表格数据(数字和文本)。

在pandas中用read_table函数来读取文本文件:

pandas.read_table(filepath_or_buffer, sep="\t", header='infer', names=None, index_col=None, dtype=None, engine=None, nrows=None)

在pandas中用read_csv来读取csv文件:

pandas.read_csv(filepath_or_buffer, sep="\t", header='infer', names=None, index_col=None, dtype=None, engine=None, nrows=None)

参数名称说明
filepath接收string,代表文件路径,无默认
sep接收string,分隔符。csv默认是逗号,table默认是制表符
header接收int或者sequence,表示将某行数据作为列名,默认为infer,表示自动识别
names接收array,表示列名,默认None
index_col接收int,sequence或false,表示索引列的位置,取值为sequence表示多重索引,默认为None
dtype接收dict,代表写入的数据类型,列名为key,数据格式为value,默认为None
engine接收c或python,数据解析引擎,默认c
nrows接收int,表示读前n行,默认None
df1 = pd.read_csv("data//sunspots.csv")
 #读取CSV文件到DataFrame中
print(df1.sample(5))

df2 = pd.read_table("data//sunspots.csv",sep = ",")
 #使用read_table,并指定分隔符
print("------------------")
print(df2.sample(5))
df3 = pd.read_csv("data//sunspots.csv",names = ["a","b"])
 #文件不包含表头行,允许自动分配默认列名,也可以指定列名
print("------------------")
print(df3.sample(5))
》》》》》》》》》:结果
     year  counts
54   1754    12.2
174  1874    44.7
150  1850    66.6
12   1712     0.0
84   1784    10.2
------------------
     year  counts
155  1855     6.7
226  1926    63.9
129  1829    67.0
111  1811     1.4
108  1808     8.1
------------------
        a      b
274  1973     38
283  1982  115.9
9    1708     10
43   1742     20
132  1831   47.8
(2)文本文件的存储

与读取很类似,用pandas.to_csv函数实现csv文件的存储。

pandas.to_csv(filepath_or_buffer, sep="\t", na_rep='', columns=None, header=True, index=True, index_label=None, mode='w', encoding=None)

1.2读写excel文件t
(1).pandas 的read_excel函数可以读取“xls”和“xlsx”两种excel文件

pandas.read_excel(io, sheetname, header=0, index_col=None, names=None, dtype)

参数说明
io接收string,表示文件路径,无默认
sheetname接收string,int表示Excel表内数据的分表位置,默认为0
header接收int或者sequence,表示将某行数据作为列名,默认为infer,表示自动识别
index_col接收int,sequence,或者false,表示索引列的位置,取值为sequence则代表多重索引,默认为None
names接收int,sequence,或者false,表示索引列的位置,取值为sequence则代表多重索引,默认为None
dtype接收dict,代表写入的数据类型(key是列名,数据格式为values),默认为None
xlsx = "data//data_test.xlsx"
df1 = pd.read_excel(xlsx,"Sheet1")
print(df1)
#也可以直接利用: 
df2 =  pd.read_excel("data//data_test.xlsx","Sheet1")
print("-------------------------------")
print(df2)
》》》》》》》:结果
   00101  长裤  黑色   89
0   1123  上衣  红色  129
1   1010  鞋子  蓝色  150
2    100  内衣  灰色  100
-------------------------------
   00101  长裤  黑色   89
0   1123  上衣  红色  129
1   1010  鞋子  蓝色  150
2    100  内衣  灰色  100
(2).Excel文件的存储

pandas.to_csv(excel_writer=None, sheetnames=None ,na_rep='', columns=None, header=True, index=True, index_label=None, mode='w', encoding=None) 第一个是路径,第二个默认是sheet1,指定存储Excel Sheet的名称。

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值