文章目录
1.数据载入
1.1读写文本文件
(1)文本文件的读取:
文本文件是一种由若干个字符构成的计算机文件,典型的一种顺序文件。CSV是一种逗号分隔的文件格式,分隔符不一定是逗号,又叫做字符分隔文件,文件以纯文本形式存储表格数据(数字和文本)。
在pandas中用read_table
函数来读取文本文件:
pandas.read_table(filepath_or_buffer, sep="\t", header='infer', names=None, index_col=None, dtype=None, engine=None, nrows=None)
在pandas中用read_csv
来读取csv文件:
pandas.read_csv(filepath_or_buffer, sep="\t", header='infer', names=None, index_col=None, dtype=None, engine=None, nrows=None)
参数名称 | 说明 |
---|---|
filepath | 接收string,代表文件路径,无默认 |
sep | 接收string,分隔符。csv默认是逗号,table默认是制表符 |
header | 接收int或者sequence,表示将某行数据作为列名,默认为infer,表示自动识别 |
names | 接收array,表示列名,默认None |
index_col | 接收int,sequence或false,表示索引列的位置,取值为sequence表示多重索引,默认为None |
dtype | 接收dict,代表写入的数据类型,列名为key,数据格式为value,默认为None |
engine | 接收c或python,数据解析引擎,默认c |
nrows | 接收int,表示读前n行,默认None |
df1 = pd.read_csv("data//sunspots.csv")
#读取CSV文件到DataFrame中
print(df1.sample(5))
df2 = pd.read_table("data//sunspots.csv",sep = ",")
#使用read_table,并指定分隔符
print("------------------")
print(df2.sample(5))
df3 = pd.read_csv("data//sunspots.csv",names = ["a","b"])
#文件不包含表头行,允许自动分配默认列名,也可以指定列名
print("------------------")
print(df3.sample(5))
》》》》》》》》》:结果
year counts
54 1754 12.2
174 1874 44.7
150 1850 66.6
12 1712 0.0
84 1784 10.2
------------------
year counts
155 1855 6.7
226 1926 63.9
129 1829 67.0
111 1811 1.4
108 1808 8.1
------------------
a b
274 1973 38
283 1982 115.9
9 1708 10
43 1742 20
132 1831 47.8
(2)文本文件的存储
与读取很类似,用pandas.to_csv
函数实现csv文件的存储。
pandas.to_csv(filepath_or_buffer, sep="\t", na_rep='', columns=None, header=True, index=True, index_label=None, mode='w', encoding=None)
1.2读写excel文件t
(1).pandas 的read_excel函数可以读取“xls”和“xlsx”两种excel文件
pandas.read_excel(io, sheetname, header=0, index_col=None, names=None, dtype)
参数 | 说明 |
---|---|
io | 接收string,表示文件路径,无默认 |
sheetname | 接收string,int表示Excel表内数据的分表位置,默认为0 |
header | 接收int或者sequence,表示将某行数据作为列名,默认为infer,表示自动识别 |
index_col | 接收int,sequence,或者false,表示索引列的位置,取值为sequence则代表多重索引,默认为None |
names | 接收int,sequence,或者false,表示索引列的位置,取值为sequence则代表多重索引,默认为None |
dtype | 接收dict,代表写入的数据类型(key是列名,数据格式为values),默认为None |
xlsx = "data//data_test.xlsx"
df1 = pd.read_excel(xlsx,"Sheet1")
print(df1)
#也可以直接利用:
df2 = pd.read_excel("data//data_test.xlsx","Sheet1")
print("-------------------------------")
print(df2)
》》》》》》》:结果
00101 长裤 黑色 89
0 1123 上衣 红色 129
1 1010 鞋子 蓝色 150
2 100 内衣 灰色 100
-------------------------------
00101 长裤 黑色 89
0 1123 上衣 红色 129
1 1010 鞋子 蓝色 150
2 100 内衣 灰色 100
(2).Excel文件的存储
pandas.to_csv(excel_writer=None, sheetnames=None ,na_rep='', columns=None, header=True, index=True, index_label=None, mode='w', encoding=None)
第一个是路径,第二个默认是sheet1,指定存储Excel Sheet
的名称。