写文本文件
# to_csv(path_or_buf=None,sep=',',columns=None,header=True,index=True,index_label=None,encoding=None) # path_or_buf:文件路径 # index:布尔值,默认为True,若为False,则将不会显示索引 # sep:分隔符,默认用“.”隔开 # 如果在指定路径下文件不存在,则会新建一个文件夹来保存数据;如果文件已经存在,则会将文件中的内容进行覆盖
下面是一段示例代码
import pandas as pd # 创建一个小表格 df = pd.DataFrame({'first_name':[1,2,3], 'last_name':[4,5,6]}) # 将表格写入到路径为D:\MY_code\my.csv里面去 df.to_csv(r'D:\MY_code\my.csv',index=False) # 运行完,最后运行 输入完毕 '写入完毕' # 输出结果为写入完毕
读文本文件
# read_csv(filepath_or_buffer,sep=',',header='infer',names=None,index_col=None,dtype=None) # filepath_or_buffer:表示文件路径,可以为URL字符串 # sep:指定使用的分隔符,如果不指定默认用","分隔 # header:用于结果的列名列表。如果文件不包含标题行,则应该将该参数设置为None # index_col:用作工作行索引的列编号或者列名,如果给定一个序列,则表示有多个行索引。 # 需要注意的是,在读取文件时,如果传入的是文件的路径,而不是文件名,则会出现报错,解决办法是先切换到该文件的目录下,使用os模块获得文件名
下面是一个小示例
import pandas as pd # 读取指定目录下的csv格式文件 file = open(r'D:\MY_code\my.csv') file_ = pd.read_csv(file) file_ # ---------------------下面是输出结果-------------------- first_name last_name 0 1 4 1 2 5 2 3 6
# Text格式的文件也是比较常见的存储数据的方式,扩展名为".txt",它与上面提到的csv都属于文本文件 # 希望读取Text文件,既可以用read_csv()函数,也可以用read_table()函数
import pandas as pd # 读取文件路径 file = open(r'D:\MY_code\we.txt') # 读取文件内容,这里也可以用read_csv() file_d = pd.read_table(file) file_d # 输出结果与上面一样
读取excel文件
写入excel文件
#to_excel(excel_writer,sheet_name='Sheet1',na_rap='',index=True,columns=None,header=True,index_label=None,encoding=None) # excel_writer:表示读取的文件路径 # sheet_name:表示工作表的名称,可以接收字符串,默认为"Sheet" # na_rap:表示缺失数据 # index:表示是否写行索引,默认为True
下面是一个小示例
df_1 = pd.DataFrame({'coll':['放','心'],'cell':['食','用']}) df_1.to_excel(r'D:\MY_code\qr.xlsx','jupyter知识') '写入完毕' # 结果为写入完毕,表名为jupyter知识
读excel文件
# 用read_excel()函数读取Excel文件 # pandas.read_excel(io,sheet_name=0,header=0,names=None,index_col=None,dtype=None) # io:接收字符串,表示路径对象 # sheet_name:指定要读取的工作表,可接收字符串或者int类型,字符串指工作表名称,int类型指工作表的索引。 # header:用来解析DataFrame的列标签。如果传入一个整数列表,则这些行会合并为一个MultiIndex对象 # index_col:用作行索引的列编号或者列名,如果给定一个序列,则表示有多个行索引。
import pandas as pd # 拿路径 path = r'D:\MY_code\qr.xlsx' # 读取数据 data = pd.read_excel(path) data
读取HTML表格数据文件
# pandas.read_html(io,header=None,index_col=None,attrs=None,encoding=None) # io:表示路径对象 # header:表示指定列标题所在的行 # index_col:表示指定行标题所对应的列 # attrs:默认为None,用于表示表格的属性值
import requests # 读取网站地址 html_data = requests.get('http://baidu.www.com') # 传入网站地址,并转换成 utf-8 的编码格式 html_data_get = read_html(html_data.content,encoding='utf-8') # 展示数据 html_data_get[1]