从文本文件读取数据的三种方式使用read,readline,readlins获取数据
获取文件对象:
file_object=open(name,mode,buffering)
name:要读取的文件名
mode:打开文件的模式,常用r、r+、w、w+、a、a+
buffering:文件所需的缓冲区大小,选填;0表示无缓冲,1表示线路缓冲
读取文件内容:
read:读取文件中的所有数据,返回字符串
readline:读取文件中的一行数据,返回字符串
readlines:读取文件中的所有数据,返回列表
with:文件打开方法
2.使用Numpy的loadtxt、load、fromfile获取数据
loadtxt:从txt中获取数据
loadtxt(name,dtype,delimiter)
name:文件名
dtype:数据类型
delimiter:分隔符
load:读取numpy专用的二进制文件,使用Numpy的load方法可以读取Numpy专用的二进制数据文件,从npy、npz或pickled文件加载数组或pickled对象,该文件通常基于Numpy的save或savez等方法产生
load(name)
fromfile:读取简单的文本和二进制文件,使用Numpy的fromfile方法可以读取简单的文本文件数据以及二进制数据。通常情况下,该方法读取的数据来源于Numpy的tofile方法,即通过Numpy的tofile方法将特定数据保存为文件(默认为二进制数据文件,无论文件扩展名如何定义),然后通过fromfile方法读取该二进制文件。
fromfile(name,dtype,count,sep=“”)
name:文件名
dtype:数据类型
count:=-1意味着读取所有的数据
sep:分隔符
3.使用Pandas的read_csv、read_fwf、read_table读取数据
read_csv:读取csv的文件
read_fwf:通过read_fwf方法可以读取表格或固定宽度格式的文本行到数据框
read_table:通过read_table方法可以读取通用分隔符分隔的数据文件到数据框pandas其他数据读取方法各种场景下的数据读取方式
对于纯文本格式或非格式化、非结构化的数据,通常用于自然语言处理、非结构化文本解析、应用正则表达式等后续应用场景下,Python默认的3种方法更为适合。
对于结构化的、纯数值型的数据,并且主要用于矩阵计算、数据建模的,使用Numpy的loadtxt方法更为方便,例如本书中使用的sklearn本身就依赖于Numpy。
对于二进制的数据处理,使用Numpy的load和fromfile方法更为合适。
对于结构化的、探索性的数据统计和分析场景,使用Pandas方法进行读取效果更佳,因为其提供了类似于R的数据框,可以实现“仿SQL”式的操作方式,对数据进行任意翻转、切片(块等)、关联等都非常方便。
对于结构化的、数值型和文本型组合的数据统计分析场景,使用Pandas更为合适,因为每个数据框中几乎可以装载并处理任意格式的数据。
从Excel获取运营数据
demo.xlsx表内容
查看所有sheet列表
查看sheet1的数据情况
查看sheet特定切片数据
查看整个sheet数据
从关系型数据库MySQL读取运营数据