Pandas需要先读取表格类型的数据,然后进行分析
下文将对上述不同类型文件的读取进行展开:
import pandas as pd
1.读取纯文本文件
1.1 读取CSV,使用默认的标题行、逗号分隔符
fpath = "./data/rating.csv"
#使用pd.read_scv读取数据
ratings = pd.read_csv(fpath)
#查看前几行数据
ratings.head()
#查看数据的形状,返回(行数、列数)
ratings.shape
#查看列名列表
ratings.columns
#查看索引列
ratings.index #开始索引,结束索引,以及间隔
#查看每列的数据类型
ratings.dtypes
1.2 读取txt文件,自己指定分隔符、列名
fpath = "./data/puv.txt"
puv = pd.read_csv(
path,
sep="\t",
header=None,#txt文件中没有标题
names=['pdate','pv','uv']#自己定义列名
2.读取excel文件
fpath = "./data/pvuv.xlsx"
pvuv = pd.read_excel(fpath)
3. 读取MiySQL数据库
import pymysql
conn = pymysql.connect(
host ='127.0.0.1',
user = 'root',
password = '12345678',
database = 'test',
charset = 'utf8'
)
mysql_page = pd.read_sql ("select * from crazyant_pvuv",con=conn)
conn.close() #读取完数据后记得关闭连接,否则可能导致资源的浪费