参考文档: https://github.com/peiss/ant-learn-pandas
1、pandas需要先读取表格类型
的数据,然后进行分析
数据类型 | 说明 | Pandas读取方法 |
---|---|---|
csv、tsv、txt | 用逗号分隔(csv)、tab分割的纯文本文件(txt) | pd.read_csv |
excel | 微软中xls或者xlsx文件 | pd.read_excel |
mysql | 关系型数据库 | pd.read_sql |
2、代码实例
import pandas as pd
#1、读取CSV,使用默认的标题行、逗号分隔符
fpath = "./datas/ml-latest-small/ratings.csv"
# 使用pd.read_csv读取数据
ratings = pd.read_csv(fpath)
# 查看前5行数据
#print(ratings.head())
# 查看数据的形状,返回(行数、列数)
print(ratings.shape)
# 查看列名列表
print(ratings.columns)
# 查看索引列
print(ratings.index)
# 查看每列的数据类型
print(ratings.dtypes)
#2、读取txt文件,自己指定分隔符、列名
fpath = "./datas/crazyant/access_pvuv.txt"
pvuv = pd.read_csv(
fpath,
sep="\t",
header=None,
names=['pdate', 'pv', 'uv']
)
print(pvuv)
#3、读取excel文件
fpath = "./datas/crazyant/access_pvuv.xlsx"
pvuv = pd.read_excel(fpath)
print(pvuv)
#4、读取MySQL数据库
import pymysql
conn = pymysql.connect(
host='127.0.0.1',
user='root',
password='qwe123',
database='books',
charset='utf8'
)
mysql_page = pd.read_sql("select * from history", con=conn)
print(mysql_page)