前文
Pandas 数据读取
Pandas 需要先读取表格类型的数据,然后才能进行分析
数据类型 | 说明 | Pandas 读取方法 |
---|---|---|
csv、tsv、txt | 用逗号分隔,tab 分割的纯文本文件 | pd.read_csv |
excel | 微软 xls 或者 xlsx 文件 | pd.read_excel |
MySQL | 关系型数据库表 | pd.read_sql |
纯文本文件读取
文件内容如下:
使用 pandas 将这些数据读取并打印出来
# author : Woo_home
# create_time : 2020/7/17 22:11
import pandas as pd
file_path = './demo.txt'
'''
file_path:文件路径
sep:分隔符
header 设置为 None 的意思是说这个文件没有标题行
names:自己设置列名
'''
data = pd.read_csv(file_path, sep=" ", header=None, names=['pdate','A','B','C','D'])
print(data)
输出结果:左侧的为索引
csv 文件读取
csv 文件如下
ok,现在用 pandas 来操作这个文件
# author : Woo_home
# create_time : 2020/7/17 20:45
import pandas as pd
# 文件所在路径
file_path = './students.csv'
# 使用 pd.read_csv 读取文件
data = pd.read_csv(file_path)
# 打印前 5 行数据
print(data.head())
# 打印数据的形状,返回(行数,列数)
print(data.shape)
# 打印列名列表
print(data.columns)
# 打印索引列
print(data.index)
# 打印每列的数据类型
print(data.dtypes)
输出结果:
Excel 文件读取
设置 Excel 文件内容如下:
使用 pandas 的 read_excel 方法读取 Excel 文件内容并打印出来,代码如下:
# author : Woo_home
# create_time : 2020/7/18 11:03
import pandas as pd
file_path = './demo.xlsx'
data = pd.read_excel(file_path)
print(data)
输出结果:
MySQL 数据表读取
数据库表中的数据如下:
使用 pandas 的 pd.read_sql 读取表数据,但是该操作需要连接数据库,所以需要安装 pymysql 的一个库,安装命令很简单,pip install pymysql 即可
# author : Woo_home
# create_time : 2020/7/18 11:07
import pandas as pd
# 导入 pymysql
import pymysql
'''
host:主机名称
user:用户名
password:连接密码
database:选择你要连接的数据库名
charset:编码格式
'''
connection = pymysql.connect(
host = '',
user = '',
password = '',
database = 'student',
charset = 'utf8'
)
mysql_page = pd.read_sql("select * from user", con=connection)
print(mysql_page)
输出结果: