什么是pandas
pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。
Pandas纳入了大量库和一些标准的数据模型,提供了大量能使我们快速便捷地处理数据的函数和方法。
主要包含两种数据类型:Series和DataFrame
Series可以理解为dict的升级版本,主数组存放numpy数据类型,index数据存放索引
DataFrame相当于多维的Series,有两个索引数组,分别是行索引和列索引,可以理解成Series组成的字典
相关帮助文档
一、如何读取数据库-read_sql
示例代码如下
from sqlalchemy import create_engine
import pandas as pd
username = '用户名'
password = '密码'
host = '连接地址'
db = '数据库'
port = 端口号
link = f'''mysql+pymysql://{username}:{password}@{host}:{port}/{db}?charset=utf8'''
engine = create_engine(link, pool_recycle=3600)
核心方法read_sql
log:pd.DataFrame = pd.read_sql("SELECT * FROM log ORDER BY id DESC ",engine)
执行结果如下
二、如何筛选数据
筛选创建时间大于某个时间点的记录
import datetime
log[log['create_time'] > '2020-01-15 16:14:22']
筛选指定列的DataFrame
直接传递数组给给DataFrame
logs[['user_id','type']]
获取一列Series
logs['type']