pandas
MusicDancing
这个作者很懒,什么都没留下…
展开
-
pandas 多进程并发 与python加速
123wqs原创 2024-01-16 14:55:56 · 934 阅读 · 0 评论 -
优化pandas运行速度
本篇将要介绍几种pandas中常用到的方法,对于这些方法使用存在哪些需要注意的问题,以及如何对它们进行速度提升。将datetime数据与时间序列一起使用的优点进行批量计算的最有效途径通过HDFStore存储数据节省时间参考 还在抱怨pandas运行速度慢?这几个方法会颠覆你的看法...原创 2021-07-12 11:57:05 · 1158 阅读 · 0 评论 -
pandas read_sql 读取数据库
1.pandas.read_sql 可以在数据库中执行指定的SQL语句查询,以DataFrame 的类型返回查询结果。import sqlalchemyimport pandas as pd# 创建数据库连接,这里使用的是pymysqlengine = sqlalchemy.create_engine("mysql+pymysql://username:password@ip:port/store_name")sql = "select * from test where id = %(原创 2021-03-23 12:43:40 · 7720 阅读 · 0 评论 -
pandas 求两个文件的交集
1.data1 = pd.read_csv('aa.txt')data1.columns = ['id', 't1', 't2']data2 = pd.read_csv('bb.txt')data = data1[data1['id'].isin(data2['id'])]print('join_set_rate = %.6f' % (len(data) / len(data1)))原创 2021-03-18 19:57:48 · 731 阅读 · 0 评论 -
pandas 匿名函数与聚合函数的使用
针对“注册日期”列计算已注册天数备注:这种速度很慢!# 使用apply()对某一列进行匿名函数映射try: today = datetime.datetime.today() data['reg_days'] = data['reg_dt'].apply( lambda x: (today - datetime.datetime.strptime(x, '%Y-%m-%d')).days)except Exception as e: print('no原创 2020-12-18 10:11:02 · 1003 阅读 · 0 评论 -
pandas 数据处理
1. 数据去空import numpy as npimport pandas as pddf = pd.read_csv('data.csv', sep=',')print('*' * 10, '数据总量:', df.shape[0], ' 特征数量:', df.shape[1])# 删除空值行data = df.dropna(how='all')#data = df.dropna(how='any')# 删除空值列data = data.dropna(how='all', axi.原创 2020-11-30 20:44:40 · 402 阅读 · 1 评论 -
pandas 数据导出
1. 导出到csv文件# index=0,忽略索引;header=0,忽略表头;mode='a',可追加data.to_csv(data_output_path, index=0, header=0, sep='\t', float_format='%.4f', mode='a')# columns可以指定要保存的列data.to_csv(data_output_path, columns=['score']) 2. 导出到excel文件data.to_excel(data_outp.原创 2020-12-17 20:03:18 · 1146 阅读 · 0 评论 -
pandas 行操作
1. 筛选满足条件的行# 筛选出pt在指定日期列表中的行data = data[data['pt'].isin(date_list)]# 保留满足指定条件的行data = data[data['pt'] == '2020-11-28']原创 2020-12-17 19:57:19 · 1095 阅读 · 0 评论 -
pandas 列操作
1. 选择指定列df_cc = data[['cc1', 'cc2']]2. 删除指定列# 删除指定列df_aa = data['aa']df_bb = data['bb']data = data.drop(['aa', 'bb'], axis=1) # 删除索引列data = data.reset_index(drop=True)3. 更改列名data.columns = ['aa_new', 'bb_new']4. 增加一列data['pt'] = '..原创 2020-12-17 19:54:24 · 3637 阅读 · 1 评论 -
pandas 分批次读取大文件---chunkSize
当要处理一个较大文件时,一次性加载到内存可能导致内存溢出,pandas提供了一种以迭代器的方式读取文件,我们可以手动设置每个批次要读取的数据条数chunkSize。import pandas as pdimport chardet# 检测文件编码with open(r'data.txt', 'rb') as f: encode = chardet.detect(f.readline())['encoding']print(encode)# 建议如果检测出编码为ascii ...原创 2020-12-15 19:50:12 · 2652 阅读 · 0 评论