pandas
奋斗的妹子
这个作者很懒,什么都没留下…
展开
-
pandas形成字典
value为一 个字段df.groupby(‘key’)[‘value’].apply(list).to_dict()标题df_dict = df.to_dict(orient='records')for i in range(len(df_dict)): values = list() for k, v in df_dict[i].items(): values.append(v)原创 2022-02-18 17:50:03 · 680 阅读 · 0 评论 -
统计数据有值率
统计表格里所有字典的有值率,仅需三条简简单单的语句df_result = (pd.DataFrame((df.isnull()).sum()/df.shape[0]).reset_index())df_result.columns=['字段名称','缺失率']df_result['有值率'] = 1-df_result['缺失率']原创 2021-12-28 10:47:08 · 627 阅读 · 0 评论 -
pandas基本操作
1、删除某一列df_color = df_color.drop(‘12345颜’,axis=1)2、使用merge,根据多个条件进行合并df_taskinfo_color = df_taskinfo.merge(df_color,how=‘left’,on=[‘a’,‘b’,‘c’,‘d’])3、读取文件时只选择某几列data = pd.read_csv(‘data.csv’,usecols=[0,1,2])更改某列的名称df_find = pd.concat([df_find1,df_fin原创 2021-10-26 18:42:10 · 647 阅读 · 0 评论 -
将excel中的多个sheet合并为一个sheet
比较简单,直接看代码。import pandas as pd# 获取所有的sheetreader = pd.ExcelFile(r'path')sheet_names = reader.sheet_names# 读取所有sheet的内容,并存入列表中content = []for i in sheet_names: print('正在读取sheet---{}'.format(i)) df = pd.read_excel(part,sheet_names=i) df = df.loc[原创 2021-08-19 16:13:28 · 1497 阅读 · 0 评论 -
多个csv文件合并
读取数据出错pd.read_csv(filepath)时报错:pandas.errors.ParserError: Error tokenizing data. C error: Expected 11 fields in line 5, saw 12翻译:5行应有11列而实际上读到12列,就会报错,解决办法方法一:如果不在乎数据量缺失,可加参数 error_bad_lines=False ,但样本会减少一部分(bad_lines),及读到12列的数据会丢失。方法二:强行设定数据列名,即加参数n原创 2021-08-12 15:22:24 · 543 阅读 · 0 评论