pandas
网球小伙子
这个作者很懒,什么都没留下…
展开
-
dataframe,根据多列信息生成新列
dataframe,根据多列信息生成新列原创 2022-09-23 15:02:02 · 792 阅读 · 1 评论 -
pandas DataFrame实现组内排名
pandas DataFrame实现组内排名原创 2022-09-20 17:47:00 · 820 阅读 · 0 评论 -
自动创建pandas
def make_df(index, cols): df = DataFrame({col: [col + str(i) for i in index] for col in cols}) df.index = index return dfmake_df([1,2,3,4], list('ABCD'))""" A B C D1 A1 B1 C1 D12 A2 B2 C2 D23 A3 B3 C3 D34 A4 B4 C4 D4"""原创 2021-06-30 11:28:45 · 118 阅读 · 0 评论 -
csv文件是asin编码格式,pandas怎么读取
导包import pandas as pd读取pd.read('./test.csv', , engine='python')重点: engine=‘python’原创 2021-05-08 14:24:40 · 1604 阅读 · 1 评论 -
pandas中对列进行去除前后空格操作(考虑nan的情况)
模块导入import pandas as pdimport numpy as np去除函数def f(s): if isinstance(s, float) and np.isnan(s): return s elif isinstance(s, int) or isinstance(s, float): return str(s).strip() elif isinstance(s, str): return s.strip原创 2021-04-20 16:25:48 · 3484 阅读 · 0 评论 -
pandas填充nan方式(向下向上,指定值)
fillna方法pd.fillna()pd[col] = pd[col].fillna()参数:method该参数主要控制自动填充,是向上填充还是向下填充method : {‘backfill’, ‘bfill’, ‘pad’, ‘ffill’, None}, default Nonepad / ffill: 向下自动填充backfill / bfill: 向上自动填充参数value该参数主要是确定填充数值参数limit向上或者向下填充时控制最大填充前几行...原创 2021-04-20 14:38:44 · 3647 阅读 · 0 评论 -
DataFrame中字段的类型判断
说明:如果某一列中有多种类型的数据,那么会被识别为object。单单是str也是object方法:dtype 或者 dtypes直接上代码吧导包import numpy as npimport pandas as pd创建数据data = [[1, '', 0.1, 'lyz']]columns = ['y1', 'y2', 'y3', 'y4']data = pd.DataFrame(data=data, columns=columns)data类型输出data['y1'].原创 2021-02-22 20:13:21 · 3720 阅读 · 0 评论 -
pandas 读excel,日期变成了数字,pandas方法解决
pandas 读excel,日期变成了数字,pandas方法解决excel中的数据是:pandas读取出来是:import pandas as pddata = pd.read_excel('文件路径')data['发货日期'] = data['发货日期'].fillna(method='ffill') # 因为有合并单元格,data解决方法:def date(para): delta = pd.Timedelta(str(int(para))+'days') tim原创 2021-02-08 14:09:10 · 8153 阅读 · 2 评论 -
pandas自动化实战小任务1--对excel表格分 供应商 付款年月 进行汇总(涉及根据即有相同也有不同的index的表格合并)公司的数据
说明:由于是公司的数据,所以对供应商进行映射处理,数据下载连接(免费):数据下载导包import numpy as npimport pandas as pdfrom datetime import datetimefrom pandas import DataFrame读取数据data = pd.read_csv('./data.csv', index_col=0)月份处理(例如:2020年12月)处理函数# 时间转化# 时间转化def month(v): if原创 2020-12-29 21:18:54 · 686 阅读 · 0 评论 -
pandas读取文件时xlrd.biffh.XLRDError: Excel xlsx file; not supported, (可版本不回退)
pandas读取文件时出现以下错误xlrd.biffh.XLRDError: Excel xlsx file; not supported原因在于xlrd更新到了2.0.1版本,只支持.xls文件,所以只要将版本回退就好了具体操作pip uninstall xlrdpip install xlrd==1.2.0 -i https://pypi.douban.com/simple安装完毕重新运行就好了...原创 2020-12-29 11:26:23 · 571 阅读 · 2 评论 -
pandas中字符串object 转化 datetime 类型
import pandas as pdfrom pandas import DataFramefrom dateutil.parser import parse数据data = DataFrame(columns=['date'], data=['2020-11-01','2020-11-05','2020-11-08','2020-11-11'])datadata.info()"""<class 'pandas.core.frame.DataFrame'>Rang原创 2020-11-19 11:36:27 · 1700 阅读 · 1 评论 -
pandas将某函数应用在所有的values上
applymap函数import numpy as npimport pandas as pdfrom pandas import DataFramecolumns = ['a1','a2','a3','a4']index = ['b1','b2','b3']data = np.random.randint(0,100,size=(3,4))df = DataFrame(columns=columns, index=index, data=data)df# 所有的值 +2df.原创 2020-10-16 18:27:32 · 122 阅读 · 0 评论 -
pandas设置index索引的标签名
import numpy as npimport pandas as pdfrom pandas import DataFramecolumns = ['a1','a2','a3','a4']index = ['b1','b2','b3']data = np.random.randint(0,100,size=(3,4))df = DataFrame(columns=columns, index=index, data=data)df添加index索引标签名一共有三种方法,nam原创 2020-10-16 18:15:42 · 36745 阅读 · 0 评论 -
pandas根据某一列删除空行(该列为空或者NaN就认为是空行),也可以指定值来删除
导包import numpy as npimport pandas as pdfrom pandas import DataFrame数据columns = ['a1','a2','a3','a4']index = ['b1','b2','b3']data = np.random.randint(0,100,size=(3,4))df = DataFrame(columns=columns, index=index, data=data)df.loc['b2','a2'] = np.原创 2020-10-16 17:37:02 · 3578 阅读 · 0 评论 -
pandas中将数据导出成csv文件,类型变化问题
相同点: csv、tsv和txt都属于文本文件。不同点:csv和tsv文件的字段间分别由逗号和tab键隔开,而txt文件则没有明确要求,可使用逗号/制表符/空格等 多种不同的符号。所以将pandas中数据导成csv格式之后,所有数据都是文本格式,但是用excel打开csv格式,他会自动识别转化,比如一列全是数字的—》数值型,...原创 2020-09-28 14:33:00 · 2337 阅读 · 0 评论 -
将pandas数据导入mysql中,解决格式问题
导包import pandas as pdimport sqlalchemy as sqlafrom sqlalchemy import create_enginepandas数据来源# 方式一:pd.read_...形式data = pd.read_excel('路径')# 方式二:自己生成columns = ['yy','fdl','jack_tom','mary lucy']index = ['chinese','math','English']data = np.rando原创 2020-09-26 11:37:19 · 579 阅读 · 0 评论 -
pandas技巧--两列相加形成新一列(eval)
data.eval(‘新字段=字段1+字段2’,inplace=True)原创 2020-09-25 15:49:00 · 5871 阅读 · 0 评论 -
pandas中object-->>int,已封装成函数
# object类型转化int类型def str_transfrom_num(features): # features:需要转化的字段,以列表形式 for feature in features: pandas数据[feature] = pandas数据[feature].map({value:index for index, value in enumerate(pandas数据[feature].unique())})...原创 2020-09-25 14:47:58 · 534 阅读 · 0 评论 -
pandas技巧--缺失值处理(包括展示各种缺失情况)
缺失值分布情况# 方式一,图形import missingno as msnomsno.matrix(pandas数据, labels=True)# 方式二,数字pandas数据.info()# 方式三,字段缺失的详细数字pandas数据.字段.isnull().value_counts()处理缺失值# 删除pandas数据.drop# 填充pandas数据.字段.fillna()# 删除缺失值所在的行# 如果删除columns所有字段的缺失值所在行,用dropna()原创 2020-09-25 14:43:13 · 851 阅读 · 0 评论 -
pandas技巧--列名(columns)更改相关操作
导包import numpy as npimport pandas as pdfrom pandas import DataFrame测试数据columns = ['yy','fdl','jack_tom','mary lucy']index = ['chinese','math','English']data = np.random.randint(0,100,size=(3,4))test = DataFrame(columns=columns, index=index, da原创 2020-09-25 11:51:24 · 3909 阅读 · 0 评论