python
elibneh
这个作者很懒,什么都没留下…
展开
-
pandas根据条件赋值
pandas根据条件赋值:常用条件,多条件并行、是否相等、字符串是否包含、是否为nan等。原创 2022-01-24 19:46:54 · 8432 阅读 · 0 评论 -
pandas数据处理函数汇总
获取unique_values:pd.unique(data['col']) 建立透视表格:data.pivot_table(index='date',columns='group_id',values='rate') 排序:data.sort_values(by = ['date', 'group_id']) 分组统计:data[['rate', 'group_id', 'date']].groupby(['group_id']).mean() 筛选样本:data[(data['date'] ..原创 2021-01-26 15:42:28 · 679 阅读 · 0 评论 -
特征处理:least frequent value 代码实现
训练集df_train, 测试集df_test离散型特征集cat_features = [a, b, c, d, e, f, g]策略:"unseen labels": df_test里的未见的离散型特征的value值请取代成 df_train里相同特征里的最不常见的值 least frequent value代码实现:import pandas as pdimport numpy as npdf_train = pd.DataFrame([['a', 'b', 'a', 'a',原创 2020-07-18 15:30:07 · 174 阅读 · 0 评论 -
基尼系数计算的两种方法:python实现 简单高效
使用两种方法,通过python计算基尼系数。在sql中如何计算基尼系数,可以查看我的另一篇文章。两篇文章取数相同,可以结合去看。文章中方法1的代码来自于:(加入了一些注释,方便理解)。为精确计算。如果对于基尼系数概念不太清楚,可以看原文的第一部分。http://www.cnblogs.com/longwind09/p/8047539.html方法2和3借鉴资料:方法2和3...原创 2018-11-14 11:00:50 · 4164 阅读 · 0 评论 -
python(pandas)分为点,多个分为点
分为点的函数是pandas中的quantile。如果dataframe的名字是df,那么df.quantile?就可以看到函数的解释。如果后面是一个数字,就是一个分为点;如果要多个分为点,那么要加入一个array。 # 假设df是dataframe名字df.quantile(0.5)#df各个列的中位数数据df.quantile([0,25,0.5,0.75])#...原创 2018-12-26 17:47:07 · 1975 阅读 · 1 评论 -
python排序、得出序号各类方法大全 numpy pandas
整理了一下一行数据的排序和得出序号的各类方法,包括正序和倒序。当然还有pandas包的sort_value和sort_index两个method没有包含在这里。如果是多维的数据,需要将axis=0或者1包含进去。import numpy as npimport pandas as pd# ================================================...原创 2019-01-09 11:28:25 · 19043 阅读 · 1 评论