模板
封装好的python代码
弎见
这个作者很懒,什么都没留下…
展开
-
python构造数据比例新特征
特征工程构造新特征时, 可以考虑构造比例特征: 该特征为某标签时所占总数据的比例原创 2020-05-05 23:52:48 · 292 阅读 · 0 评论 -
matplotlib画子图: plt.subplot 与 plt.subplots
在一张画布上画多个子图, 尝试两种方式:plt.subplots(nrows, ncols) 子图需要一个一个的指定plt.subplot(nrows, ncols, i) 子图可以使用for循环一. plt.subplots()fig, axes = plt.subplots(nrows = 3, ncols = 2, figsize = (12, 12))sns.boxplot(...原创 2020-03-29 10:17:33 · 4624 阅读 · 0 评论 -
EDA探索性数据分析 -- 联合国粮农组织: 水资源
EDA探索性数据分析: 切片分析; 缺失值; 单特征; 数据对数变换; 数据分析维度; 变量关系可视化展示原创 2020-03-28 01:09:18 · 926 阅读 · 6 评论 -
创建子表并快速测试唯一性的封装(自定义)函数
从一个大数据中创建子表并快速测试唯一性的辅助函数player_index = 'playerShort'player_cols = ['birthday', 'height', 'weight', 'position', 'photoID', 'rater1', 'rater2']def get_subgroup(dataframe, g_index, g_columns): g ...原创 2020-03-08 18:52:48 · 159 阅读 · 0 评论 -
特征工程--剔除共线特征
所谓共线性,指的是自变量之间存在较强甚至完全的线性相关关系。这会导致模型预测能力下降,增加对于模型结果的解释成本。如:plot_data = data[['A', 'B']].dropna()plt.plot(plot_data['A'], plot_data['B'], 'bo')plt.xlabel('Site EUI'); plt.ylabel('Weather Norm EUI'...原创 2020-03-06 10:39:24 · 1649 阅读 · 0 评论 -
特征重要性评估及筛选
sklearn中特征重要性的计算方法, 基于重要性来进行特征选择原创 2020-03-04 17:55:21 · 3197 阅读 · 1 评论 -
PairGrid两两关系图&皮尔逊相关系数
Pearson相关系数,帮助我们来筛选特征 ; 用PairGrid 可以按我们的需求去自定义下需要展示的部分原创 2020-02-29 11:05:41 · 1833 阅读 · 0 评论 -
剔除离群点
离群点的选择需要斟酌一下,这里选择的方法是extreme outlier。First Quartile − 3 ∗ Interquartile RangeFirst Quartile + 3 ∗ Interquartile Range另一种方法是3倍标准差(std)原创 2020-02-29 10:50:32 · 9925 阅读 · 0 评论 -
python查看数据缺失值比例模板
对于一个DataFrame数据, 如何查看其缺失值的情况%matplotlib inlineimport missingno as msnomsno.matrix(data, figsize = (16, 5))def missing_values_table(df): mis_val = df.isnull().sum() # 总缺失值 mis_val_percent...原创 2020-02-28 14:48:23 · 4872 阅读 · 0 评论