Data Mining/Analysisi
文章平均质量分 58
一路前行1
这个作者很懒,什么都没留下…
展开
-
Box-Cox变换
Box-Cox变换 1 Box-Cox变换 在回归模型号中,Box-Cox变换是对因变量Y作如下变换: (1.1) 这里是一个待定变换参数。对不同的,所做的变换自然就不同,所以是一个变换族。它包括了对数变换(=0),平方根变换()和倒数变换(=-1)等常用变换。 图1. 变换前变量的分布 图2.变换后变量分布 对因变量的n个观测值,应用上转载 2017-11-06 20:31:44 · 13580 阅读 · 0 评论 -
特征工程
一、特征工程是什么 有这么一句话在业界广泛流传:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。那特征工程到底是什么呢?顾名思义,其本质是一项工程活动,目的是最大限度地从原始数据中提取特征以供算法和模型使用。通过总结和归纳,人们认为特征工程包括以下方面: 特征处理是特征工程的核心部分,sklearn提供了较为完整的特征处理方法,包括数据预处理,特征选择,降维转载 2018-01-23 10:50:27 · 2860 阅读 · 1 评论 -
python3下如何使Word2Vec每次运行结果一致
最近在使用Word2Vec时发现一个奇怪的问题,那就是每次运行出来的结果不一致,这就是得程序复现带来了很多麻烦。多方查阅资料后终于解决了这个难题,下面说一下我的解决方案。 查阅Word2Vec的官方文档,在seed参数哪里可以发现这样的解释:seed (int) – Seed for the random number generator. Initial vectors for ...原创 2018-05-09 08:46:34 · 2495 阅读 · 0 评论 -
引入lightgbm报错:OSError: [WinError 126] 找不到指定的模块。
import lightgbm as lgb File "D:\Python\Python36-32\lib\site-packages\lightgbm\__init__.py", line 8, in <module> from .basic import Booster, Dataset File "D:\Python\Python36-32\lib\si...原创 2019-02-15 12:44:28 · 4279 阅读 · 7 评论 -
天池津南数字制造算法【赛场一】第32名比赛总结
一、数据预处理 由于所给数据“脏”数据比较多,所以首先需要做大量的预处理,包括:1.处理类型错误的数据。如‘A25’列中数据应该为数值型却混入了一个‘1900/3/10 0:00’时间数据。2.处理时间数据的异常。3.处理明显的数值异常。4.使用中位数填充缺失值二、特征工程 特征工程是决定一个比赛的关键,因此在特征上我们做了大量处理,包括:1...原创 2019-03-25 21:17:31 · 1071 阅读 · 5 评论 -
kaggle Santander Customer Transaction Prediction总结
记一次失败的竞赛经历数据分析1.样本不均衡。在20万训练数据集中,正样本(y=1)为2万,负样本(y=0)为18万。2.所有原始特征之间相关性很小。这一点很奇怪,很少有数据集所有特征之间相关性都很小的。3.所有特征的分布都类似。这一点也是挺奇怪,应该是主办方对数据做了某种变换。特征工程1.由于这个赛题所有特征均为匿名特征且特征之间没有什么关联,所以可以考虑对数据进行重新洗牌...原创 2019-04-27 21:24:02 · 2192 阅读 · 1 评论