数据处理与挖掘
潜心修行的研究者
潜心修行
展开
-
数据挖掘竞赛中常用的ML
ML RecapLinear ModelsLogistic RegressionSVMTree-based ModelsDecision TreeRF(随机森林)GBDT(梯度提升决策树)Neural Networks kNN使用的机器学习库主要是:scikit-learn、lightGBM和XGBoost。一,随机森林1,对随机森林直观的理解...原创 2018-04-23 19:50:26 · 719 阅读 · 0 评论 -
特征预处理和特征生成 (三)缺失值的处理
一,填充缺失值填充NaN的方法要取决于特定情况! 填充缺失值常用的方法有以下三种:将NaN替换为一个常数,如-1,-999等等。 这种方法可以认为是将缺失值看成了一个单独的类别。这种方法的缺点是线性网络的性能会受到影响。将NaN替换为均值或者中位数、众数等。 这种方法通常对简单线性模型和神经网络有益。但是对基于树的模型而言,首先选择缺失值的对象可能会更困难。通过已有的值构建出缺...原创 2018-05-02 11:33:20 · 3637 阅读 · 0 评论 -
特征预处理的一些常见问题
1,怎样降低outliers对non-tree models的影响? 2,对于tree-based models,什么情况下LabelEncoding比OneHotEncoding效果好? 3,对于tree-based models,什么情况下OneHotEncoding比LabelEncoding效果好 4,对于线性模型,怎样对类别特征编码比较好? 5,怎样从文本和图像中...原创 2018-05-02 11:53:46 · 399 阅读 · 0 评论 -
特征预处理和特征生成 (一)数字特征
数字特征1,特征的预处理Scalingoutliersrank亚线性处理(1)Scaling预处理To [0,1]:MinMaxScaler()To mean=0,std=1:StandardScaler()(2)去除outliers将一些特征的边缘值去掉,如下所示。 使用rankdata预处理:将特征值转换为对应排序后的索引,这种方法比第一种...原创 2018-04-26 10:27:59 · 1800 阅读 · 0 评论 -
特征预处理和特征生成 (二)类别特征和序数特征
类别特征和序数特征类别特征:一般的类别特征,这种特征没有顺序或距离的概念。 例如:性别(男/女)、国家、职业等。序数特征:有着某种意义排序的类别特征,但又不同于数字特征。 例如:学历(学士/硕士/博士)、火车票等级(一等座/二等座),它们虽然是类别特征,但它们在某种意义上又是有顺序或距离的。1,特征的预处理Label EncodingFrequency Encodin...原创 2018-04-26 21:23:57 · 1509 阅读 · 0 评论 -
怎样做好特征工程?
一,特征工程如何充分利用数据进行预测建模就是特征工程要解决的问题! “实际上,所有机器学习算法的成功取决于您如何呈现数据。”1,特征工程的重要性 2,什么是特征工程特征工程是将原始数据转换为能够更好地表示预测模型的底层问题的特征的过程,从而提高对不可见数据的模型预测精度。 “feature engineering is manually desi...原创 2018-05-07 00:50:46 · 3937 阅读 · 0 评论