机器学习
文章平均质量分 70
scxyz_
机器学习/深度学习/大数据风控/编程技巧/学习笔记
展开
-
[Sklearn应用] Preprocessing data (三)编码分类特征 Encoding categorical features
此内容在sklearn官网地址: http://scikit-learn.org/stable/modules/preprocessing.html# sklearn版本:0.18.2one-hot-encode 有时特征内容并不是数值,而是字符串类型。如果直接将字符串转成一个对应的数值,造成原本的特征具有大小关系。这是需要使用 one-hot-encode编码格式。两种转原创 2017-06-25 17:13:41 · 2740 阅读 · 0 评论 -
[Sklearn应用] Preprocessing data (四)missing values 缺失值处理
此内容在sklearn官网地址: http://scikit-learn.org/stable/modules/preprocessing.html# sklearn版本:0.18.2 缺失值不能直接删除。缺失值有其存在原因,删除后不仅使可用的数据变少,也会使原本的数据发生改变,影响结果准确性。from sklearn.preprocessing import Imputerim =原创 2017-06-25 21:45:39 · 1484 阅读 · 0 评论 -
[Sklearn应用] Feature Selection 特征选择(一) SelectFromModel
此内容在sklearn官网地址: http://scikit-learn.org/stable/modules/feature_selection.html sklearn版本:0.18.2sklearn.feature_selection The module can be used for feature selection/dimensionality reducti原创 2017-06-29 23:19:47 · 14703 阅读 · 5 评论 -
[Sklearn应用] Feature Selection 特征选择(二)
此内容在sklearn官网地址: http://scikit-learn.org/stable/modules/feature_selection.html sklearn版本:0.18.2特征选择主要使用上节说道的SelectFromModel的方式。另外还有不常用的一些方法,如官网中提到的Removing features with low variance、Univariate fe原创 2017-07-01 17:18:39 · 2162 阅读 · 0 评论 -
[Sklearn应用] Preprocessing data(一) 标准化(Standardization) 与 正则化/归一化(Normalization)
部分文字引用自 http://www.cnblogs.com/chaosimple/p/4153167.html是否需要进行数据标准化?一般涉及到梯度下降和距离的计算需要进行标准化。待补充标准化z-score 方法 得到的结果是,对于每个属性/每列来说所有数据都聚集在0附近,方差为1。正则化sklern应用(scikit-learn 0.18.2)原创 2017-06-24 16:01:15 · 7192 阅读 · 3 评论 -
【特征工程】一种异常值检测方法、原理、代码实现 (基于箱线图)
分享一段检测异常值的代码,这段代码从kaggle上看到的,很简单也很有用,代码在下面。 代码原地址:https://www.kaggle.com/cccsss/titanic-top-4-with-ensemble-modeling分享之前先介绍代码使用到的方法原理,也就是一种异常检测的方法。想了解方法首先要先了解箱线图。箱线图 箱线图(Boxplot)也称箱须图(Box-whisker Pl原创 2017-12-11 13:52:27 · 13013 阅读 · 3 评论 -
【特征工程】 离散型变量 映射成 数字
在特征处理中,有一些特征如: 姓名 学历 收入 小张 高中 4000-5000元 小王 本科 6000-7000元 小李 硕士 8000-9000元 小赵 本科 6000-7000元 … … …这些特征在后期处理上,我们一般需要映射成一组数字去替换。不仅省去了中文容易乱码的问题,查看方便原创 2017-12-12 10:30:09 · 1632 阅读 · 0 评论 -
机器学习过程中看过的一些好文章
说明 1. 作为自己学习的记录会一直进行下去,也方便自己日后再来查看。 2. 如果链接失效,大家可以根据文章名称进行搜索。 3. 每个链接只是博客的一篇文章,进入博客作者的首页一般会有他写的更多优秀文章。基础知识数学之美番外篇:平凡而又神奇的贝叶斯方法:http://mindhacks.cn/2008/09/21/the-magical-bayesian-method/原创 2017-08-14 14:25:57 · 1329 阅读 · 0 评论 -
【模型评估】混淆矩阵(Confusion matrix)及其指标
本文引用网址: http://bluewhale.cc/2016-05-26/confusion-matrix.html 转自“蓝鲸网站分析博客” https://en.wikipedia.org/wiki/Confusion_matrix 维基百科混淆矩阵是对有监督学习分类算法准确率进行评估的工具。通过将模型预测的数据与测试数据进行对比,使用各种指标对模型的分类效果进行度量。 t原创 2017-06-11 23:03:42 · 10483 阅读 · 0 评论 -
【模型评估】混淆矩阵之 ROC-AUC曲线、PRC曲线
ROC - AUC原创 2017-06-12 22:45:25 · 3423 阅读 · 0 评论 -
[Sklearn应用] Preprocessing data (二)Binarization 二分化
此内容在sklearn官网地址:http://scikit-learn.org/stable/modules/preprocessing.html# Feature binarization is the process of thresholding numerical features to get boolean values. This can be useful for down原创 2017-06-25 15:28:13 · 504 阅读 · 0 评论