sklearn
张博208
知识搬运工
展开
-
sklearn preprocessing 数据预处理(OneHotEncoder)
1. one hot encodersklearn.preprocessing.OneHotEncoderone hot encoder 不仅对 label 可以进行编码,还可对 categorical feature 进行编码:>>> from sklearn.preprocessing import OneHotEncoder>>> enc = OneHotEncoder转载 2017-06-28 16:51:33 · 2907 阅读 · 0 评论 -
机器学习-增量训练方法
https://blog.csdn.net/suzyu12345/article/details/81461667转载 2018-10-31 17:22:59 · 3563 阅读 · 0 评论 -
使用sklearn进行增量学习
https://blog.csdn.net/whiterbear/article/details/53120004转载 2018-10-31 17:21:09 · 1437 阅读 · 0 评论 -
利用随机森林对特征重要性进行评估 方法一
https://hal.archives-ouvertes.fr/file/index/docid/755489/filename/PRLv4.pdf前言随机森林是以决策树为基学习器的集成学习算法。随机森林非常简单,易于实现,计算开销也很小,更令人惊奇的是它在分类和回归上表现出了十分惊人的性能,因此,随机森林也被誉为“代表集成学习技术水平的方法”。 本文是对随机森林如何用在特征选择上做一...转载 2018-08-10 20:10:48 · 15426 阅读 · 9 评论 -
sklearn中的异常检测方法
SKLEARN——Novelty and Outlier Detection简介 很多方法都可以检测一个新的检测样本,是符合当前样本分布的成员还是不一样的利群点。通常,这些方法被用来对真实数据集进行清洗。这些检测方法可以分为两种:novelty detection: The training data is not polluted by outliers, and we are inte...转载 2018-07-04 18:01:43 · 1641 阅读 · 0 评论 -
异常检测(三)——Local Outlier Factor(LOF)
在中等高维数据集上执行异常值检测的另一种有效方法是使用局部异常因子(Local Outlier Factor ,LOF)算法。1、算法思想LOF通过计算一个数值score来反映一个样本的异常程度。这个数值的大致意思是:一个样本点周围的样本点所处位置的平均密度比上该样本点所在位置的密度。比值越大于1,则该点所在位置的密度越小于其周围样本所在位置的密度,这个点就越有可能是异常点。关于密度等理论概念,详...转载 2018-05-13 18:03:22 · 4264 阅读 · 0 评论 -
sklearn preprocessing 数据预处理(OneHotEncoder)
1. one hot encodersklearn.preprocessing.OneHotEncoderone hot encoder 不仅对 label 可以进行编码,还可对 categorical feature 进行编码:>>> from sklearn.preprocessing import OneHotEncoder>>> enc = OneHo...转载 2018-03-26 10:31:53 · 872 阅读 · 0 评论 -
Tensorflow:tSNE数据非线性降维
深度学习巨头之一的Hinton大神在数据降维领域有一篇经典论文Visualizing Data using t-SNE。该方法是流形(非线性)数据降维的经典,从发表至今鲜有新的降维方法能全面超越。该方法相比PCA等线性方法能有效将数据投影到低维空间并保持严格的分割界面;缺点是计算复杂度大,一般推荐先线性降维然后再用tSNE降维。python sklearn有相应的实现。我现在用Tensorfl转载 2018-02-01 10:27:06 · 1799 阅读 · 0 评论 -
python sklearn包——cross validation笔记
preface:做实验少不了交叉验证,平时常用from sklearn.cross_validation import train_test_split,用train_test_split()函数将数据集分为训练集和测试集,但这样还不够。当需要调试参数的时候便要用到K-fold。scikit给我们提供了函数,我们只需要调用即可。sklearn包中cross validation的介绍:在这转载 2017-06-24 19:59:40 · 1074 阅读 · 0 评论 -
scikit-leann 特征提取 学习
模块 sklearn.feature_extraction 可以用来提取多种格式的数据集中,符合机器学习算法中支持的特征,如文本和图像Note 特征提取与 特征选择(Feature selection) 特征选择有很大的不同: 模型意义在于把复杂的数据,如文本和图像,转化为数字特征,从而在机器学习中使用。后者是一个机器学习中应用这些特征的方法4.2.原创 2017-06-24 15:52:00 · 1181 阅读 · 0 评论 -
[Scikit-Learn] - 数据预处理 - 归一化/标准化/正则化
reference: http://www.cnblogs.com/chaosimple/p/4153167.html 一、标准化(Z-Score),或者去除均值和方差缩放公式为:(X-mean)/std 计算时对每个属性/每列分别进行。将数据按期属性(按列进行)减去其均值,并处以其方差。得到的结果是,对于每个属性/每列来说所有数据都聚集在0附近,方差为1。转载 2017-06-24 14:35:10 · 852 阅读 · 0 评论 -
scikit-learn文档学习 预处理
4.3. 数据预处理``sklearn.preprocessing``包为用户提供了多个工具函数和类,用于将原始特征转换成更适于项目后期学习的特征表示。4.3.1. 标准化、去均值、方差缩放(variance scaling)数据集的** 标准化 对于在scikit中的大部分机器学习算法来说都是一种 常规要求 ** 。如果单个特征没有或多或少地接近于标准正态分布:**原创 2017-06-24 11:46:13 · 1208 阅读 · 0 评论 -
使用sklearn做单机特征工程
目录1 特征工程是什么?2 数据预处理 2.1 无量纲化 2.1.1 标准化 2.1.2 区间缩放法 2.1.3 标准化与归一化的区别 2.2 对定量特征二值化 2.3 对定性特征哑编码 2.4 缺失值计算 2.5 数据变换 2.6 回顾3 特征选择 3.1 Filter 3.1.1 方差选择法转载 2017-06-08 09:54:56 · 279 阅读 · 0 评论 -
使用sklearn优雅地进行数据挖掘
目录1 使用sklearn进行数据挖掘 1.1 数据挖掘的步骤 1.2 数据初貌 1.3 关键技术2 并行处理 2.1 整体并行处理 2.2 部分并行处理3 流水线处理4 自动化调参5 持久化6 回顾7 总结8 参考资料1 使用sklearn进行数据挖掘1.1 数据挖掘的步骤 数据挖掘通常包括数据采集,数据分析,特转载 2017-06-08 09:57:46 · 344 阅读 · 0 评论 -
谁动了我的特征?——sklearn特征转换行为全记录
目录1 为什么要记录特征转换行为?2 有哪些特征转换的方式?3 特征转换的组合4 sklearn源码分析 4.1 一对一映射 4.2 一对多映射 4.3 多对多映射5 实践6 总结7 参考资料1 为什么要记录特征转换行为? 使用机器学习算法和模型进行数据挖掘,有时难免事与愿违:我们依仗对业务的理解,对数据的分析,以及工作经验提转载 2017-06-28 17:57:52 · 376 阅读 · 0 评论 -
sklearn 中的 Pipeline 机制
[-]加载数据集构思算法的流程Pipeline执行流程的分析pipeline 与深度神经网络的multi-layersfrom sklearn.pipeline import Pipeline11管道机制在机器学习算法中得以应用的根源在于,参数集在新数据集(比如测试集)上的重复使用。管道机制实现了对全部步骤的流式化封装和管理(streaming work转载 2017-06-28 16:54:17 · 338 阅读 · 0 评论 -
半监督学习——LabelSpreading
https://blog.csdn.net/weixin_39777626/article/details/79846823转载 2018-10-31 18:03:11 · 1269 阅读 · 0 评论