Scikit-Learn
文章平均质量分 92
-柚子皮-
╰☆ゞ不染纤尘,不忘初心ゞ☆╮
展开
-
Scikit-learn:scikit-learn快速教程及实例
http://blog.csdn.net/pipisorry/article/details/52251305scikit-learn 教程导航简介:使用scikit-learn进行机器学习 机器学习:问题设定加载样例数据集学习和预测模型持久化惯例 统计学习教程 统计学习:scikit-learn中的配置和estimator对象有监督学习:预测高维观测对象模型选择:选择estimator和参数无原创 2016-08-19 15:33:25 · 20345 阅读 · 0 评论 -
Scikit-learn:主要模块和基本使用方法
http://blog.csdn.net/pipisorry/article/details/52128222scikit-learn: Machine Learning in Python.scikit-learn库实现了很多机器学习算法。scikit-learn是一个基于NumPy, SciPy, Matplotlib的开源机器学习工具包,主要涵盖分类,回归和聚类算法,例如SVM, 逻...原创 2016-08-19 10:22:28 · 10054 阅读 · 0 评论 -
数据预处理:独热编码(One-Hot Encoding)
在很多任务中,特征并不总是连续值,而有可能是分类值。例如,考虑一下的三个特征:如果将上述特征用数字表示,效率会高很多。例如:["male", "from US", "uses Internet Explorer"] 表示为[0, 1, 3]["female", "from Asia", "uses Chrome"]表示为[1, 2, 1]但是,即使转化为数字表示后,上述数据也不能直接用在我们的分类器中。原创 2017-03-10 11:32:04 · 71115 阅读 · 10 评论 -
Scikit-learn:数据预处理Preprocessing data
http://blog.csdn.net/pipisorry/article/details/52247679 本blog内容有特征预处理(标准化、归一化、正则化、特征二值化、缺失值处理)和标签label预处理(label二值化、multi-label多值化)。特征的预处理基础知识参考[数据标准化/归一化normalization ][均值、方差与协方差矩阵 ]...原创 2016-08-19 10:25:26 · 28674 阅读 · 8 评论 -
Scikit-learn:Feature selection特征选择和学习
http://blog.csdn.net/pipisorry/article/details/40200111特征工程的思维导图[机器学习之特征工程][知乎:在机器学习的项目中,特征是如何被找出来的?][机器学习中,有哪些特征选择的工程方法? - 知乎]皮皮blogsklearn.feature_selection 模块中的类能够用于数据集的特征选择/降维,以此来提高预测模型的准确率或改善它们在高原创 2014-10-18 00:52:17 · 8275 阅读 · 0 评论 -
Scikit-learn:Feature extraction文本特征提取
http://blog.csdn.net/pipisorry/article/details/41957763文本特征提取词袋(Bag of Words)表征文本分析是机器学习算法的主要应用领域。但是,文本分析的原始数据无法直接丢给算法,这些原始数据是一组符号,因为大多数算法期望的输入是固定长度的数值特征向量而不是不同长度的文本文件。为了解决这个问题,scikit-learn提供了一些实用工具可以原创 2014-12-16 11:11:30 · 42727 阅读 · 0 评论 -
Scikit-learn:分类classification
http://blog.csdn.net/pipisorry/article/details/53034340支持向量机SVM分类svm分类有多种不同的算法。svcImplementation of Support Vector Machine classifier using libsvm: the kernel can be non-linear but its SMO algorithm d原创 2016-11-04 14:38:13 · 3076 阅读 · 0 评论 -
Scikit-learn:聚类clustering
http://blog.csdn.net/pipisorry/article/details/53185758不同聚类效果比较sklearn不同聚类示例比较A comparison of the clustering algorithms in scikit-learn不同聚类综述Method nameParametersScalabilityUsecaseGeometry (metric use原创 2016-11-25 09:22:38 · 7724 阅读 · 1 评论 -
非参数估计:核密度估计KDE
http://blog.csdn.net/pipisorry/article/details/53635895核密度估计Kernel Density Estimation(KDE)概述密度估计的问题由给定样本集合求解随机变量的分布密度函数问题是概率统计学的基本问题之一。解决这一问题的方法包括参数估计和非参数估计。参数估计参数估计又可分为参数回归分析和参数判别分析。在参数回归分析中,人们假定数据分布原创 2016-12-14 11:38:46 · 117047 阅读 · 20 评论 -
Scikit-learn:最近邻搜索sklearn.neighbors
http://blog.csdn.net/pipisorry/article/details/53156836ball treek-d tree也有问题[最近邻查找算法kd-tree ]。矩形并不是用到这里最好的方式。偏斜的数据集会造成我们想要保持树的平衡与保持区域的正方形特性的冲突。另外,矩形甚至是正方形并不是用在这里最完美的形状,由于它的角。如果图6中的圆原创 2016-11-25 16:01:14 · 25230 阅读 · 5 评论 -
最近邻查找算法kd-tree
http://blog.csdn.net/pipisorry/article/details/52186307海量数据最近邻查找的kd-tree简介 利用Octree,為封閉的3D空間建立一個資料結構來管理空間中的每個元素。如此我們可以在 O(log N) 的時間內對這3D空間進行搜尋。 3D空間可以用Octree,2D空間可以用Quadtree(四元樹,概...原创 2016-08-12 10:12:01 · 60875 阅读 · 6 评论 -
Scikit-learn:模型选择Model selection之pipline和交叉验证
http://blog.csdn.net/pipisorry/article/details/52250983选择合适的estimator通常机器学习最难的一部分是选择合适的estimator,不同的estimator适用于不同的数据集和问题。sklearn官方文档提供了一个图[flowchart],可以快速地根据你的数据和问题选择合适的estimator,单击相应的区域还可以获得...原创 2016-08-19 15:15:10 · 11258 阅读 · 2 评论 -
Scikit-learn:分类模型评估Model evaluation
http://blog.csdn.net/pipisorry/article/details/52250760模型评估Model evaluation: quantifying the quality of predictions3 different approaches to evaluate the quality of predictions of a model:Estimator sc...原创 2016-08-19 15:19:34 · 19262 阅读 · 1 评论 -
Scikit-learn:模型评估Model evaluation 之绘图
http://blog.csdn.net/pipisorry/article/details/53001866绘制ROC曲线def plotRUC(yt, ys, title=None): ''' 绘制ROC-AUC曲线 :param yt: y真值 :param ys: y预测值 ''' from sklearn import metrics原创 2016-11-02 10:31:28 · 2945 阅读 · 0 评论 -
Scikit-learn:模型选择之调参grid search
http://blog.csdn.net/pipisorry/article/details/52268947Scikit-learn:并行调参Grid SearchGrid Search: Searching for estimator parametersscikit-learn中提供了pipeline(for estimator connection) & grid_search(searc原创 2016-08-22 09:08:55 · 4655 阅读 · 0 评论