数据预处理:独热编码(One-Hot Encoding)

问题由来在很多机器学习任务中,特征并不总是连续值,而有可能是分类值。例如,考虑一下的三个特征:["male", "female"]["from Europe", "from US", "from Asia"]["uses Firefox", "uses Chrome", "uses Safari", "uses Internet Explorer"]如果将上述特征用数字表示,效率会高很多。例如:[...
阅读(2983) 评论(7)

非参数估计:核密度估计KDE

http://blog.csdn.net/pipisorry/article/details/53635895核密度估计Kernel Density Estimation(KDE)概述密度估计的问题由给定样本集合求解随机变量的分布密度函数问题是概率统计学的基本问题之一。解决这一问题的方法包括参数估计和非参数估计。参数估计参数估计又可分为参数回归分析和参数判别分析。在参数回归分析中,人们假定数据分布...
阅读(5238) 评论(0)

Scikit-learn:最近邻搜索sklearn.neighbors

http://blog.csdn.net/pipisorry/article/details/53156836ball treek-d tree也有问题[最近邻查找算法kd-tree ]。矩形并不是用到这里最好的方式。偏斜的数据集会造成我们想要保持树的平衡与保持区域的正方形特性的冲突。另外,矩形甚至是正方形并不是用在这里最完美的形状,由于它的角。如果图6中的圆...
阅读(2312) 评论(0)

Scikit-learn:聚类clustering

http://blog.csdn.net/pipisorry/article/details/53185758不同聚类效果比较sklearn不同聚类示例比较A comparison of the clustering algorithms in scikit-learn不同聚类综述Method nameParametersScalabilityUsecaseGeometry (metric use...
阅读(1828) 评论(1)

Scikit-learn:分类classification

http://blog.csdn.net/pipisorry/article/details/53034340支持向量机SVM分类svm分类有多种不同的算法。svcImplementation of Support Vector Machine classifier using libsvm: the kernel can be non-linear but its SMO algorithm d...
阅读(910) 评论(0)

Scikit-learn:模型评估Model evaluation 之绘图

http://blog.csdn.net/pipisorry/article/details/53001866绘制ROC曲线def plotRUC(yt, ys, title=None): ''' 绘制ROC-AUC曲线 :param yt: y真值 :param ys: y预测值 ''' from sklearn import metrics...
阅读(722) 评论(0)

机器学习模型的评价指标和方法

http://blog.csdn.net/pipisorry/article/details/52574156衡量分类器的好坏对于分类器,或者说分类算法,评价指标主要有precision,recall,宏平均和微平均,F-score,pr曲线,ROC-AUC曲线,gini系数。分类模型的评估 机器学习系统设计系统评估标准Error Metrics for Skewed...
阅读(4148) 评论(0)

Scikit-learn:模型选择之调参grid search

http://blog.csdn.net/pipisorry/article/details/52268947Scikit-learn:并行调参Grid SearchGrid Search: Searching for estimator parametersscikit-learn中提供了pipeline(for estimator connection) & grid_search(searc...
阅读(853) 评论(0)

Scikit-learn:scikit-learn快速教程及实例

http://blog.csdn.net/pipisorry/article/details/52251305scikit-learn 教程导航简介:使用scikit-learn进行机器学习 机器学习:问题设定加载样例数据集学习和预测模型持久化惯例 统计学习教程 统计学习:scikit-learn中的配置和estimator对象有监督学习:预测高维观测对象模型选择:选择estimator和参数无...
阅读(6255) 评论(0)

Scikit-learn:模型评估Model evaluation

http://blog.csdn.net/pipisorry/article/details/52250760模型评估Model evaluation: quantifying the quality of predictions3 different approaches to evaluate the quality of predictions of a model:Estimator sc...
阅读(3451) 评论(0)

Scikit-learn:模型选择Model selection之pipline和交叉验证

http://blog.csdn.net/pipisorry/article/details/52250983选择合适的estimator 通常机器学习最难的一部分是选择合适的estimator,不同的estimator适用于不同的数据集和问题。 sklearn官方文档提供了一个图[flowchart],可以快速地根据你的数据和问题选择合适的estimator,单击相应的区域还可以获得更具体的内...
阅读(4215) 评论(0)

Scikit-learn:数据预处理Preprocessing data

http://blog.csdn.net/pipisorry/article/details/52247679本blog内容有标准化、数据最大最小缩放处理、正则化、特征二值化和数据缺失值处理。基础知识参考[数据标准化/归一化normalization ][均值、方差与协方差矩阵 ][矩阵论:向量范数和矩阵范数...
阅读(2660) 评论(0)

Scikit-learn:主要模块和基本使用方法

http://blog.csdn.net/pipisorry/article/details/52128222scikit-learn: Machine Learning in Python.scikit-learn库实现了很多机器学习算法。scikit-learn是一个基于NumPy, SciPy, Matplotlib的开源机器学习工具包,主要涵盖分类,回归和聚类算法,例如SVM, 逻辑回归,...
阅读(2184) 评论(0)

最近邻查找算法kd-tree

http://blog.csdn.net/pipisorry/article/details/52186307海量数据最近邻查找的kd-tree简介本文的主要目的是讲一下如何创建k-d tree对特征点集合进行数据组织和使用k-d tree最近邻搜索来加速特征点匹配。k-d树(k-dimensional),是一种分割k维数据空间的数据结构(对数据点在k维空间中划分的一种数据结构),是一种高维索引树...
阅读(6786) 评论(0)

Scikit-learn:Feature extraction文本特征提取

http://blog.csdn.net/pipisorry/article/details/41957763文本特征提取词袋(Bag of Words)表征文本分析是机器学习算法的主要应用领域。但是,文本分析的原始数据无法直接丢给算法,这些原始数据是一组符号,因为大多数算法期望的输入是固定长度的数值特征向量而不是不同长度的文本文件。为了解决这个问题,scikit-learn提供了一些实用工具可以...
阅读(11082) 评论(0)

Scikit-learn:Feature selection特征选择和学习

http://blog.csdn.net/pipisorry/article/details/40200111特征工程的思维导图[机器学习之特征工程][知乎:在机器学习的项目中,特征是如何被找出来的?][机器学习中,有哪些特征选择的工程方法? - 知乎]皮皮blogsklearn.feature_selection 模块中的类能够用于数据集的特征选择/降维,以此来提高预测模型的准确率或改善它们在高...
阅读(1644) 评论(0)
    个人资料
    • 访问:2213152次
    • 积分:23281
    • 等级:
    • 排名:第285名
    • 原创:530篇
    • 转载:30篇
    • 译文:5篇
    • 评论:233条
    Welcome to 皮皮blog~

    博客专栏
    最新评论