机器学习
文章平均质量分 68
AndrewZhou924
Talk is cheap, show me the code
展开
-
机器学习之监督学习:分类
监督学习经典模型之分类监督学习的任务大致可以分类两类:一是分类学习,二是回归预测今天我们讨论的是分类学习SVC(支持向量机分类器)是根据训练样本的分布,搜索所有可能的线性分类器中最佳的那个我们把可以用来真正帮助决策最优线性分类模型的数据点叫做“支持向量”结构化信息是指信息经过分析后可分解成多个互相关联的组成部分,各组成部分间有明确的层次结构,其使用和维护通过数据库进行管理,并有一定的操作规范朴素贝...原创 2018-04-06 16:58:04 · 4920 阅读 · 0 评论 -
K-Means聚类算法
K-Means聚类算法转自www.cnblogs.com/pinard/p/6164214.html ,有删改1. K-Means原理初探 K-Means算法的思想很简单,对于给定的样本集,按照样本之间的距离大小,将样本集划分为K个簇(cluster)。让簇内的点尽量紧密的连在一起,而让簇间的距离尽量的大。 如果用数据表达式表示,假设簇划分为(C1,C2,...Ck)...转载 2019-04-16 15:50:43 · 3782 阅读 · 0 评论 -
统计学习方法——决策树
Decision Tree决策树学习的三个步骤:特征选择、决策树的生成、决策树的修剪决策树的结点:内部结点表示一个特征或属性,叶节点表示一个分类决策树的路径或其对应的if then 规则集合满足性质:互斥且完备决策树学习本质上是从训练数据集中归纳出一组分类规则与训练集不相矛盾的决策树可能有很多,我们需要的是一个与训练数据矛盾较小且分化能力较强的决策树关于剪枝:我们需要对已生成的树自下...原创 2019-04-06 21:18:52 · 517 阅读 · 0 评论 -
统计学习方法——KNN
KNNk近邻(k-nearest neighbor, K-NN)是一种基本分类与回归方法KNN根据其k个最近邻的训练实例的类别,通过多数表决等方式进行预测,不具有显式的学习过程KNN相当于将特征空间划分为一些子空间,确定子空间里的每个点所属的类KNN三要素:距离度量 k值的选择 分类决策规则距离度量详见一般的Lp距离k值的选择在应用中,k值一般取一个比较小的数值,通...原创 2019-04-06 21:17:19 · 529 阅读 · 0 评论 -
Logistic Regression - part 2
Logistic Regression - part 2原文地址:https://blog.csdn.net/ligang_csdn/article/details/53838743, 有删改1. 基本原理Logistic Regression和Linear Regression的原理是相似的,按照我自己的理解,可以简单的描述为这样的过程:(1)找一个合适的预测函数(Andr...转载 2019-04-06 21:11:30 · 254 阅读 · 0 评论 -
Logistic Regression - part 1
Logistic Regression - part 1原文地址:https://www.jianshu.com/p/6af80ce10694, 有删改logistic回归是统计学习中的经典分类方法,他属于对数线性模型,logistic回归来源于logistic分布,先从logistic分布说起Logistic distribution设X是连续随机变量,X服从log...转载 2019-04-06 20:58:02 · 362 阅读 · 0 评论 -
scikit-learn: Python强大的第三方库
在机器学习和数据挖掘的应用中,scikit-learn是一个功能强大的python包。在数据量不是过大的情况下,可以解决大部分问题。学习使用scikit-learn的过程中,我自己也在补充着机器学习和数据挖掘的知识。这里根据自己学习sklearn的经验,我做一个总结的笔记。另外,我也想把这篇笔记一直更新下去。1 scikit-learn基础介绍1.1 估计器(Estimator)估计器...转载 2018-04-05 21:44:08 · 2511 阅读 · 0 评论 -
简单易懂的朴素贝叶斯分类算法
贝叶斯分类是一类分类算法的总称,这类算法均以贝叶斯定理为基础,故统称为贝叶斯分类。而朴素朴素贝叶斯分类是贝叶斯分类中最简单,也是常见的一种分类方法。这篇文章我尽可能用直白的话语总结一下我们学习会上讲到的朴素贝叶斯分类算法,希望有利于他人理解。 1 分类问题综述 对于分类问题,其实谁都不会陌生,日常生活中我们每天都进行着分类过程。例如,当你看到一个人,你的脑子下意识判断他是学生...转载 2018-09-21 15:39:38 · 920 阅读 · 1 评论 -
KNN详解
KNN算法,又称K-近邻算法简单来说,KNN采用测量不同特征值之间的距离来进行分类优点:精度高,对异常值不敏感,无数据输入假定 缺点:计算复杂度高,空间复杂度高 适用数据范围:数值型和标称型 kNN算法的核心思想 如果一个样本在特征空间中的k个最相邻的样本中的大多数属于某一个类别,则该样本也属于这个类别,并具有这个类别上样本的特性。该方法在确定分类决策上只依据最邻...原创 2018-09-14 15:50:57 · 705 阅读 · 0 评论 -
决策树是如何处理不完整数据的?
首先我们来看一下知乎上的不错回答(https://www.zhihu.com/question/34867991/answer/151775210)缺失值问题可以从三个方面来考虑1. 在选择分裂属性的时候,训练样本存在缺失值,如何处理?假如你使用ID3算法,那么选择分类属性时,就要计算所有属性的熵增(信息增益,Gain)。假设10个样本,属性是a,b,c。在计算a属性熵时发现,第10个...原创 2018-09-06 21:29:06 · 1266 阅读 · 0 评论 -
机器学习算法工程师需要掌握的技能与要踩的坑
1. 前言本来这篇标题我想的是算法工程师的技能,但是我觉得要是加上机器学习在标题上,估计点的人会多一点,所以标题成这样了,呵呵,而且被搜索引擎收录的时候多了一个时下的热门词,估计曝光也会更多点。不过放心,文章没有偏题,我们来说正经的。今天就说说机器学习这个最近两年计算机领域最火的话题,这不是一篇机器学习的技术文章,只是告诉大家机器学习里面的坑实在是太多,而且很多还没入门或者刚刚入门的朋友们...转载 2018-07-25 17:22:36 · 629 阅读 · 0 评论 -
机器学习之监督学习:回归
回归预测回归问题和分类问题的区别在于:其待预测的目标是连续变量线性回归器如果面对训练数据十分庞大的任务,随机梯度法不论是在分类还是在回归问题上都表现得十分高效,可以在不损失过多性能的前提下,节省大量计算时间(根据Scikit-learn官网的建议,如果数据规模超过10万,推荐使用随机梯度估计参数模型<SGD Classifier/Regressor>)eg:最小二乘特点分析:线性回归器...原创 2018-04-06 17:01:32 · 361 阅读 · 0 评论 -
统计学习方法——支持向量机(SVM)
SVM支持向量机 (support vector machines, SVM) 是一种二类分类模型,它的基本模型是定义在特征空间上的间隔最大的线性分类器;支持向量机还包含核技巧,这使它成为实质上的非线性分类器支持向量机的学习算法是求解凸二次规划的最优化算法欧几里得空间和希尔伯特空间 【源自维基百科】欧几里得空间可以被扩展来应用于任何有限维度,而这种空间叫做n维欧几里得空间(甚至简称...原创 2019-04-14 10:53:15 · 1007 阅读 · 0 评论