![](https://img-blog.csdnimg.cn/20201014180756916.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习
文章平均质量分 92
Xurtle
俺的私人微博:http://weibo.com/hacker4long
展开
-
机器学习算法之朴素贝叶斯(Naive Bayes)--第一篇
引言先前曾经看了一篇文章,一个老外程序员写了一些很牛的Shell脚本,包括晚下班自动给老婆发短信啊,自动冲Coffee啊,自动扫描一个DBA发来的邮件啊, 等等。于是我也想用自己所学来做一点有趣的事情。我的想法如下:首先我写个scrapy脚本来抓取某个网站上的笑话之后写个Shell脚本每天早上6点自动抓取最新的笑话然后用朴素贝叶斯模型来判断当前的笑话是否属于成人笑话如果是成人笑话,用脚本把它原创 2016-04-25 10:51:03 · 28574 阅读 · 12 评论 -
学好机器学习必会的统计学知识(第二篇)
引言在机器学习应用中,我们不可能离开数据。没有了数据,机器学习算法就像没有了灵魂。更好地理解数据,可以使我们把它更好地应用在机器学习上。在这篇文章中,我会介绍一些在统计学中,理解数据的一些重要概念,从而使大家更准确地操作数据,玩转数据。注意:在这篇文章中会涉及到很多名词和定义,我就直接用英文了,因为这更加容易理解,翻译成汉语以后会让人更加混乱了。Populations and Parameters原创 2016-08-13 14:41:09 · 28467 阅读 · 0 评论 -
逻辑回归(Logistic regression)详解-并用scikit-learn训练逻辑回归拟合Iris数据集
引言这篇文章主要介绍逻辑回归背后的一些概率概念,给你一些直观感觉关于它的代价函数的由来。并且我也介绍了关于最大似然估计(maximum likelihood)的概念,用这个强大的工具来导出逻辑回归的cost函数。接着,我用scikit-learn训练了感知机模型来让你熟悉scikit-learn,最后用scikit-learn来训练逻辑回归,并作出决策边界图,效果还算不错。逻辑函数(logistic原创 2016-05-01 22:16:57 · 93200 阅读 · 37 评论 -
学好机器学习必会的统计学知识(第一篇)
在机器学习应用中,我们不可能离开数据。没有了数据,机器学习算法就像没有了灵魂。更好地理解数据,可以使我们把它更好地应用在机器学习上。在这篇文章中,我会介绍一些在统计学中,理解数据的一些重要概念,从而使大家更准确地操作数据,玩转数据。原创 2016-08-09 21:30:47 · 7582 阅读 · 0 评论 -
Logistic Regression、Linear Discriminant Analysis、Shrinkage Methods(Ridge Regression and Lasso)
引言Logistic RegressionDefault数据集描述,详细信息在第6页。数据集下载logistic regression 是一个线性模型用于做分类的,它直接对Y属于某个类别的概率进行建模。比如对于Default数据集来说,Pr(default = Yes | balance, student, income). 这也就是说,对于任何给定的balance, stud原创 2016-08-20 17:18:37 · 4710 阅读 · 0 评论 -
Understanding the Bias-Variance Tradeoff (理解偏差-方差权衡)
引言如果你想深入地理解偏差-方差,这篇文章再好不过了。我转载自Understanding the Bias-Variance Tradeoff,Trust me,这绝对是你不想错过的文章。如果你的网络不好,就先看我下面转载的。如果你的网络很好,去查看原文,里面有一些非常棒的小功能,我没法转载过来,比如在用K近邻举例的时候,你可以实时微调K值并查看决策边界。Hope you enjoy this ar转载 2016-07-12 21:36:05 · 5641 阅读 · 0 评论 -
R实战之从头到尾分析广告数据集
前言这篇文章主要用简单的线性回归模型来介绍统计学中一些很重要的概念。比如:置信区间(confidence interval)、t-statistic、p-value、R2R^2 statistic和F-statistic等一些概念。我会用具体的数据集来分析这些值分别意味着什么?并用具体的R代码来分析数据集并做出一个好的决策?数据分析之前的几个重要问题在提出问题之前,我先介绍一下Advertising原创 2016-07-10 20:35:17 · 5842 阅读 · 19 评论 -
决策树ID3、C4.5、C5.0以及CART算法之间的比较-并用scikit-learn决策树拟合Iris数据集
引言在这篇文章中,我主要介绍一下关于信息增益,并比较ID3、C4.5、C5.0以及CART算法之间的不同,并给出一些细节的实现。最后,我用scikit-learn的决策树拟合了Iris数据集,并生成了最后的决策树图片信息增益(information gain (IG))在介绍信息增益之前,我想先介绍3种不纯度的度量手段,它们分别是Gini index(IG)、entropy(IH)、classifi原创 2016-05-21 20:57:55 · 33999 阅读 · 5 评论 -
机器学习系统模型调优实战--所有调优技术都附相应的scikit-learn实现
引言如果你对机器学习算法已经很熟悉了,但是有时候你的模型并没有很好的预测效果或者你想要追求更好地模型性能。那么这篇文章会告诉你一些最实用的技术诊断你的模型出了什么样的问题,并用什么的方法来解决出现的问题,并通过一些有效的方法可以让你的模型具有更好地性能。介绍数据集这个数据集有569个样本,它的前两列为唯一的ID号和诊断结果 (M = malignant, B = benign) ,它的3->32列为原创 2016-05-09 20:42:26 · 11702 阅读 · 5 评论 -
PCA详解-并用scikit-learn实现PCA压缩红酒数据集
在这篇文章中,我会介绍一些PCA背后的数学概念,然后我们用Wine数据集作为实例,一步一步地实现PCA。最后,我们用更加强大的scikit-learn方便快速地实现PCA,并用逻辑回归来拟合用PCA转换后的数据集。为了让大家更好地理解PCA,整篇文章都贯穿着实例,现在,让我们享受这篇文章吧。原创 2016-05-07 21:23:14 · 14103 阅读 · 3 评论 -
l0-Norm, l1-Norm, l2-Norm, … , l-infinity Norm
引言原文:https://rorasa.wordpress.com/2012/05/13/l0-norm-l1-norm-l2-norm-l-infinity-norm/这篇文章是我按照上面原文的部分翻译,这篇文章不仅仅介绍了这些范数(Norm)的含义,而且还结合了一些具体的应用,给出了一些最优化范数的方法。原文很长,我就把一些有用的定义翻译一下,感兴趣的伙伴可以自己查看原文。什么是范数对于任何一个翻译 2016-04-21 22:55:50 · 6527 阅读 · 0 评论 -
浅谈机器学习中的特征缩放(feature scaling)
引言在运用一些机器学习算法的时候不可避免地要对数据进行特征缩放(feature scaling),比如:在随机梯度下降(stochastic gradient descent)算法中,特征缩放有时能提高算法的收敛速度。下面我会主要介绍一些特征缩放的方法。什么是特征缩放特征缩放是用来标准化数据特征的范围。机器算法为什么要特征缩放特征缩放还可以使机器学习算法工作的更好。比如在K近邻算法中,分类器主要是计原创 2016-04-21 22:08:40 · 22157 阅读 · 0 评论 -
Bagging(Bootstrap aggregating)、随机森林(random forests)、AdaBoost
在这篇文章中,我会详细地介绍Bagging、随机森林和AdaBoost算法的实现,并比较它们之间的优缺点,并用scikit-learn分别实现了这3种算法来拟合Wine数据集。全篇文章伴随着实例,由浅入深,看过这篇文章以后,相信大家一定对ensemble的这些方法有了很清晰地了解。原创 2016-05-23 23:14:02 · 24428 阅读 · 3 评论 -
机器学习算法之朴素贝叶斯(Naive Bayes)--第二篇
引言如果你对朴素贝叶斯的原理不太清楚,请看我的第一篇文章:http://blog.csdn.net/xlinsist/article/details/51236454这篇文章主要介绍将朴素贝叶斯模型应用到文本分类任务的技巧和方法。词袋模型(The Bag of Words Model)对于机器学习算法来说,特征的选择是一个很重要的过程。那么如何从文本训练集中选出好的特征呢?在自原创 2016-04-28 18:12:46 · 11370 阅读 · 4 评论 -
SVM详解(包含它的参数C为什么影响着分类器行为)-scikit-learn拟合线性和非线性的SVM
引言这篇文章详细地介绍了SVM背后的原理,它为什么是大间距分类器?分类器的参数C为什么影响着分类器的行为?核函数背后采用了什么样的技术,看过这篇文章以后,相信你能很好地理解这些问题。最后,我用scikit-learn来分别来拟合线性和非线性的SVM,让大家对SVM分类器有更加深刻的理解。找寻最优化目标相信所有用过SVM的人都知道它是一个大间距分类器。但是,它的原理是什么?它为什么可以最大化决策边界与原创 2016-05-05 15:13:28 · 18652 阅读 · 5 评论