机器学习
MagiChos
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
主成分分析(PCA)
在这一篇之前的内容是《Factor Analysis》,由于非常理论,打算学完整个课程后再写。在写这篇之前,我阅读了PCA、SVD和LDA。这几个模型相近,却都有自己的特点。本篇打算先介绍PCA,至于他们之间的关系,只能是边学边体会了。PCA以前也叫做Principal factor analysis。 1. 问题 真实的训练数据总是存在各种各样的问题:1、 比如拿到一个汽车的样本,里面既有以“转载 2017-07-04 14:20:31 · 424 阅读 · 0 评论 -
决策树的相关概念
(1)熵 在信息论与概率统计中,熵是表示随机变量不确定性的度量。设X是一个取有限个值得离散随机变量,其概率分布为: 则随机变量X的熵定义为 由上式可知,熵只依赖于X的分布,而与X的取值无关,所以也可以将X的熵记作H(p)。 设有随机变量(X,Y),其联合概率分布为 条件熵H(Y|X)表示在已知随机变量X的条件下随机变量Y的不确定性。随机变量X给定的条件原创 2017-06-26 19:49:17 · 1427 阅读 · 0 评论 -
KNN分类算法优缺点
KNN算法的优点:1、思想简单,理论成熟,既可以用来做分类也可以用来做回归; 2、可用于非线性分类; 3、训练时间复杂度为O(n); 4、准确度高,对数据没有假设,对outlier不敏感;缺点: 1、计算量大; 2、样本不平衡问题(即有些类别的样本数量很多,而其它样本的数量很少); 3、需要大量的内存;其伪代码如下: 1. 计算已知类别数据集中的点与当前点之间的距离; 2.原创 2017-08-22 19:53:05 · 22128 阅读 · 0 评论
分享