- 博客(4)
- 收藏
- 关注
原创 KNN ( K近邻算法 )
现在我们有一个训练数据集,对新来的实例,找到训练数据集中离这个新实例最近的K个实例,统计这K个实例的类别,然后利用多数表决或者其他策略预测新实例的类别这就是K近邻算法的基本思想。K近邻的这种分类方式其实相当于利用训练数据集把特征向量空间进行划分,并且把这个划分好的空间作为分类模型。K近邻算法有三个基本要素,需要重点考虑,即:1. K值的选择K值的选择对K近邻算法
2015-12-19 16:58:54 3344
原创 Random Forest(随机森林)
1. 随机森林训练过程2. 随机森林的预测过程 输入:训练集S,测试集T,特征维数F参数:生成的CART树的数量t,每棵树的深度d,每个结点用到的特征数量f终止条件:结点上的样本数小于s,结点上的信息增益(比)小于m。输出:由CART组成的随机森林1. 随机森林训练过程(1).从S中有放回的抽取大小和S一样的训练集S(i),作为根结点
2015-12-19 16:48:07 1396
原创 Naive Bayesian(朴素贝叶斯)
朴素贝叶斯是基于贝叶斯定理和特征条件独立假设的分类方法。对于给定的训练数据集,先基于特征条件独立假设学习到输入输出的联合概率分布,然后基于此模型,对于给定的输入x,利用贝叶斯定理输出后验概率最大的输出y。(属于生成模型)综合来说就是:1. 由训练数据学习联合概率分布。(会用到条件独立性假设)2. 利用贝叶斯定理将输入x分到后验概率最大的类y。
2015-12-19 16:38:34 816
原创 Logistic Regression(逻辑斯特回归)
Logistic Regression实际上是基于LinearRegression的,与LinearRegression的不同在于输出增加了一个非线性映射,即应用逻辑斯特函数将回归结果映射到0到1(能够将负无穷到正无穷映射到0-1的函数有很多,但是Logistic函数求导结果很简洁,能让伯努利的指数分布式标准形式(待理解)),从而可以利用概率来分类。下面讲一下LR 的推导过程。我们按照解决机器
2015-12-19 16:02:24 3582
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人