- 博客(3)
- 收藏
- 关注
原创 用R语言DIY机器学习算法--Kmeans
聚类是一种无监督的机器学习算法。在聚类算法中,输入的数据通常没有预先定义好类别(无标签),需要根据一定的规则计算每个之间的相似度,将相似度高的对象归入到同一个簇(cluster)中,相似度低的对象归入到不同簇中,这样组成的一个个的簇就是数据最可能的分类标准。因此聚类算法一般应用于无标签的数据分类中。Kmeans算法是一种最基本的聚类算法,是一种自动发现给定数据集的k个簇的算法。k是事先给定的,
2017-07-25 17:00:10 773
原创 用R语言DIY机器学习算法--KNN
1. KNN算法 KNN算法又称为k最邻近算法(k-Nearest Neighbour),是一种出现较早且原理比较简单的机器学习算法。其基本思想就是根据距离待分类数据X最近的k个样本数据的分类来预测X可能属于的类别。基本的计算步骤如下:计算待分类数据与样本集中每一个样本之间的距离(欧式距离、马氏距离等);找出距离最近的k个样本;观测这k个样本的分类情况;将出现次数最多的类别作
2017-07-11 14:24:51 2652 1
原创 R语言自动提取新闻摘要的简单实现
之前用R做过一些文本处理的工作,主要就是对新闻做做分类、提取关键词之类的,通过jiebaR包和自定义词典可以轻松地完成大部分工作,分类也就是整理一下各类别的特征然后跑一个分类模型就能得到比较满意的结果,唯独自动生成摘要这块一直没有找到很好的解决方法,没有找到R中现成的工具包。由于写代码能力也比较捉鸡,所以参考了java和python中的代码之后还是无法写出像样的程序出来。于是最终的解决方案就是把文
2017-06-27 10:35:50 4992 3
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人