监督式学习与非监督式学习
监督式学习指的是你拥有一个输入变量(x)和一个输出变量(Y),使用某种算法去学习从输入到输出的映射函数。例如,神经网络,决策树,支持向量机以及贝叶斯过滤等
非监督式学习指的是我们只拥有(X)但是没有相关的输出变量。例如,聚类,非负矩阵因式分解,自组织映射等
大概结构:
有监督学习(分类,回归)
↕
半监督学习(分类,回归),transductive learning (分类,回归)
↕
半监督聚类(有标签数据的标签不是确定的,类似于:肯定不是xxx,很可能是yyy)
↕
无监督学习(聚类)
单词向量
根据单词出现的频度进行聚类
1)数据集构造:在一系列数据源中,提取文本,建立一个单词频度表
2)对数据源中的单词进行计数,建立单词列表,选择介于某个百分比之内的单词数进行聚类
分级聚类
分级聚类通过连续不断地将最为相似(具体问题具体分析,本文是通过相对位置来作为相似度)的群组两两合并,来构造出一个群组的层次结构,其中每个群组都是从单一元素开始的。通常,分级后采用树状图来展现。
缺点:1.计算量惊人;2.运行速度非常缓慢。
绘制树状图
列聚类
K-均值聚类
算法步骤:
1.随机确定k个中心位置(代表聚类中心的点);
2.将各个数据分配给临近的中心点;
3.聚类中心移到分配给该聚类所有节点的平均位置处;
4.重复2,3步骤,直到分配过程不在产生变化为止。