层次聚类算法,首先要有好的分类效果,同时提取类别标签更为重要
lingo算法利用后缀数组聚类
lingo算法分析:
1:文本预处理
过滤文档中的HTML标签、实体,去除非字母字符,提取词干,去除停止词
2:关键词提取
利用奇异值分解方法发现抽象概念,奇异值分解概念理解需要有线性代数和统计等知识
3:类标签提取
4:文档分配
5:形成最终聚类
层次聚类算法,首先要有好的分类效果,同时提取类别标签更为重要
lingo算法利用后缀数组聚类
lingo算法分析:
1:文本预处理
过滤文档中的HTML标签、实体,去除非字母字符,提取词干,去除停止词
2:关键词提取
利用奇异值分解方法发现抽象概念,奇异值分解概念理解需要有线性代数和统计等知识
3:类标签提取
4:文档分配
5:形成最终聚类