NLP
文章平均质量分 77
nazKu
这个作者很懒,什么都没留下…
展开
-
课堂笔记-文本挖掘-CM1
(课从Solen Quiniou)一、介绍目的:鉴定文本中重要元素,并建立内部表示。问题:1.文本中元素以什么为单位。2.怎么定义他们的重要性。3.如果用内部表示优化搜索。二、文本预处理1.分词(tokenization)·将一序列字符分开为词(tokens)·一般来说利用空格或者标点符号·每个单词都可以进行其他语言处理2.分词问题·撇号,表示双原创 2017-10-07 08:32:03 · 414 阅读 · 0 评论 -
课堂笔记-文本挖掘-CM2-聚类
(课从Solen Quiniou)一、介绍1.分类(catégorisation,en. classification)文本依赖于监督式学习·定义分类类别·学习数据通过分类类别人工标记2.聚类(clustering)文本依赖于非监督式学习·簇由无标签数据建立3.分类文本例子·垃圾邮件自动检测·识别文原创 2017-10-07 20:12:31 · 5309 阅读 · 0 评论