自然语言处理
文章平均质量分 80
Florida20
这个作者很懒,什么都没留下…
展开
-
解析TF-IDF算法原理:关键词提取,自动摘要,文本相似度计算
Abstract:TF-IDF算法是一种常用的词频统计方法,常被用于关键词提取、文本摘要、文章相似度计算等。1.TF-IDF的算法思路TF词频(Text Frequency):统计出现次数最多的词IDF逆文档频率(Inverse Document Frequency):大小与一个词的常见程度成反比;即给某些词分配“重要性”权重(平时比较少见而在这篇文章里多次出现的词应给予较高权重,而平时也很常见的...原创 2018-05-25 23:14:00 · 8497 阅读 · 1 评论 -
NLP|中文分词技术及应用
摘要:中文分词是中文信息处理的重要基础,本文详细阐述了目前主要的几种中文分词算法的技术原理 、中文分词目前的瓶颈和评价准则,以及中文分词的具体应用。中文分词指将一个汉字序列切分成一个个单独的词。现有的中文分词算法有五大类:基于词典的方法,基于统计的方法,基于规则的方法,基于字标注的方法,基于人工智能技术(基于理解)的方法。中文分词目前主要有四个瓶颈,分别是分词歧义、未登录词识别、分词粒度问题、错别...原创 2018-05-25 23:15:40 · 21314 阅读 · 1 评论