自然语言处理
文章平均质量分 64
土豆面包
这个作者很懒,什么都没留下…
展开
-
TF-IDF基本概念以及例题
TF-IDF基本概念作用:提取文本关键词;计算查询内容与不同文本的相关程度等。TF(Term Frequency):词频。也就是,如果一个词很重要,它应该在这篇文章中多次出现。IDF(Inverse Document Frequency):逆文档频率。说人话,也就是出现频率高的词可能是一些过于常用的词,例如“的”,“是”,“我”,如果仅仅根据TF来作为衡量指标,那么结果会没有意义,所以我们需要设定IDF这个指标,它的大小与一个词的常见程度成反比。TF-IDF:词频(TF)和逆文档频率(IDF)两个值原创 2021-03-08 14:31:02 · 4244 阅读 · 1 评论 -
基于词典的中文分词方法:正向最大匹配法&正向最小匹配法&反向最大匹配法&反向最小匹配法
基于词典的中文分词方法在文本分类中,像汉语这样的语言,在文本之中没有任何空格,我们可以使用基于词典、基于统计或基于机器学习的方法来分词。而基于词典的分词基本上就是将一个中文字符串与字典中的单词进行匹配。成功匹配的字符串被分割成一个单词。根据匹配方向和匹配长度优先级,我们可以分为:匹配方向:正向匹配vs反向匹配匹配长度优先级:最大匹配vs最小匹配两两组合,就会有四种匹配方式:正向最大匹配法、正向最小匹配法、反向最大匹配法、反向最小匹配法以正向最大匹配法为例介绍一下流程,另外三种方式类似:正向最原创 2021-03-08 14:25:08 · 2586 阅读 · 0 评论