自然语言处理
Ragty_
人生の目的の一つは楽しむことです
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
停用词过滤原理及实现
1.停用词指语言中一类没有多少意义的词语,比如“的”,“甚至”,“不仅”,“吧”…一个句子去掉了停用词并不影响理解,停用词视具体的任务不同而不同。停用词过滤是一个常见的预处理过程2.实现思路加载中止词:IO加载中止词(中止词下载地址,复制粘贴保存为txt文本)分词:使用HanLP进行分词停用词过滤:从分词结果中去除中止词3.加载中止词这里最简单的做法是把中止词直接加入Lis...原创 2020-04-11 14:09:42 · 4644 阅读 · 0 评论 -
AC自动机详解及实现
1.背景之前的Trie树,DBTrie都属于前缀树,虽然DAT每次状态转移的时间复杂度都是常数,但全切分长度为n的文本时,时间复杂度为O(n2)。这是因为**扫描过程中需要不断的挪动起点,发起新的查询**。所以说,DAT的全切分复杂度为O(n2)。2.为什么需要AC自动机显然,前缀树的短板是扫描,查询一个句子时,前缀树需要不断的挪动起点,发起新查询,这个过程浪费了大量时间。举个栗子,扫描...原创 2020-04-10 15:44:05 · 2941 阅读 · 3 评论
分享