自然语言处理
炼金术士来断兵线了
这个作者很懒,什么都没留下…
展开
-
任务2:常用的分词算法 I
最简单的分词算法是在单词层面的最大匹配算法,最大匹配算法又可以分为前向最大匹配和后向最大匹配,二者大致上是类似的,只是在字符的缩减方向上有所差异。 这个算法得到的结果或者说目的是:最终分得的单词个数越少越好,每个单词的字符长度越长越好; 前向最大匹配 (forward-max matching) 无论是哪种分词算法,都需要有预先保存好的单词字典库 比如说我们要对以下一句话进行分词: 我们经常有意见分歧 字典: [“我们”,“经常”,“有”,“意见”,“有意见”,“分歧”] 设置最大匹配 max_len=5,原创 2020-12-28 16:54:52 · 277 阅读 · 1 评论 -
任务1:NLP项目基本流程
在一般的nlp项目中,我们基本需要根据以下几个步骤来搭建一个系统,称之为Pipeline: 文本数据的来源:我们可以爬取网页文本,可以从新闻,报告,文章等多方面获取; 分词:可分为中文分词和英文分词,英文分词较中文分词简单,可以利用空格等就可以将单词与单词分开; 在分好词之后,我们还需要进行一些文本清洗: 去掉一些无用的标签,比如在爬取网页中的**, **等; 去点特殊符号: 如!, …, ? 等标点符号以及数字等; 停用词过滤,a, an, the等词对于句子的理解用词不大,而他们出现的频原创 2020-12-28 15:57:46 · 593 阅读 · 0 评论