- 基于字符串匹配的分词方法
- 机械分词方法,可以建立一个一般的模型,形式地表示为ASM(d,a,m)
- d:匹配方向,+表示正向,-表示逆向
- a:每次匹配失败后增加或减少字串长度(字符数) ,+为增字,-为减字
- m:最大或最小匹配标志,+为最大匹配,-为最小匹配。对于现代汉语来说,只有m=+是实用的方法。
- d:匹配方向,+表示正向,-表示逆向
- 机械分词方法,可以建立一个一般的模型,形式地表示为ASM(d,a,m)
- 基于统计的分词方法
- 正向减字最大匹配法
- 正向减字最大匹配法切分的过程是从自然语言的中文语句中提取出设定的长度字串,与词典比较,如果在词典中,就算一个有意义的词串,并用分隔符分
隔输出,否则缩短字串,在词典中重新查找(词典是预先定义好的) 。 - 该算法的思想是:事先将网页预处理成每行是一个句子的纯文本格式。从d中逐句提取,对于每个句子s1从左向右以MaxLen为界选出候选字串w,如果w在词典中,处理下一个长为MaxLen的候选字段;否则,将w最右边一个字去掉,继续与词典比较;s1切分完之后,构成词的字符串或者此时w已经为单字,用分隔符隔开输出给 s2。从 s1 中减去 w,继续处理后续的字串。s1 处理结束,取 T中的下一个句子赋给s1,重复前述步骤,直到整篇文本d都切分完毕。
- 正向减字最大匹配法切分的过程是从自然语言的中文语句中提取出设定的长度字串,与词典比较,如果在词典中,就算一个有意义的词串,并用分隔符分
- 分析网页和建立倒排文件
- 分析网页
- 提取正文信息(指过滤网页标签, scripts,css,java,embeddedobjec ,comments等信息)
- 把正文信息切分为索引词
- 建立倒排文件
- 分析完网页后,得到以网页编号为主键的正向索引表
- 反向索引建立
- 真正的搜索引擎,倒排文件很大,无法直接调入内存,通常在内存中存储以索引词和倒排表项偏移位置组合的ISAM信息。实现方法同样可以采用本章第二节介绍索引网页库的方法。
- 分析网页
搜索引擎<原理、技术与系统>读书笔记(2)
最新推荐文章于 2021-11-14 22:47:51 发布