搜索引擎<原理、技术与系统>读书笔记(2)

  • 基于字符串匹配的分词方法
    • 机械分词方法,可以建立一个一般的模型,形式地表示为ASM(d,a,m)
      • d:匹配方向,+表示正向,-表示逆向
      • a:每次匹配失败后增加或减少字串长度(字符数) ,+为增字,-为减字 
      • m:最大或最小匹配标志,+为最大匹配,-为最小匹配。对于现代汉语来说,只有m=+是实用的方法
  • 基于统计的分词方法 
  • 正向减字最大匹配法 
    • 正向减字最大匹配法切分的过程是从自然语言的中文语句中提取出设定的长度字串,与词典比较,如果在词典中,就算一个有意义的词串,并用分隔符分
      隔输出,否则缩短字串,在词典中重新查找(词典是预先定义好的) 。 
    • 该算法的思想是:事先将网页预处理成每行是一个句子的纯文本格式。从d中逐句提取,对于每个句子s1从左向右以MaxLen为界选出候选字串w,如果w在词典中,处理下一个长为MaxLen的候选字段;否则,将w最右边一个字去掉,继续与词典比较;s1切分完之后,构成词的字符串或者此时w已经为单字,用分隔符隔开输出给 s2。从 s1 中减去 w,继续处理后续的字串。s1 处理结束,取 T中的下一个句子赋给s1,重复前述步骤,直到整篇文本d都切分完毕。 
  •  分析网页和建立倒排文件
    • 分析网页
      • 提取正文信息(指过滤网页标签, scripts,css,java,embeddedobjec ,comments等信息)
      • 把正文信息切分为索引词
    • 建立倒排文件
      • 分析完网页后,得到以网页编号为主键的正向索引表
      • 反向索引建立
      • 真正的搜索引擎,倒排文件很大,无法直接调入内存,通常在内存中存储以索引词和倒排表项偏移位置组合的ISAM信息。实现方法同样可以采用本章第二节介绍索引网页库的方法。 
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值