文章目录
数学之美
第十一章 如何确定网页和查询的相关性
影响搜索引擎的诸多因素中,有如下比较重要:
- 完备的索引
- 对网页质量的度量
- 用户偏好
- 确定一个网页和某个查询的相关性的方法
1搜索关键词权重的科学度量-TF-IDF
词频的概念:TF
还有一个你文本频率指数
使用上述两个概念对搜索关键词权重进行衡量
第十二章 有限状态机和动态规划-地图与本地搜索的核心技术
2008年是第一款Android手机发布的日子,其杀手级应用是利用全球卫星定位系统实现导航;
其地址识别技术使用了有限状态机;
f
1地址分析和有限状态机
思考:山东省济宁市泗水县星村镇,这样的地址是上下文有关文法还是上下文无关文法呢?是有关的,因为中国可能有很多星村镇,那么我所描述的是哪个呢?需要根据上下文去判断;
这里有限状态机的应用是这样的:
- 首先思考都有什么状态?
- 输入山东省,说明该地址已经确定了省份
- 输入济宁市,说明该地址已经确定了市份
- ···
- 状态有:省-市-县,诸如此类
那么这里面还面临一个问题:这里是精确搜索,只有出现了正确的地区名才能实现状态转移,那么如果用户打错了字呢?
这就需要模糊搜索的概念了,从而衍生出了基于概率的