《数学之美》内容小结

数学在计算机领域有着广泛的应用,数学的本质是简单而直接的。

自然语言与数学有着天然的内在的联系。

通信原理和信息传输模型
信源编码和最短编码
解码的规则,语法
聚类
校验位
双语对照文本,语料库和机器翻译
多义性和利用上下文消除歧义性

自然语言处理,从规则到统计。机器智能与图灵测试。基于规则的自然语言处理方法过于复杂而且效果不好。基于统计的方法核心是通信系统加隐马尔科夫模型。统计的方法需要计算能力的提高和数据量的增加。

统计语言模型。条件概率。马尔科夫链。高阶马尔科夫假设N=3。训练语言模型需要大的数据量。零概率问题无法回避,必须解决,平滑过渡。统计样本不足时的概率估计问题(古德图灵估计)。训练语料的选取:训练语料和模型应用领域相关。过滤数据噪声。

中文分词。字典法。基于统计语言模型的分词。衡量分词的结果:分词的一致性,词的颗粒度和层次。中文分词已经基本解决。

隐马尔科夫模型。训练算法,鲍姆韦尔奇算法。解码算法,维特比算法。

信息的度量和作用。香农,信息论。信息熵。冗余度。条件熵。信息的作用在于消除不确定性,自然语言处理的大量问题就是寻找相关信息。互信息:两个随机事件相关性的度量。相对熵。

布尔代数与搜索引擎。布尔代数。索引。

图论与网络爬虫。遍历。互联网可以看做大图,每个网页作为一个节点,超链接当做弧。使用散列表避免重复下载。网络爬虫的工程要点:BFS还是DFS(如何在有限的时间内最多地爬取最重要的网页)调度系统管理url优先级队列,BFS成分多一点。页面分析和URL提取。记录已经下载的网页,URL表,存储散列表:明确下载服务器分工,批量处理URL表。

PageRank,网页排名。对于特定查询,搜索结

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值