数学在计算机领域有着广泛的应用,数学的本质是简单而直接的。
自然语言与数学有着天然的内在的联系。
通信原理和信息传输模型 信源编码和最短编码 解码的规则,语法 聚类 校验位 双语对照文本,语料库和机器翻译 多义性和利用上下文消除歧义性
自然语言处理,从规则到统计。机器智能与图灵测试。基于规则的自然语言处理方法过于复杂而且效果不好。基于统计的方法核心是通信系统加隐马尔科夫模型。统计的方法需要计算能力的提高和数据量的增加。
统计语言模型。条件概率。马尔科夫链。高阶马尔科夫假设N=3。训练语言模型需要大的数据量。零概率问题无法回避,必须解决,平滑过渡。统计样本不足时的概率估计问题(古德图灵估计)。训练语料的选取:训练语料和模型应用领域相关。过滤数据噪声。
中文分词。字典法。基于统计语言模型的分词。衡量分词的结果:分词的一致性,词的颗粒度和层次。中文分词已经基本解决。
隐马尔科夫模型。训练算法,鲍姆韦尔奇算法。解码算法,维特比算法。
信息的度量和作用。香农,信息论。信息熵。冗余度。条件熵。信息的作用在于消除不确定性,自然语言处理的大量问题就是寻找相关信息。互信息:两个随机事件相关性的度量。相对熵。
布尔代数与搜索引擎。布尔代数。索引。
图论与网络爬虫。遍历。互联网可以看做大图,每个网页作为一个节点,超链接当做弧。使用散列表避免重复下载。网络爬虫的工程要点:BFS还是DFS(如何在有限的时间内最多地爬取最重要的网页)调度系统管理url优先级队列,BFS成分多一点。页面分析和URL提取。记录已经下载的网页,URL表,存储散列表:明确下载服务器分工,批量处理URL表。
PageRank,网页排名。对于特定查询,搜索结