数学之美

信息、数字和文字

信息是人认识外界事物的载体,而数字和文字又是信息的载体。最原始的信息交流方式(原始人之间的怪叫)和今天最先进的通信方式没有什么不同,都是信息的发送者将信息源经过编码,通过信道传递,再到信息的接受者那里解码的这样一个过程。而随着需要交流的信息越来越多,人类希望传递的也就不再是简单的几声怪叫或者一些简单的肢体动作能够表达的了。于是就有了数字和文字。
不同语言之间也需要通信,翻译就做了这样的工作。而翻译之所以能够达成,仅仅是因为不同的文字系统在记录信息的能力上是等价的,这也是现代通信的基础。著名的例子就是罗塞塔石碑的破解。
楔形文字有别于象形文字,是最早的拼音文字。区别在于楔形文字是由不同的较为简单的部分组合而成,而象形文字完全是按照对事物的描述与概括来构成。这是一个质的飞跃,因为人类在描述物体的方式上,从物体的外表进化到了抽象的概念,同时不自觉的采用了对信息的编码。

自然语言的处理——从规律到统计

首先是图灵测试:如果无法判断和你交流的是人还是机器,就说明对方通过了图灵测试,具有人工智能了。一般认为这是自然语言处理的开端。从那时起,科学家们研究自然语言处理的主线是:让计算机理解语言,再处理语言。所以处理过程集中于词法、语法、文法分析。文法规则从人工写到机器总结,语言处理的效率和成功率仍然无法做到令人满意。
直到20世纪70年代,基于规则的句法分析走到了尽头。统计语言学的出现使得自然语言处理重新获得新生。最初,统计规律是应用在语音识别技术上,采用给予统计的方法,IBM将当时的语音识别率从70%提高到90%,同时大大扩展了识别规模。很快,科学家们将统计规律应用到分词、去歧义化的研究中去。原理也很简单,就是利用统计的规律,采用概率大的方式,决定分词的结果和词义。这也就是最简单的统计语言模型。

信息的度量和作用

  1. 信息熵就是消除不确定性的大小;
  2. 信息的作用就是消除不确定性;
  3. 互信息就是两个随机事件“相关性”的量化度量;

布尔代数和搜索引擎

当我们搜索一个词,搜索引擎是如何找到含有这个词的网页的?最简单的情况,就可以利用布尔代数来解决。
1. 首先将所有网页内容分词、统计。统计出所有关键词,假设有10w个词;
2. 对每个网页建立索引,长度为10w,每一位对应一个关键词;
3. 相对于每个索引,如果某位对应的关键词出现在该索引对应的网页中,就将该位置为1,否则置为9;
4. 接下来的搜索过程,就是利用布尔代数去运算索引和搜索的词了。

PageRank

搜索的结果如何排名显示?google的核心算法是PageRank。
PageRank的原理也很简单,网页的重要程度,取决于之中url对应网页的重要程度之和。比如说一个网页中有3个url,这三个url的重要程度分别是0.002、0.004、0.03,那么该网页的重要程度就是0.036。只到这里并不能解决问题,因为这是一个先有鸡还是先有蛋的问题。初始值从哪里取呢?PageRank的第二部分解决了这个问题。他们采用将这个问题变成了一个二维矩阵相乘的问题来解决:先假定所有网页排名是相同的,根据这个初始值进行第一次迭代,计算出第一次排名,然后进行第二次迭代。他们同时证明,无论初始值如何选取,这种算法都能保证最后结果收敛到排名的真实值。

如何确定网页和查询的相关性

前面说到利用布尔代数进行搜索,那么同样一个词,如何度量这个词和结果之间的相关性呢(有些网页可能只是简单提了下这个词,而另一个网页可能主要讨论这个词,相关性自然是大有区别的)?最简单的方式就是词频(TF)。所谓词频,就是这个词出现的频率,统计学的角度来说,就是这个词出现的次数/网页中所有词的数量。简单吧?就是这么简单。例如一个词“数学之美”(我们假设分词器将它分为一个词),在网页A中词频是0.04,网页B中的词频是0.002,那么很显然网页A的相关性是明显高于B的。
虽然这样的方式看似简单而高效的解决了这个问题,但是存在一个问题,所有的词都可以用这样的方式解决么?如果我搜索“的”呢?这样的方式还有意义么?
解决这个疑问的方法是利用逆文本词频(IDF)。逆文本词频的含义就是:如果一个词在所有网页中出现的次数越多,逆文本词频就越低。例如“的”这样的词,在所有的网页中都会出现,所以它的逆文本词频就为0,而“数学之美”这样的词,只在很少的网页中出现,它的逆文本词频就很大。就是利用这个原理,结合词频,组成TF-IDF,来评估网页和查询的相关性。
最后,网页的最终排名也一般有PageRank和TF-IDF乘积来决定。

余弦定理和新闻的分类

余弦定理,参加过高考的同学应该都有印象。它竟然是新闻分类的理论基础。
新闻的分类,或者说更广义的文本的分类。就是想大量的文本转化成一组数字,然后再设计一个算法来算出任意两篇新闻的相似性。
第一步,根据所有词的TF-DIF,和网页中的词,将文本转化成一个向量;
第二步,根据余弦定理计算两个文本的相关性;
这就是新闻分类。

书中还有很多有意思的模型,无奈我的数学基础不够,无法很好的理解与表达,谨记止于此。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值