作者:龙心尘 &&寒小阳
时间:2016年1月。
出处:
http://blog.csdn.net/longxinchen_ml/article/details/50543337,
http://blog.csdn.net/han_xiaoyang/article/details/50545650
声明:版权所有,转载请联系作者并注明出处
1. 如果让你破译“三体”人文字你会怎么办?
我们试着开一下脑洞:假如你有一个优盘,里面存了大量“三体”人(刘慈欣小说中的高智能外星人)的网络文本信息,你会怎样通过这些信息去了解外星文明并从中获取有价值的技术情报?当然,“三体”人的文字都长这样儿:
“全是乱码,根本摸不着头脑!”
好吧,的确是这样。其实在计算机的眼中,人类的语言跟外星人的语言也没什么两样。
让计算机“理解”人类语言中的种种信息,甚至像人类一样做出反应,这些是自然语言处理的主要内容。
那我们怎么分析呢?首先,我们尝试找出最小观察对象,发现外星人文字好像是一块一块的方块字,每一个方块字可以作为我们的一个分析的基本语言单位。我们对这些方块字做一些基本的统计,大致就能知道“三体”人语言的基本词汇量、常用词、罕见词、常用固定搭配等等。可见统计方法是一个比较有用的利器。
而且,我们发现,有些方块字直接由一个空格将其隔开。因此将方块字区分成不同的区域,每一个区域是否可以理解成一句话?这个工作就是**“断句”**,也是自然语言处理当中的一个典型问题。
然后空行可以作为分段。按照人类语言的经验,可能段首第一句话会包含更多的信息。
还能继续分