NLP系列(1)_从破译外星人文字浅谈自然语言处理的基础

作者:龙心尘 &&寒小阳
时间:2016年1月。
出处:
http://blog.csdn.net/longxinchen_ml/article/details/50543337,
http://blog.csdn.net/han_xiaoyang/article/details/50545650
声明:版权所有,转载请联系作者并注明出处

1. 如果让你破译“三体”人文字你会怎么办?

我们试着开一下脑洞:假如你有一个优盘,里面存了大量“三体”人(刘慈欣小说中的高智能外星人)的网络文本信息,你会怎样通过这些信息去了解外星文明并从中获取有价值的技术情报?当然,“三体”人的文字都长这样儿:
在这里插入图片描述

“全是乱码,根本摸不着头脑!”

好吧,的确是这样。其实在计算机的眼中,人类的语言跟外星人的语言也没什么两样。

让计算机“理解”人类语言中的种种信息,甚至像人类一样做出反应,这些是自然语言处理的主要内容。

那我们怎么分析呢?首先,我们尝试找出最小观察对象,发现外星人文字好像是一块一块的方块字,每一个方块字可以作为我们的一个分析的基本语言单位。我们对这些方块字做一些基本的统计,大致就能知道“三体”人语言的基本词汇量、常用词、罕见词、常用固定搭配等等。可见统计方法是一个比较有用的利器。

而且,我们发现,有些方块字直接由一个空格将其隔开。因此将方块字区分成不同的区域,每一个区域是否可以理解成一句话?这个工作就是**“断句”**,也是自然语言处理当中的一个典型问题。

然后空行可以作为分段。按照人类语言的经验,可能段首第一句话会包含更多的信息。

还能继续分

  • 16
    点赞
  • 32
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值