中文算得上是最复杂的语言,连联合国都把中文放到了世界十大最难学语言的第一位。来一个简单的例子,让你明白阿虎虎的痛苦。
让机器处理文最基础的步骤,是对文本进行分词,就像我们学习新语言一样,得把话拆开来,先认识每一个字符。如果是处理英文文本,这一步简单多了,因为英文里都是独立的单词,但是处理中文就比较头大了,比如“南京市长江大桥”这段文字:
我们很自然地理解为:南京市,长江,大桥。
不过一个初学中文的老外,没准儿会理解成:南京,市长,江大桥。
也没毛病!老外犯迷糊,机器也犯迷糊。更犯迷糊的是对中文文本的语义理解,比如 这段对话:
小博帮了小虎一个小忙,小虎给小博送去了一点小礼品表示感谢。
小博:你这是什么意思?
小虎:没什么意思,意思意思。
小博:你这就不够意思了。
小虎:小意思,小意思。
小博:你这人真有意思。
小虎:其实也没有别的意思。
小博:那我就不好意思了。
小虎:是我不好意思。
小博:你肯定有什么意思。
小虎:真的没有什么意思。
小博:既然没有什么意思,那你是什么意思?
小虎:其实,我的意思就是想意思意思。
小博:你既然是想意思意思,那就是有什么意思。
小虎哭了&#