对自然语言处理比较感兴趣,只看了(这部分 && 看得懂的部分)。
第2章 自然语言处理——从规则到统计
讲了自然语言处理的发展历史,如题,从规则到统计。规则是语法规则,里面用到了树模型。在书上看到自己学过的内容还是很有意思的,对理解也很有帮助。虽然语法对人类来说不算很难理解,但是对机器来说,处理成分多的一句话就需要大量的分析和结构模型使之成为机器语言。而这自然需要耗费非常大的时间与空间。这也使得自然语言处理停滞了很长一段时间。
后期新人科学家对语言处理调整为统计,但在这章没细讲。
记忆比较深刻的是里面提到老科学家,或许是年龄老,也或许是观念老。需要等到ta们退休才能有进一步发展。好crazy的人类们。。
第四章 谈谈分词
这章也挺有意思的。一个点是对于不同的分词方法,会采取比较常用的一种,和gpt很像。另一个点是人对具有歧义性的分词处理得也不能十全十美。反正是一种已经比较完善了的技术。
第六章 信息的度量和作用
信息熵的概念不错。看得时候让我想到自己比较苦恼的一个问题。相比于其它领域,计算机是特别专注于人类的专业,所取得的成就也基本上都以人类为中心,只给人类提供便利。有没有能给动物提供翻译的语言处理技术呢。但就算是同种动物,不同种类的可以交流吗(金毛和伯恩山)?不同种动物可以交流吗?蚂蚁触碰触角,蜜蜂摆出形状,鲨鱼感应温度,犬科嗅出气味。。我们的语言是一维的,转化成结构模型是二维,而动物世界的交流信息才是三维的。。
第七章 贾里尼克和现代语言处理
比较喜欢这一章。1. 不需要在年轻的时候学习很多,因为理解能力会在长大之后变得更强。看的时候在想,不学习怎么提高理解能力。后来又想,又不是只能通过学习提高。。长大因为能力提升,变成了一件很幸福的事情。 2. 巴菲特每年选一个出价最高的人一起吃饭。因为我爸梦到过和巴菲特吃饭且很兴奋,让我觉得很搞笑。 3. 贾里尼克本人和他的学生都很幸运。贾里尼克遇到良师益友尚有自己的努力和一些运气在,他的学生完全被他像带孩子一样带着,培养出类拔萃的能力,提供资源和平台。羡慕。