打算用python写点东西又想学一些机器学习方面的东西,正好看到《python自然语言处理》这本书,在这里好好学习一下,做些笔记,主要记录自己的一些想法和遇到的问题,有什么认识性的错误,还希望看到的人指正
第一章,基本上就是简单的入门和一些尝试性的操作,首先是安装nltk(python的安装,很简单,我就不赘述了),我的环境是ubuntu12.04LTS,nltk的安装可以按照nltk官网的说明来操作,具体在这里,在安装pyyaml的时候,可能会遇到这个错误,“yaml.h:没有那个文件或目录”,我安装的时候,查了半天也不知道这是怎么回事,后来发现需要安装libyaml这个库,需要先安装这个库才行,安装的说明在这里,安装好库,再安装就没有问题了
今天继续了看了一部分,忍不住吐槽一下,为什么我这里的执行结果和书上的不一样呢,每次都要处理一下才能得到书上的结果,在这里列举一下,希望能记录一下,或者可以帮助到遇到相同问题的人,或者哪位大牛可以帮我解答一下为什么我的和别人的不一样。。。
首先是FreqDist()函数,返回来的结果并不是排序好的字典啊。。。我默认执行的结果是