mac自带python和pip等工具,但是在使用安装scrapy时,报了一些错,因为对操作系统一些核心目录(比如/Library)没有可操作权限,mac有自己的一些权限控制程序(非sudo chmod能改变),所以干脆重新安装python,这样新安装的python就会在/usr目录里面,而不是系统自带的/Library下面。/usr下面是我们有任何权限操作的。

1、我是利用homebrew的方法来安装,当然,也可以直接登录python官网下载安装,个人安装喜好。

2、执行brew install python

     安装完毕后,文件在/usr/local/opt/python/libexec/bin

    这里安装完后,pip也自动安装好了,执行pip2就可以了,若执行pip,则是mac自带的python里面的pip。

     为了方便实用,设置别名:

     alias python2='/usr/local/opt/python/libexec/bin/python'

3、安装图片处理的模块,这一步是我看别人的帖子安装的,我也就安装了。其实不安装也没关系。

     pip2 install -U Pillow,此时,安装总是报错,readtime out。 这是因为pip的源是在国外的,所以网络经常出现问题。此时,用国内镜像就可以了,这里用的是清华大学的源,据说是5分钟同步一次,所以基本和国外python的源一样。

     cd ~ ; mkdir .pip ; touch pip.conf; vim pip.conf;

    输入如下,保存退出 :wq

   

[global]

index-url=https://pypi.tuna.tsinghua.edu.cn/simple

[install]

trusted-host=pypi.tuna.tsinghua.edu.cn

   再次执行命令pip2 install -U Pillow 就可以了。速度很快。

4、安装scrapy

      pip2 install scrapy

     更改了源以后,安装速度很快。

从此,就可以用scrapy框架来做爬虫了。

如果需要做登录交互,最好用mechanize和selenium,可以模拟浏览器的操作行为。如果你玩过微软里面webrowser控件,就知道它们是非常好用的。我以前用webrowser实现批量登录、填写表单和获取相关信息,挺好用。现在看来,原来那个也算是个爬虫了,当时完全不知道。无论多厉害的技术,都是有一套简单有效的思想,我一直这么认为。