python爬虫程序所需的工具整理

事情起于想做一个抓取网页的程序。我想抓一些资讯。问题是,许多网站采用js来控制翻页,我之前用java写的程序只能抓到首页,无法翻页。

于是在网上淘,淘啊淘,嫖啊嫖,

找到这篇,    http://www.comingcode.com/?p=275    介绍如何抓取js中内容的。这篇文章流传范围挺广的。不少人都转载了。

里面提到的3种方法,第一种,我在csdn看了本专门介绍selenium的书,没找到有比较好的线索。第二种,不合我的想法。

第三种,使用spynner

 

所需的工具:

1.python 2.7/3及以上版本。容易找到链接下载;

2.Pyqt 有压缩包。不过最好是直接用exe安装吧。

下载链接:http://sourceforge.net/projects/pyqt/files/PyQt4/PyQt-4.11.4/PyQt4-4.11.4-gpl-Py3.4-Qt4.8.7-x32.exe/download


3.Spynner包。   Spynner网上不容易找到。我第一次能搜索到,第二次再去找的时候却难以找到。因此我将这个上传百度云 http://pan.baidu.com/s/1gdwB8JL

里面说到用pip安装。用pip安装确实比较方便。就像在linux环境下载一样。

Pip下载:https://pypi.python.org/pypi/pip


如何安装pip呢?

 

http://zhidao.baidu.com/link?url=iCdJmYJo_wH4iXmsbfkAu8n64M7eKpX1IEZz9rubO3hL8x92eFlvqAF8kHThwZ3TV4D9GJJY8hjulKA8UGnlAa

 

Pip使用:http://blog.163.com/wanyong_37/blog/static/127055589201451410847493/

 

4.beautifulsoup包。 下载地址 :http://download.chinaunix.net/download/0014000/13541.shtml

 

我推荐用pip下载。 命令:pip install beautifulsoup3/4/5   分别代表不同的版本。

 

5.IDE。自选。

他那个示范程序中,

其实还漏了一些包,比如程序中需要的pyquery包。这个用pip安装。我安装的过程中不太顺利,老是出错,提示:error:Unable to find vcvarsall.bat。网上有提示说要安装MinGW。安装地址:http://blog.csdn.net/sunny2038/article/details/6918602

 可是我已经装了MinGW。初步估计还缺点别的包。所以我才说“还漏了一些包”。程序中BeautifulSoup包好像改名了,改成了bs44是版本号)。导入是这样的:import bs4

 

上面说到的一些包如果不是用pip下载的包,需要解压,并拷到PYthon2.7/3及以上版本的安装目录中;再在控制台下,cd 包所在的目录,然后用命令(比如):python setup.py install 安装。

 

先写到这里。

转载请注明出处,谢谢。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值