话说在一个月黑风高的夜晚,有个朋友突然给我发来消息说想要在网上搜集一些信息,经过本人缜密的思考,觉得这个事情可以做,就开始着手筹办。
经过这么多年的学习,感觉学那些《从入门到放弃》的书,基本不靠谱,没有需求就没有动力,而且进度也很慢。所以学习应该从需求,从兴趣出发,这样才有做下去的动力。然后网上搜了下资料,发现用Python爬虫可以做网上资料的搜集,还能怎么着,那就下手做咯。鄙人不才,虽说学的是电子专业,偏硬件的,但是对软件这方面也比较感兴趣,因此Python也自学过一段时间,基本的语法不成问题。所以就一边做一边学咯。
Python版本:3.6.3
IDE:PyCharm
主机环境:win7-32
首先来认识一下爬虫Spider,就是按照一定的规则,自动地抓取万维网上的消息的脚本。而Python语法简洁,更适合写爬虫。人生苦短,我用Python。
要使用爬虫,首先是根绝网络地址url,获取页面的HTML信息。在Python3中,可以使用urllib和request两种库。rullib.request是Python自带的库,request是第三方库,需要我们自己安装。使用request库比较简单。这是request库的中文教程点击打开链接
request的基本使用方法有
方法 | 说明 |
---|---|
request.get | 获取HTML网页 |
request.post | 向HTML网页提交post请求 |
request.head | 获取HTML网页头信息的方法 |
request.put | 向HTML网页提交put请求的方法 |
request.patch | 向HTML网页提交局部修改的请求 |
request.delete | 提交删除请求 |
request.request | 构造一个请求 |
接下来直接实战来学习使用request。
我们先打开赶集网http://xa.ganji.com/,这是url,使用request.get方法就可以获得网页的源代码,如下
# -*- coding:UTF-8 -*-
import requests
if __name__ == '__main__':
target = 'http://xa.ganji.com/'
req = requests.get(url=target)
print(req.text)
程序运行的结果如下
可以看到,运行的结果,和在谷歌浏览器中右键“检查”后看到的网页代码是一样的。使用get方法就是把网页源代码下载到本地。