网络爬虫(Web Spider),根据网页地址爬取网页内容,从而获取各类数据,实现多种多样的功能。下面就以爬取东方财富网的数据为例,谈谈最简单的爬虫的实现。爬虫的核心有三个:请求、解析、存储。
环境配置
Python安装使用Anaconda包,包里已经包含了必须的requests模块
请求html页面
import requests
url = 'http://www.eastmoney.com/'
req = requests.get(url)
html = req.content
这样我们就把html网页的源代码下下来了,我们执行
print(html)
就能把网页显示出来
image1.PNG
此时,我们发现网页有乱码现象,这是编码的问题,这时我们指定网页的编码
req.encoding = req.apparent_encoding
就会发现网页显示恢复正常了
image2.PNG
当然,如果我们没有显示的需要,完全没必要指定网页的编码。
解析
获取网页源码后,我们可以对网页的源码进行解析,提取我们想要的信息。使用得较多的是BeautifulSoup模块。我们以提取东方财富网首页的消息为例,右键点击对应的元素,选择检查,然后我们就可以看到网页的源代码了。