爬虫练习者网站
这是一个国外的网站专门用来供爬虫学习者练习的网站,里面的源代码格式非常的规范,没有现在类似诸多网站的CSS渲染,适合爬虫初学者练习。进入网站后空白处电机右键,选择查看网页源代码或者在网站上点击ctrl+U查看源代码。
1.python向服务器发送请求
首先调用urlopen,re和csv模块
from urllib.request import urlopen
import re,csv
url="http://qoutes.toscrape.com"
res=urlopen(url)
2.response对象获取源代码
res.read().decode('utf-8')
# decode后面括号也可以为空,因为默认是utf-8,通常大多是网站使用默认即可,但是有小部分网站会使用其他的,观察源代码开头的Charset的值即可
3.使用正则表达式、bs4进行内容的抓取
抓取的内容为网站上的第一页的名言,作者以及标签
使用search所得到的结果是一个对象,会包含正则表达式的前后部分,若只想要匹配的内容需调用group()函数,在括号中输入数字,即想要留下第几个括号的内容
如下面的代码所示:
正则表