案例:爬取名言网数据

爬虫练习者网站
这是一个国外的网站专门用来供爬虫学习者练习的网站,里面的源代码格式非常的规范,没有现在类似诸多网站的CSS渲染,适合爬虫初学者练习。进入网站后空白处电机右键,选择查看网页源代码或者在网站上点击ctrl+U查看源代码。

1.python向服务器发送请求

首先调用urlopen,re和csv模块

from urllib.request import urlopen
import re,csv
url="http://qoutes.toscrape.com"
res=urlopen(url)
2.response对象获取源代码
res.read().decode('utf-8')
# decode后面括号也可以为空,因为默认是utf-8,通常大多是网站使用默认即可,但是有小部分网站会使用其他的,观察源代码开头的Charset的值即可

3.使用正则表达式、bs4进行内容的抓取

抓取的内容为网站上的第一页的名言,作者以及标签

使用search所得到的结果是一个对象,会包含正则表达式的前后部分,若只想要匹配的内容需调用group()函数,在括号中输入数字,即想要留下第几个括号的内容

如下面的代码所示:
正则表达式:res_qoutes="<span class=
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值