爬虫学习(二)

爬虫学习(二)——BeautifulSoup库及Re库

BeautifulSoup

首先需要pip install bs4这个库,然后再bs4里面的BeautifulSoup(靓汤)是从网页抓取数据的利器。首先实例化一个对象,代码如下

soup = BeautifulSoup(html,"html.parser")
item = soup.find_all("div", class_="item")
print(item)

至于find什么内容,可以根据自己网页上F12后,鼠标放置在相应代码块上进行查看在这里插入图片描述
如图所示豆瓣网页上红框部分的代码块就被我们抓取下来,print结果:

<div class="item">
<div class="pic">
<em class="">1</em>
<a href="https://movie.douban.com/subject/1292052/">
<img alt="肖申克的救赎" class="" src="https://img2.doubanio.com/view/photo/s_ratio_poster/public/p480747492.jpg" width="100"/>
</a>
</div>
<div class="info">
<div class="hd">
<a class="" href="https://movie.douban.com/subject/1292052/">
<span class="title">肖申克的救赎</span>
<span class="title"> / The Shawshank Redemption</span>
<span class="other"> / 月黑高飞(港)  /  刺激1995(台)</span>
</a>
<span class="playable">[可播放]</span>
</div>
<div class="bd">
<p class="">
                            导演: 弗兰克·德拉邦特 Frank Darabont   主演: 蒂姆·罗宾斯 Tim Robbins /...<br/>
                            1994 / 美国 / 犯罪 剧情
                        </p>
<div class="star">
<span class="rating5-t"></span>
<span class="rating_num" property="v:average">9.7</span>
<span content="10.0" property="v:best"></span>
<span>2356934人评价</span>
</div>
<p class="quote">
<span class="inq">希望让人自由。</span>
</p>
</div>
</div>
</div>

Re库

但通过靓汤还是不能精确获取我们想要的信息怎么办,可以通过正则化手段进行规则匹配,具体正则化表达式可以参考链接

比如我们想要具体爬取该电影的名字:肖申克的救赎,可以如下这样写:

findname = re.compile(r'<img alt="(.*?)" class=""')
name = re.findall(findname,item)[0]
print(name)

通过compile进行正则化匹配,<img alt=" 肖申克的救赎" class="",其中(.*?)表示有不限制个数的字符0或1串。

print就能得到我们想要的结果了

通过这两个库以及上一篇介绍的urllib库,我们即可对豆瓣Top250电影信息进行爬取,给出代码及过程介绍。

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值