爬虫学习（二）

最新推荐文章于 2024-07-18 15:53:23 发布

_Tunan

最新推荐文章于 2024-07-18 15:53:23 发布

阅读量162

点赞数 1

分类专栏：爬虫学习文章标签： python 正则表达式 html

本文链接：https://blog.csdn.net/North_City_/article/details/117304182

版权

爬虫学习专栏收录该内容

4 篇文章 0 订阅

订阅专栏

爬虫学习（二）——BeautifulSoup库及Re库

BeautifulSoup

首先需要pip install bs4这个库，然后再bs4里面的BeautifulSoup（靓汤）是从网页抓取数据的利器。首先实例化一个对象，代码如下

soup = BeautifulSoup(html,"html.parser")
item = soup.find_all("div", class_="item")
print(item)

至于find什么内容，可以根据自己网页上F12后，鼠标放置在相应代码块上进行查看在这里插入图片描述
如图所示豆瓣网页上红框部分的代码块就被我们抓取下来，print结果：

<div class="item">
<div class="pic">
<em class="">1</em>
<a href="https://movie.douban.com/subject/1292052/">
<img alt="肖申克的救赎" class="" src="https://img2.doubanio.com/view/photo/s_ratio_poster/public/p480747492.jpg" width="100"/>
</a>
</div>
<div class="info">
<div class="hd">
<a class="" href="https://movie.douban.com/subject/1292052/">
<span class="title">肖申克的救赎</span>
<span class="title"> / The Shawshank Redemption</span>
<span class="other"> / 月黑高飞(港)  /  刺激1995(台)</span>
</a>
<span class="playable">[可播放]</span>
</div>
<div class="bd">
<p class="">
                            导演: 弗兰克·德拉邦特 Frank Darabont   主演: 蒂姆·罗宾斯 Tim Robbins /...<br/>
                            1994 / 美国 / 犯罪 剧情
                        </p>
<div class="star">
<span class="rating5-t"></span>
<span class="rating_num" property="v:average">9.7</span>
<span content="10.0" property="v:best"></span>
<span>2356934人评价</span>
</div>
<p class="quote">
<span class="inq">希望让人自由。</span>
</p>
</div>
</div>
</div>

Re库

但通过靓汤还是不能精确获取我们想要的信息怎么办，可以通过正则化手段进行规则匹配，具体正则化表达式可以参考链接

比如我们想要具体爬取该电影的名字：肖申克的救赎，可以如下这样写：

findname = re.compile(r'<img alt="(.*?)" class=""')
name = re.findall(findname,item)[0]
print(name)

通过compile进行正则化匹配，<img alt=" 肖申克的救赎" class=""，其中(.*?)表示有不限制个数的字符0或1串。

print就能得到我们想要的结果了

通过这两个库以及上一篇介绍的urllib库，我们即可对豆瓣Top250电影信息进行爬取，给出代码及过程介绍。

_Tunan

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
爬虫学习（二）

爬虫学习（二）——BeautifulSoup库及Re库BeautifulSoup首先需要pip install bs4这个库，然后再bs4里面的BeautifulSoup（靓汤）是从网页抓取数据的利器。首先实例化一个对象，代码如下soup = BeautifulSoup(html,"html.parser")item = soup.find_all("div", class_="item")print(item)至于find什么内容，可以根据自己网页上F12后，鼠标放置在相应代码块上进行查看
复制链接

扫一扫