Python学习爬虫（7）——爬取豆瓣书名（入门实战）以及 SSLError错误解决

最新推荐文章于 2024-05-01 14:26:58 发布

IT小样

最新推荐文章于 2024-05-01 14:26:58 发布

阅读量427

点赞数

分类专栏： Python爬虫文章标签： python 爬虫入门实战爬取豆瓣书名

本文链接：https://blog.csdn.net/weixin_31315135/article/details/88872332

版权

作者：IT小样
实例：爬取豆瓣书名
URL： https://book.douban.com/tag/漫画
目的：爬取当前页面的所有的书名。
首先放上该网页所需爬取信息的网页源码图：

从网页源码可以得知，找到父节点后，遍历’ li '子节点，可以在子节点中获取书名；首先放上最简单的实现代码：

import requests
from bs4 import BeautifulSoup

url = "https://book.douban.com/tag/%E6%BC%AB%E7%94%BB"
response = requests.get(url,verify=False)
soup = BeautifulSoup(response.text,"lxml") 
book_div = soup.find(attrs={"class":"subject-list"}) 

book_a = book_div.find_all('li',attrs={"class":"subject-item"})

for book in book_a: 
    print (book.find('h2').get_text().replace('  ','').replace('\n',''))

这