利用CSS选择器爬取豆瓣上的图书

最新推荐文章于 2023-03-17 22:32:41 发布

Lgs_ning

最新推荐文章于 2023-03-17 22:32:41 发布

阅读量554

点赞数

文章标签：基础爬虫

本文链接：https://blog.csdn.net/Lgs_ning/article/details/82726852

版权

本文介绍了如何利用requests和BeautifulSoup库通过CSS选择器爬取豆瓣网站上的图书信息，包括书名、作者、出版社和出版时间。具体展示了爬取到的多本图书详情。

摘要由CSDN通过智能技术生成

利用CSS选择器爬取豆瓣上的图书

主要技术：熟练掌握requests、BeautifulSoup
爬取图书链接 "https://book.douban.com/latest?icn=index-latestbook-all"

代码块

import requests
from bs4 import BeautifulSoup



def get_film(url):
    headers = {
  'User-Agent': 'Mozilla/5.0'}   #防止反爬虫
    try:
        r=requests.get(url,headers=headers)
        r.raise_for_status()
        r.encoding=r.status_code
        return r.text

    except:
        return "爬取失败!"

def parse_html(html,List):
    film_name1=[]
    film_actor1=[]
    film_actor2=[]
    soup=BeautifulSoup(html,'html.parser')
    for name in so

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Lgs_ning

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
利用CSS选择器爬取豆瓣上的图书

利用CSS选择器爬取豆瓣上的图书主要技术：熟练掌握requests、BeautifulSoup 爬取图书链接 "https://book.douban.com/latest?icn=index-latestbook-all"代码块import requestsfrom bs4 import BeautifulSoupdef get_film(url): ...
复制链接

扫一扫