爬取豆瓣小说

最新推荐文章于 2023-12-01 19:50:28 发布

Alex_dexter

最新推荐文章于 2023-12-01 19:50:28 发布

阅读量505

点赞数

文章标签： python 爬虫

本文链接：https://blog.csdn.net/Alex_dexter/article/details/79468072

版权

import requests
import time
from bs4 import BeautifulSoup
url='https://book.douban.com/tag/%E5%B0%8F%E8%AF%B4?start=0&type=T'
urls=['https://book.douban.com/tag/%E5%B0%8F%E8%AF%B4?start={}'.format(str(i) for i in range(20,100,20))]
# for a in urls:
#     print(a)
def get_books(url,data=None):

    web_data=requests.get(url)
    soup=BeautifulSoup(web_data.text,'lxml')
    titles=soup.select('div.info > h2 > a')
    rates=soup.select('div.pub')
    authors=soup.select('span.rating_nums')
    links=soup.select('div.info > h2 > a')
    time.sleep(2)
    if data==None:
        for title,rate,author,link in zip(titles,authors,rates,links):
            data={
                'title:':title.get('title'),
                'author:':author.get_text(),
                'rate:':rate.get_text(),
                'link:':title.get('href')
            }
            for key,value in data.items():
                print(key,value)

for single_url in urls:

get_books(single_url)

为什么只能爬取一页？

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Alex_dexter

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
爬取豆瓣小说

import requestsimport timefrom bs4 import BeautifulSoupurl='https://book.douban.com/tag/%E5%B0%8F%E8%AF%B4?start=0&amp;type=T'urls=['https://book.douban.com/tag/%E5%B0%8F%E8%AF%B4?start={}'.format(str...
复制链接

扫一扫