python爬取豆瓣读书top250并保存xls（含源码）

最新推荐文章于 2024-05-13 15:07:13 发布

沉迷python，日渐消瘦

最新推荐文章于 2024-05-13 15:07:13 发布

阅读量1.1k

点赞数 7

分类专栏： python爬虫文章标签： python xpath

本文链接：https://blog.csdn.net/jadsgfuhya/article/details/106590680

版权

python爬取豆瓣读书top250并保存xls（含源码）又是霍霍豆瓣的一天O(∩_∩)O哈哈~。目标网站：http://book.douban.com/top250/全军出击！！！首先，按下F12可以点击左上角小按钮快速查看xpath哦ok，开始爬虫！首先导入库import reimport xlwtimport requestsfrom bs4 import BeautifulSoup因为xlwt和bs4不是python自带的库，所以我们要自行去cmd: pip insta

摘要由CSDN通过智能技术生成

python爬取豆瓣读书top250并保存xls（含源码）

又是霍霍豆瓣的一天O(∩_∩)O哈哈~。
目标网站：http://book.douban.com/top250/
全军出击！！！
首先，按下F12
在这里插入图片描述
可以点击左上角小按钮快速查看xpath哦

ok，开始爬虫！
首先导入库

import re
import xlwt
import requests
from bs4 import BeautifulSoup

因为xlwt和bs4不是python自带的库，所以我们要自行去cmd: pip install xlwt , pip install bs4
第二步，初始化各种信息

def getHtml(url):  
    headers = {
   'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:56.0) Gecko/20100101 Firefox/56.0'}  
    page = requests.get(url,headers = headers)
    html =page.text
    return html

然后，写入xls的几行代码

    sheet = Workbook.add_sheet('豆瓣图书Top250')
    sheet.write(2,2,'书名')
    sheet.write(2,3,'作者')
    sheet.write(2,4,'译者')
    sheet.write(2,5,'出版单位')
    sheet.write(2,6,'出版时间')
    sheet.write(2,7,'定价')
    sheet.write(2,8,'豆瓣评分')
    sheet.write(2,9,'评价人数')
    sheet.write(2,10,'短评')
    i = 3
    j = 3
    k = 3
    m = 3

i,j,k,m是每次写入时位置的变量。
第三步，筛选与写入，我就不详细讲了，差不多就是从源码中的信息中使用xpath筛选出要的信息。

for page in range(0,250,25):
        url = 'https://book.douban.com/top250?start={0}'.format(page)
        html = getHtml(</

最低0.47元/天解锁文章

沉迷python，日渐消瘦

关注

7
点赞
踩
28

收藏

觉得还不错? 一键收藏
2
评论
python爬取豆瓣读书top250并保存xls（含源码）

python爬取豆瓣读书top250并保存xls（含源码）又是霍霍豆瓣的一天O(∩_∩)O哈哈~。目标网站：http://book.douban.com/top250/全军出击！！！首先，按下F12可以点击左上角小按钮快速查看xpath哦ok，开始爬虫！首先导入库import reimport xlwtimport requestsfrom bs4 import BeautifulSoup因为xlwt和bs4不是python自带的库，所以我们要自行去cmd: pip insta
复制链接

扫一扫