python爬取豆瓣图书top250榜单并存为CSV文件

原创 2018年04月15日 15:44:45

1、页面分析

豆瓣图书TOP250

以下是前四页的网址:

https://book.douban.com/top250
https://book.douban.com/top250?start=25
https://book.douban.com/top250?start=50
https://book.douban.com/top250?start=75

发现把第一页网址改为 https://book.douban.com/top250?start=0 也能访问

只需修改 start= 后面的数字即可构造出10页的网址

需要爬取的信息有:书名,书本的URL地址,作者,出版社和出版日期,书本价格,评分和一句话评价。



2、分析网页源代码,获取网页结构



3、需要用到的库

request用于请求网页获取网页数据,lxml解析提取数据,csv存储数据

import requests
from lxml import etree
import csv


4、源代码

# 导入相应库文件
import requests
from lxml import etree
import csv

# 创建CSV文件,并写入表头信息
fp = open('D:\Code\doubanbook2.csv','wt',newline='',encoding='utf-8')
writer = csv.writer(fp)
writer.writerow(('书名','地址','作者','出版社','出版日期','价格','评分','评价'))

# 构造所有的URL链接
urls = ['https://book.douban.com/top250?start={}'.format(str(i)) for i in range(0,251,25)]

# 添加请求头
headers = {
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Safari/537.36'
}


# 循环URL
for url in urls:
    html = requests.get(url,headers=headers)
    selector = etree.HTML(html.text)
    # 取大标签,以此循环
    infos = selector.xpath('//tr[@class="item"]')

    for info in infos:
        name = info.xpath('td/div/a/@title')[0]
        url = info.xpath('td/div/a/@href')[0]
        book_infos = info.xpath('td/p/text()')[0]
        author = book_infos.split('/')[0]
        publisher = book_infos.split('/')[-3]
        date = book_infos.split('/')[-2]
        price = book_infos.split('/')[-1]
        rate = info.xpath('td/div/span[2]/text()')[0]
        comments = info.xpath('td/p/span/text()')
        comment = comments[0] if len(comments) != 0 else "空"

        # 写入数据
        writer.writerow((name,url,author,publisher,date,price,rate,comment))

# 关闭文件
fp.close()


5、结果


python爬取豆瓣图书Top250

python3.5 爬取豆瓣读书Top250并保存
  • github_37480618
  • github_37480618
  • 2017-03-19 21:41:42
  • 378

Python爬虫入门 | 4 爬取豆瓣TOP250图书信息

先来看看页面长啥样的:https://book.douban.com/top250   我们将要爬取哪些信息:书名、链接、评分、一句话评价…… 1. 爬取单个信息我们先来尝试爬取书名,利用之前的套...
  • DataCastle
  • DataCastle
  • 2017-12-15 14:15:18
  • 1096

python 爬虫实战(一)爬取豆瓣图书top250

import requests from lxml import etree with open('booktop250.txt','w',encoding='utf-8') as f: f...
  • xiawai
  • xiawai
  • 2018-01-22 12:58:10
  • 196

爬取豆瓣Top250图书【Beautiful】

由于我有一个喜欢看书的室友,最近比较闹书荒,我觉得爬取一下豆瓣评分Top250的图书,看看他有没有想看的(并不是为了装那啥。。。 爬取目标 + 爬取豆瓣评分Top250的图书 + 获取每本图书的详...
  • Richie_ll
  • Richie_ll
  • 2017-03-03 17:17:20
  • 1258

用Python爬虫爬取豆瓣电影、读书Top250并排序

概述经常用豆瓣读书的童鞋应该知道,豆瓣Top250用的是综合排序,除用户评分之外还考虑了很多比如是否畅销、点击量等等,这也就导致了一些近年来评分不高的畅销书在这个排行榜上高高在上远比一些经典名著排名还...
  • alanzjl
  • alanzjl
  • 2016-02-17 16:34:41
  • 6294

python爬取的豆瓣top250的一些信息

核心spider:(入门简单参考,进阶的以后会更新,不要照抄,xpath的脚本自己去核对一下,不一定还能用) # -*- coding: utf-8 -*- from scrapy.selecto...
  • wang1472jian1110
  • wang1472jian1110
  • 2015-12-17 14:15:22
  • 602

scrapy爬取豆瓣电影top250并存储到mysql

1.定义item,只是作为测试用例,就只记录电影名称和评分吧 import scrapy class MovieTop250Item(scrapy.Item): # define the f...
  • a1091885194
  • a1091885194
  • 2017-12-02 22:42:46
  • 206

[爬虫系列(二)]爬取豆瓣读书Top250,并保存每本书

这里我们要爬起豆瓣读书Top250,并保存每本书的书名,信息,简要介绍和作者信息. 这里,仍然分为三步: 1.url分析 2.数据分析 3.爬取数据1.url分析豆瓣读书Top250的url分...
  • qq_23849183
  • qq_23849183
  • 2016-02-12 16:40:32
  • 2581

豆瓣电影Top250爬取的数据的一些简单可视化笔记

豆瓣Top250网址 将之前爬取到的豆瓣电影进行简单的可视化: 数据列表保存为CSV格式,如图#!-*- coding:utf-8 -*- import pandas as pd import n...
  • cjooo0
  • cjooo0
  • 2016-05-19 20:23:52
  • 2425

python+beautifulsoup爬取豆瓣电影TOP250

import urllib.request from bs4 import BeautifulSoup import re # 豆瓣电影top250 def __getHtml(): data ...
  • javaexploreroooo
  • javaexploreroooo
  • 2016-10-19 20:45:47
  • 2020
收藏助手
不良信息举报
您举报文章:python爬取豆瓣图书top250榜单并存为CSV文件
举报原因:
原因补充:

(最多只允许输入30个字)