用python爬取豆瓣书评,简短Python爬虫爬取《人民的名义》豆瓣书评,附源代码和逐行解释...

第一步,查看要爬取的网站:https://book.douban.com/subject/26952485/collections

明确要爬取的信息,以及查看对应的xpath

本爬虫提取如下的五条信息:

1. 用户ID

2. 用户所在城市

3. 评论发布日期

4. 用户评分

5. 用户评论

d5fcf92805b2

第二步,查询xpath,大家可以用浏览器的开发者工具提取对应的xpath,此处省略具体步骤一千字.......。

第三步,分享代码,并附加逐行解释(井号之后为注释)。

源代码百度网盘链接:http://pan.baidu.com/s/1o8I3UDs

#下面这几步import是载入Python中对应的包,除了requests之外,其余都是常用的包。目前有些人写爬虫喜欢用scrapy,本人更喜欢用requests,简单粗暴,单刀直入。

import requests

import time

import json

import csv

import sys

reload(sys)

sys.setdefaultencoding("utf-8")

from lxml import etree

#下面这两步的意思是把爬取的数据存入csv文件,文件名为data.csv

csvfile = file('data.

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值