第一步,查看要爬取的网站:https://book.douban.com/subject/26952485/collections
明确要爬取的信息,以及查看对应的xpath
本爬虫提取如下的五条信息:
1. 用户ID
2. 用户所在城市
3. 评论发布日期
4. 用户评分
5. 用户评论
第二步,查询xpath,大家可以用浏览器的开发者工具提取对应的xpath,此处省略具体步骤一千字.......。
第三步,分享代码,并附加逐行解释(井号之后为注释)。
源代码百度网盘链接:http://pan.baidu.com/s/1o8I3UDs
#下面这几步import是载入Python中对应的包,除了requests之外,其余都是常用的包。目前有些人写爬虫喜欢用scrapy,本人更喜欢用requests,简单粗暴,单刀直入。
import requests
import time
import json
import csv
import sys
reload(sys)
sys.setdefaultencoding("utf-8")
from lxml import etree
#下面这两步的意思是把爬取的数据存入csv文件,文件名为data.csv
csvfile = file('data.