1、URL演示
在scrapy shell中打开服务器的网页,两种方式:
scrapy shell --pdb http://www.elecfans.com/yuanqijian/
scrapy shell -s USER_AGENT="Mozilla/5.0" http://www.elecfans.com/yuanqijian/
然后就在终端界面显示出一些网页信息
按 ctrl+D退出调试界面
2、item
用chrome浏览器,右键检查,查看网页代码以及对应的部分。
找到感兴趣的部分邮件,copy->copy xPath,但是chrome的xpath表达式过于精确,很容易挂掉的,所以需要简化
//h3/a
然后用以下指令提取出需要的内容,结果如下图所示
response.xpath('//h3/a').extract()
通过指定html的特定元素来选取内容(xpath的元素从1开始)
response.xpath('//*[@class="update"][1]/text()').extract()
可以看到这里的内容都是一些人类看起来不友好的内容,还需要一些正则化等操作。这里先不继续,因为我也没仔细看过。