Python Scrapy框架

最新推荐文章于 2024-04-30 20:20:49 发布

hao_小子

最新推荐文章于 2024-04-30 20:20:49 发布

阅读量286

点赞数

分类专栏： Python 爬虫文章标签： Python 新手爬虫 scrapy xpath

本文链接：https://blog.csdn.net/qq_23038639/article/details/53385915

版权

Python 爬虫专栏收录该内容

2 篇文章 0 订阅

订阅专栏

不使用bs4,requests库，尝试下用scrapy框架爬虫。

跟着别人博客做的，刚开始一直怀疑是自己电脑没配置好，

后来发现是代码错误就学了下Xpath修改了代码，能运行了现在。

添加上修改的代码：

(注意看日期，2016年11月28日可用

万一论坛改版了什么之类的可能就需要自己重新去修改了。)

def parse(self, response):
        selector = Selector(response)

	table = selector.xpath('//*[starts-with(@id, "pid")]')  # 取出所有的楼层
       print len(table)# 7层 输出为7
	
	i=0
       for each in table:  # 对于每一个楼层执行下列操作

		i+=1
		item = HeartsongItem()

 		item['title'] = selector.xpath('//*[@id="thread_subject"]/text()').extract()[0]
		item['author'] = each.xpath('//a[contains(@class,"xw1")]/text()').extract()[i]
		item['post_time'] = each.xpath('//em[contains(@id,"authorposton")]/text()').extract()[i - 1]
		item["content"] = each.xpath('//td[contains(@class,"t_f")]/font/font/font/text()').extract()[i - 1]
 		item['url'] = each.xpath('//a[contains(@class,"avtm")]/@href').extract()[i - 1]

	      yield item

参考资料：http://kongtianyi.cn/2016/09/26/python/Scrapy-Lesson-1/

hao_小子

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Python Scrapy框架

2016年11月28日Python Scrapy框架爬虫可用。
复制链接

扫一扫

专栏目录

Python Scrapy框架

“相关推荐”对你有帮助么？