Scrapy爬取豆瓣租房信息数据 爬取单个页面 源码 如图一所示,网页中有发布的租房信息、作者、时间、回应信息。目标是获取讨论内容、帖子地址、作者、时间。 图一.豆瓣租房讨论组页面 如图二所示为图一页面的源码结构,其中table结构十分清晰,直接使用正则表达式提取页面内容即可。 图二.页面源码结构 注意:Python re模块中,match方法匹配从头开始,此处用findall直接有效。 结果 如图三所示,为爬虫获取的数据结果。 图三.结果