Python使用scrapy爬取阳光热线问政平台过程解析

最新推荐文章于 2021-11-14 15:48:23 发布

程序员浩然

最新推荐文章于 2021-11-14 15:48:23 发布

阅读量1.8k

点赞数

分类专栏： python爬虫教程文章标签： python 大数据

本文链接：https://blog.csdn.net/haoxun09/article/details/104850455

版权

本文详细介绍了如何使用Python的Scrapy框架爬取阳光热线问政平台的数据，包括帖子的标题、内容、编号和URL。首先创建项目，定义items，然后编写爬虫文件、管道文件，并配置settings。通过测试运行，成功抓取所需信息。此外，还提到了一个全面的Python学习资源推荐。

摘要由CSDN通过智能技术生成

这篇文章主要介绍了Python使用scrapy爬取阳光热线问政平台过程解析,文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考
目的：爬取阳光热线问政平台问题反映每个帖子里面的标题、内容、编号和帖子url
CrawlSpider版流程如下：

创建爬虫项目dongguang

scrapy startproject dongguang

设置items.py文件

# -*- coding: utf-8 -*-
import scrapy
class NewdongguanItem(scrapy.Item):
  # define the fields for your item here like:
  # name = scrapy.Field()
  # pass
  # 每页的帖子链接
  url = scrapy.Field()
  # 帖子标题
  title = scrapy.Field()
  # 帖子编号
  number = scrapy.Field()
  # 帖子内容
  content = scrapy.Field()

在spiders目录里面，创建并编写爬虫文件sun.py

# -*- coding: utf-8 -*-
import scrapy
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule
from dongguan.items import DongguanItem
class SunSpider(CrawlSpider):
  name = 'dg'
  allowed_domains = ['wz.sun0769.com']
  start_urls = ['http://wz.sun0769.com/html/top/report.shtml']
  # rules是Rule的集合，每个rule规则同时执行。另外，如果发现web服务器有反爬虫机制如返回一个假的url，则可以使用Rule里面的参数process_links调用一个自编函数来处理url后返回一个真的url
  rules = (
    # 每个url都有一个独一无二的指纹，每个爬虫项目都有一个去重队列
    # Rule里面没有回调函数，则默认对匹配的链接要跟进，就是对匹配的链接在进行请求获取响应后对响应里面匹配的链接继续跟进，只不过没有回调函数对响应数据进行处理
    # Rule(LinkExtractor(allow="page="))如果设置为follow=False,则不会跟进，只显示当前页面匹配的链接。如设置为follow=True，则会对每个匹配的链接发送请求获取响应进而从每个响应里面再次匹配跟进，直至没有。python递归深度默认为不超过1000，否则会报异常
    Rule(LinkExtractor(allow="page=")),
 
    Rule(LinkExtractor(allow='http://wz.su