Scrapy-Splash渲染
splash是一个JavaScript渲染服务。它是一个实现了HTTP API的轻量级浏览器,splash使用python实现的,同时使用Twisted和QT.
scrapy-splash 是为了方便scrapy框架使用splash而进行的封装。它能与scrapy框架更好的结合,相比较于在python中 使用requests库或者使用scrapy 的Request对象来说,更为方便,而且能更好的支持异步。
原理说明
基于spalsh渲染后HTML,通过配置文件解析,入库。 提高了效率,一天可以写几十个配置dict,即完成几十个网站爬虫的编写。
配置文件说明:{ "industry_type": "政策", # 行业类别 "website_type": "央行", # 网站/微信公众号名称 "url_type": "中国人民银行-条法司-规范性文件", # 网站模块 "link": "http://www.pbc.gov.cn/tiaofasi/144941/3581332/index.html", # 访问链接 "article_rows_xpath": '//div[@id="r_con"]//table//tr/td/font[contains(@class, "newslist_style")]', # 提取文章列表xpath对象 "title_xpath": "./a", # 提取标题 "title_parse": "./@title", # 提取标题 "title_link_xpath": "./ |