网络爬虫
csd_ct
计算机技术的狂热爱好者
展开
-
scrapy 爬虫之selenium中间件的使用(爬取简书内容)
前几篇文章中介绍了scrapy简单使用,这次我们来看如何在scrapy中使用selenium作为中间件爬取简书的内容。 1、为什么要使用selenium 假设我们要爬取简书的内容,打开简书上的某一篇文章,如:https://www.jianshu.com/p/b35ebb1c1b0e, 在chrome 调式控制台中,观察发送的请求, user_notes 这部分信息是动态渲染的,无法直接获取到。爬取网页内容时,有些网页内容是后端渲染的,在前端展示时,不需要js再次请求获取显示数据,这类网站对于爬原创 2020-11-02 22:02:32 · 2490 阅读 · 0 评论 -
scrapy 爬虫之爬取CSDN博客(二)
上篇博客中,介绍了爬取CSDN博客XPATH定位DOM节点和Items数据结构化的使用,下面我们来看scrapy中数据持久化,将数据保存到数据库中(sqlite、mysql、ES、mongodb)中,这里我们选择mysql为例,将爬取到的数据保存到mysql数据库中,其他数据库的存储过程类似。首先安装python操作msyql的驱动程序: pip install -U mysqlclient 1、创建pipelines.py文件 在创建爬虫项目时,pipelines.py文件是自动生成的,前面说过,原创 2020-10-30 10:34:11 · 241 阅读 · 0 评论 -
scrapy 爬虫之爬取CSDN博客(一)
上一篇中简单的介绍了scrapy的使用,scrapy爬虫的基本结构,scrapy爬虫的强大远不止如此。本篇进一步探索scrapy爬虫的进阶使用,以爬取CSDN博客内容为例,介绍数据结构化、持久化、xpath定位DOM元素、自定义UA中间件等功能的使用。 首先修改上一篇爬取百度网页的spider文件的代码内容,修改后的代码如下: import scrapy class Spider_CSDN(scrapy.Spider): """docstring for SpiderJSscrapy.Sp原创 2020-10-28 15:13:26 · 418 阅读 · 0 评论 -
scrapy 爬虫之简单使用
安装好了scrapy爬虫框架后(安装步骤见上一篇博客),开始简单的使用。 1、scrapy 命令行工具的使用 scrapy的一个强大之处是命令行工具,在命令行下输入: scrapy -h 如图: 常用的命令行工具有:crawl 启动爬虫,list 列出当前项目下的所有爬虫,shell 进入爬虫命令行,startproject 新建爬虫项目。 2、scrapy 新建爬虫项目 使用命令行,输入scrapy startproject exam1,结果如下图: 进入到exam1目录,生成原创 2020-10-27 11:06:17 · 456 阅读 · 0 评论 -
scrapy 爬虫之初识
scrapy 爬虫简介 Scrapy 是一个为了爬取网站数据、提取结构性数据而编写的应用框架,可以应用在包括数据挖掘、信息处理或存储历史数据等一系列的程序中。具有扩展性强、爬取速度快、配置性好等一系列优势,另外scrapy的网上文档比较多,官网文档讲的比较详细,中文文档也不少。在所有的爬虫框架中,srapy是一款不可多得的数据爬取工具。Scrapy 的整体架构由 Scrapy 引擎(ScrapyEngine)、调度器(Scheduler)、下载器(Downloader)、爬虫(Spiders)...原创 2020-10-26 17:09:35 · 159 阅读 · 0 评论