![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
python爬虫
文章平均质量分 74
小王子爱上玫瑰
这个作者很懒,什么都没留下…
展开
-
python爬虫-scrapy基于CrawlSpider类的全站数据爬取
文章目录一、CrawlSpider类介绍1.1 引入1.2 介绍和使用介绍使用二、案例:古诗文网全站数据爬取一、CrawlSpider类介绍1.1 引入使用scrapy框架进行全站数据爬取可以基于Spider类,也可以使用接下来用到的CrawlSpider类。基于Spider类的全站数据爬取之前举过栗子,感兴趣的可以康康scrapy基于Spider类的全站数据爬取scrapy基于CrawlSpider类的全站数据爬取1.2 介绍和使用介绍CrawlSpider是Spider的一个子类,因原创 2021-02-19 19:54:02 · 655 阅读 · 0 评论 -
python爬虫-scrapy五大核心组件和中间件
文章目录一、scrapy五大核心组件Spiders(爬虫)Scrapy Engine(Scrapy引擎)Scheduler(调度器)Downloader(下载器)ItemPipeline(项目管道)二、工作流程三、中间件3.1 下载中间件3.1.1 UA伪装3.1.2 代理IP3.1.3 集成selenium3.2 爬虫中间件一、scrapy五大核心组件下面这张图我们在python爬虫-scrapy基本使用见到过,下面就稍微介绍一下scrapy的五大核心组件和中间件Spiders(爬虫) 原创 2021-02-18 19:39:49 · 815 阅读 · 0 评论 -
python爬虫-scrapy基于ImagesPipeline管道类的图片数据爬取
在scrapy中,有一个专门基于图片请求和持久化存储的ImagesPipeline管道类,当我们想要使用scrapy实现图片数据的爬取时,可以直接使用该管道类下面我们将要使用ImagesPipeline管道类爬取"全景视觉"网站的图片并保存到本地pipelines.py:ImagesPipeline管道类写在pipelines.py文件中# 导入ImagesPipeline类from scrapy.pipelines.images import ImagesPipeline#ImagesPi原创 2021-02-17 22:24:11 · 487 阅读 · 2 评论 -
python爬虫-scrapy基于Spider类的全站数据爬取
很多时候,在我们爬取一些网站时,都会发现他们有多页的数据,通过观察能够发现,不同页的url之间有相似之处的,而且网页的url和对应的页码也是有关系的。所以之前我们会做一个循环,遍历所有页面中的数据当我们使用scrapy框架处理多页数据时有两种方法将每一页对应的url存放到爬虫文件的start_urls,但如果页数较多时,列表就会变得很大使用Request方法手动发起请求(推荐使用)...原创 2021-02-16 23:01:01 · 392 阅读 · 0 评论 -
python爬虫-scrapy的数据持久化存储
文章目录一、基于终端指令的持久化存储二、基于管道的持久化存储一、基于终端指令的持久化存储目的:爬取百度网页中百度热榜中的序号和标题,并通过终端指令,将爬取到的数据进行持久化存储(将爬取到的数据保存到本地)使用:在终端输入指令,将爬取到的数据保存到不同格式的文件中scrapy crawl 爬虫文件名称 -o 文件名.jsonscrapy crawl 爬虫文件名称 -o 文件名.xmlscrapy crawl 爬虫文件名称 -o 文件名.csv输入指令输出结果:生成一个csv文件,并将原创 2021-02-16 21:53:12 · 351 阅读 · 1 评论 -
python爬虫-scrapy基本使用
文章目录一、介绍二、基本使用2.1 环境安装2.2 scrapy使用流程2.3 文件解析2.4 settings.py一些常见的设置三、实例3.1 实例要求3.2 实例代码3.3 输出结果一、介绍下面这张图大家应该很熟悉,很多有关scrapy框架的介绍中都会出现这张图,感兴趣的再去查询相关资料,当然学会使用scrapy才是最主要的。二、基本使用2.1 环境安装linux和mac操作系统:pip install scrapywindows系统:先安装wheel:pip install w原创 2021-02-15 20:21:27 · 414 阅读 · 2 评论 -
python爬虫-Cookie和Session
文章目录1. 前言2. Cookie2.1 利用Cookie实现模拟登陆的两种方式3. Session3.1 利用request创建session对象的步骤1. 前言有一些网站,登陆和没登录的权限不同,还有一些网站必须要先登陆才能进入使用。在利用python爬虫模拟登陆时,经常不能请求到登陆后的界面信息,这时就会用到cookie,这里简单介绍一下Cookie和Session的概念2. Cookiecookie记录了包括登录状态在内的所有信息,这些信息由服务器生成和解释,服务器通过客户端携带的co转载 2021-02-08 21:11:30 · 346 阅读 · 1 评论 -
python爬虫-古诗文网验证码识别
文章目录一、前期准备二、示例代码一、前期准备古诗文网验证码识别,是通过对古诗文网登陆界面的验证码图片进行识别的,利用专门的验证码识别网站,可以提取验证码图片中的验证码网站推荐:超级鹰注册登陆超级鹰网站因为验证码识别需要消耗题分,所以需要先购买题分(1块钱1000题分,每次识别10题分就差不多了)选择"软件ID"选项,生成一个软件ID(后面会用到),只需要自己填写一个软件名称即可点击开发文档,选择对应的开发语言,下载示例文档下载示例文档,注意按照要求对下载的示例文档原创 2021-02-07 16:03:44 · 1273 阅读 · 0 评论 -
python爬虫-XPath案例
文章目录案例一:4k图片解析下载案例二:全国城市名称爬取案例一:4k图片解析下载目的:爬取并下载相关网站中的图片网站地址示例代码import requestsfrom lxml import etreeimport osimport time// 1. 创建文件夹,然后获取url,进行UA伪装if not os.path.exists('./4kpic'): os.mkdir('./4kpic') url = 'http://pic.netbian.com/4kb原创 2021-02-06 16:26:09 · 408 阅读 · 0 评论 -
python爬虫之XPath
文章目录一、XPath简介1.1 什么是XPath1.2 XML和HTML的区别1.3 XPath的节点关系1.3.1 节点类型1.3.2 节点关系二、XPath语法2.1 实例化etree对象2.2 选取节点2.3 选取未知节点2.4 选取若干路径三、常用函数一、XPath简介1.1 什么是XPathXPath 使用路径表达式在 XML 文档中进行导航XPath 包含一个标准函数库XPath 是 XSLT 中的主要元素XPath 是一个 W3C 标准1.2 XML和HTML的区别XM原创 2021-02-05 20:28:07 · 312 阅读 · 0 评论 -
python爬虫之BeautifulSoup4
文章目录一、BeautifulSoup4介绍二、BeautifulSoup库的解析器和四大对象类2.1 解析器2.2 BeautifulSoup的四大对象种类2.2.1 Tag标签2.2.2 NavigableString2.2.3 BeautifulSoup对象2.2.4 4. Comment三、 搜索文档find_all()方法3.1 name 参数3.1.1 传字符串3.1.2 传正则表达式3.1.3 传列表3.2 keyword 参数3.3 text 参数四、CSS选择器4.1 通过标签名查找4.2转载 2021-02-04 19:03:38 · 203 阅读 · 0 评论 -
python爬虫之re库
文章目录一、导入re库二、使用正则表达式步骤三、正则表达式中常见的基本符号四、常见的正则表达式举例五、re库的核心函数六、匹配对象的方法(提取)七、re模块的属性(flag)7.1 re模块的常用属性有以下几个:八、正则表达式中语法一览表一、导入re库python使用正则表达式要导入re库。import re在re库中。正则表达式通常被用来检索查找、替换那些符合某个模式(规则)的文本。二、使用正则表达式步骤寻找规律;使用正则符号表示规律;提取信息,如果每一个字符都能匹配,则匹配成功;一旦原创 2021-02-03 13:18:49 · 1660 阅读 · 0 评论 -
爬虫案例-糗事百科之糗图爬取
文章目录一、爬虫需要的库及方法二、程序代码三、重点分析一、爬虫需要的库及方法requests库requests.get(url,params,**kwg)url:若页面是通过Ajax加载的,则需要通过从XHR中找新的url,此时我们需要给params传参数;一般情况都是直接复制网页链接params:若页面是通过Ajax加载的,则需要给params传参数若发起的是get请求,则需要定义一个字典params,然后将params传给params;若发起的是post请求,则需要定义一个字典d原创 2021-02-03 17:30:25 · 422 阅读 · 0 评论