![](https://img-blog.csdnimg.cn/20201014180756724.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫
DIAJEY
这个作者很懒,什么都没留下…
展开
-
PYTHON爬虫学习(七) -- scrapy框架
基本使用: -创建一个工程:scrapy startproject xxxxx -cd xxxxx - 在spiders子目录中创建一个爬虫文件 - scrapy genspider spiderName www.xxx.com - 执行工程 - scrapy crawl spiderName - 持久化存储: - 终端指令: 要求:只可以将parse方法的返回值存储到本地的文本文件中 注意:存储的文本文件类型只可以为:'json','jsonlines','jl','cs原创 2020-12-09 21:02:17 · 174 阅读 · 0 评论 -
PYTHON爬虫学习(六) -- selenium模块
Selenium模块selenium模块和爬虫之间有什么关联? - 便捷的获取网站中动态加载的数据 - 便捷实现模拟登陆什么是selenium模块? - 基于浏览器自动化的一个模块selenium使用流程: - 环境安装: pip install selenium - 下载一个浏览器的驱动程序(谷歌): - 下载路径:http://chromedriver.storage.googleapis.com/index.html - 驱动程序和浏览器版本的对应关系:http://blog原创 2020-12-08 11:49:21 · 191 阅读 · 0 评论 -
PYTHON爬虫学习(四) -- 验证码识别,模拟登陆
验证码识别:验证码反爬机制:识别验证验证码图片中的数据,用于模拟登录操作识别验证码的操作(反反爬):-人工肉眼识别(不推荐)-第三方自动识别 -云打码(http://www.yundama.com/demo.html)(验证码类型全,但是要钱)1.云打码的使用步骤1.注册:普通和开发者用户2.登录: --普通用户:查查还有没有分 --开发者用户: --创建一个软件(我的软件-->添加新软件-->录入软件名称-->提交),完成后会拿到软件ID和密钥 --下载原创 2020-12-07 16:58:58 · 391 阅读 · 0 评论 -
PYTHON爬虫学习笔记(三)--数据解析,聚焦爬虫
·聚焦爬虫:爬取页面中指定的页面内容 --编码流程: -- 指定url -- 发起请求 -- 获取响应数据 -- 数据解析(new) -- 持久化存储 ·数据解析分类: -正则 -bs4 -xpath(***) ·数据解析原理概述: -- 解析的局部的文本内容都会在标签之间或者标签对应的属性中进行存储 -- 1.进行指定标签的定位 -- 2.标签或者标签对应的属性中存储的数据值进行提取(解析)1.数据解析–正则表达式:爬虫中常用的正则表达式:正则练习:原创 2020-12-03 22:15:10 · 285 阅读 · 0 评论 -
PYTHON爬虫学习笔记(二) -- Request模块
Request 模块–urlib模块–requests模块requests模块:python中原生的一款基于网络请求的模块,功能强大,简单便捷,效率高作业:模拟浏览器发请求使用方法:(requests模块的编码流程) --指定url --发送请求 --获取响应数据 --持久化存储环境安装: pip install requests实战编码: - 需求:爬取搜狗首页的页面数据实例1.简易网页采集器# -*- coding: utf-8 -*-''' 爬虫原创 2020-12-02 12:37:06 · 250 阅读 · 0 评论 -
PYTHON爬虫学习(一)-- 基础概念
什么是爬虫? 通过编写程序,模拟浏览器上网,然后让其去互联网上抓取数据的过程爬虫在使用场景中的分类–通用爬虫:抓取系统的重要组成部分。抓取的是一整张页面数据–聚焦爬虫:建立在通用爬虫的基础上。抓取的是页面中特定的局部内容–增量式爬虫:检测网站中数据更新的情况。只会抓取网站中最新更新出来的数据反爬机制1.robots.txt协议:君子协议:规定了网站中哪些数据可以被爬取,哪些不可以http&https协议·1.http协议:--概念:就是服务器和客户端进行数据交互的一种形原创 2020-12-02 10:10:17 · 210 阅读 · 2 评论