![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
python 爬虫
文章平均质量分 64
学习过程中的笔记以及一些心得
郑师傅炒板栗
老师不是说你啊
展开
-
代理理论讲解及应用之爬虫
代理理论讲解及应用一、代理理论讲解 在做爬虫的过程中,经常会遇到这样的情况,例如:最初的爬虫程序会正常的运行,正常的抓取数据,但是可能过一段时间就会出现一些错误。你打开对应的网站一看,可能会看到“你的IP访问频率太高”等等提示。对应的这些情况出现的原因,就是门户网站所采取的某种反爬措施。 例如:服务器会检测某个IP在单位时间内请求的次数,如果在单位时间之内,某个IP发起请求的次数超过了某个阈值,那么这个服务器端就会直接拒绝该次请求,会返回给客户端一些个错误信息。 这种情况就可以称之为请求所对原创 2022-02-12 11:51:30 · 315 阅读 · 0 评论 -
爬虫中的验证码识别(简介以及打码平台,包括实战,cookie的作用,session对象的介绍)
验证码识别一、验证码识别简介1. 验证码和爬虫之间的关系?(验证码是门户网站中的一种反爬机制)反爬机制:验证码,识别验证码图片中的数据,用于模拟登陆操作。在爬虫中有相关的需求,是爬取基于用户的某些相关数据,这就需要登录了才行。在登录时,或许需要输入验证码。在浏览器中输入账号,密码,验证码是方便的。但是基于爬虫,编写程序进行当前用户登录的时候就很麻烦了。登录成功后,进行页面跳转,再将当前用户的相关信息进行爬取。核心就是登录操作,而在登录过程中,若是验证码错误,则登录会不成功。2. 识别验证码的操原创 2022-02-10 15:51:33 · 878 阅读 · 0 评论 -
Python数据解析笔记+实战
数据解析参考此b站课程总结的学习笔记代码均是学习用,拒绝商用,侵权则删一、数据解析概述1. 回顾聚焦爬虫:爬取页面中指定的数据内容(1)编码流程:指定url发起请求获取响应数据数据解析将解析到的局部数据持久化存储2. 数据解析分类:正则bs4(只能用在Python语言中)xpath(重点)3. 数据解析原理概述解析的局部的文本内容都会在标签之间或者标签对应的属性中进行存储进行指定标签的定位对标签或者标签对应的属性中存储的数据值进行提取(解析)原创 2022-02-06 18:33:42 · 859 阅读 · 0 评论 -
Python爬虫实战综合(requests)
Python爬虫实战综合(requests)原创 2022-01-28 20:52:42 · 117 阅读 · 0 评论 -
四、爬虫实战三(requests模块)
四、爬虫实战三(requests模块)1. 需求爬取豆瓣电影分类排行榜中的电影详情数据豆瓣电影会发现在滚轮拖动到底部时,地址栏不变,局部页面刷新(发起了ajax请求)(URL和Method)需要的参数:返回的数据类型:2. 代码(1)代码逻辑# UA伪装替换# 采集多少数据 可把start 和 limit替换掉 input()import requestsimport jsonurl = 'https://movie.douban.com/j/c原创 2022-01-28 10:49:55 · 746 阅读 · 0 评论 -
三、爬虫实战二(requests模块)
爬取某个单词或某个句子的翻译结果(不再是整张页面而是局部的数据)【可以用也可以不用数据解析】原创 2022-01-27 22:18:11 · 956 阅读 · 0 评论 -
05 - 二、爬虫实战一(requests模块)
二、爬虫实战一(requests模块)1.需求:爬取搜狗指定词条对应的搜索结果页面(简易网页采集器)在搜索栏中录入关键词,将关键词对应的页面进行一个查询UA检测(反爬机制)UA伪装(反反爬策略)2. 实战(1)初步代码(不完整)import requests# 'https://www.sogou.com/web?query=MFC'# 1 指定urlurl = 'https://www.sogou.com/web'# 处理url携带的参数:封装到字典中kw = input('原创 2022-01-27 12:13:18 · 1258 阅读 · 0 评论 -
04 - 一、requests模块First
一、requests模块First1. urllib模块(不常用,我们主要用requests)用于操作网页 URL,并对网页的内容进行抓取处理。包含以下几个模块urllib.request - 打开和读取 URL。urllib.error - 包含 urllib.request 抛出的异常。urllib.parse - 解析 URL。urllib.robotparser - 解析 robots.txt 文件。2.requests模块(1)Python中原生的一款基于网络请求的模块原创 2022-01-26 23:37:42 · 645 阅读 · 0 评论 -
爬虫初始深入
爬虫初始深入1. 爬虫在使用场景中的分类通用爬虫:是搜索引擎抓取系统(即各个搜索引擎自己封装的爬虫程序)的重要组成部分。特性:抓取的是一整张页面数据聚焦爬虫:是建立在通用爬虫的基础上。抓取的是页面中特定的局部内容增量式爬虫:监测网站中数据更新的情况。只会抓取网站中最新更新出来的数据2. 爬虫的矛与盾(1)例子:互联网中爬虫无处不在,可以为互联网带来无限收益。比如,对于相关电商网站来说,它是原意被相关的评价网站去爬取信息的,因为这样可以给他们的商品带来更多的流量,但是这些电商网站不会原意原创 2022-01-26 17:26:17 · 77 阅读 · 0 评论 -
03 - 爬虫相关简介
爬虫简介1. 什么是爬虫通过编写程序,模拟浏览器上网,然后让其去互联网上抓取数据的过程2. 爬虫的价值实际应用3. 爬虫究竟是合法还是违法的?在法律中是不被禁止的具有违法风险善意爬虫 恶意爬虫4. 爬虫带来的风险可以体现在如下两方面爬虫干扰了被访问网站的正常运营爬虫抓取到了受到法律保护得到特定类型的数据或信息5. 如何在使用编写爬虫的过程中避免进入局子的厄运呢?时常优化自己的程序,避免干扰被访问网站的正常运行在使用时,传播爬取到的数据时,审查抓取到的内容,如果发原创 2022-01-26 17:25:13 · 257 阅读 · 0 评论 -
02 - http&https协议(包含概念已经三种加密方式)
http协议概念,常用请求头信息,常用响应头信息,加密方式原创 2022-01-26 17:18:56 · 345 阅读 · 0 评论 -
01 - 爬虫初始深入
爬虫初始深入1. 爬虫在使用场景中的分类(三种)通用爬虫:是搜索引擎抓取系统(即各个搜索引擎自己封装的爬虫程序)的重要组成部分。特性:抓取的是一整张页面数据聚焦爬虫:是建立在通用爬虫的基础上。抓取的是页面中特定的局部内容增量式爬虫:监测网站中数据更新的情况。只会抓取网站中最新更新出来的数据2. 爬虫的矛与盾(1)例子:互联网中爬虫无处不在,可以为互联网带来无限收益。比如,对于相关电商网站来说,它是原意被相关的评价网站去爬取信息的,因为这样可以给他们的商品带来更多的流量,但是这些电商网站原创 2022-01-25 12:30:09 · 150 阅读 · 0 评论