Python爬虫
文章平均质量分 81
bfhonor
没有天生的高手,更没有永远的菜鸟。
展开
-
浏览器抓包使用方法介绍
一、浏览器抓包使用方法介绍1、新建隐身窗口浏览器中直接打开网站,会自动带上之前网站时保存的cookie,但是在爬虫中首次获取页面是没有携带cookie的,这种情况如何解决呢?使用隐身窗口(无痕模式),首次打开网站,不会带上cookie,能够观察页面的获取情况,包括对方服务器如何设置cookie在本地2、chrome中network的更多功能2.1 Perserve log默认情况下,页面发生跳转之后,之前的请求url地址等信息都会消失,勾选perserve log后之前的原创 2021-04-15 15:57:29 · 8542 阅读 · 0 评论 -
Python爬虫之验证码处理
验证码处理学习目标1.图片验证码1.1 什么是图片验证码验证码(CAPTCHA)是“Completely Automated Public Turing test to tell Computers and Humans Apart”(全自动区分计算机和人类的图灵测试)的缩写,是一种区分用户是计算机还是人的公共全自动程序。1.2 验证码的作用防止恶意破解密码、刷票、论坛灌水、刷原创 2021-04-14 19:47:32 · 1325 阅读 · 0 评论 -
Python爬虫之selenium对标签页切换、切换frame标签、cookie处理、执行js代码、开启无界面、以及使用代理ip和替换user-agent等方法
selenium的其它使用方法1. selenium标签页的切换当selenium控制浏览器打开多个标签页时,如何控制浏览器在不同的标签页中进行切换呢?需要我们做以下两步:获取所有标签页的窗口句柄利用窗口句柄字切换到句柄指向的标签页这里的窗口句柄是指:指向标签页对象的标识关于句柄请课后了解更多,本小节不做展开具体的方法# 1. 获取当前所有的标签页的句柄构成的列表current_windows = driver.window_handles# 2. 根据标签页句原创 2021-04-14 19:32:09 · 5242 阅读 · 1 评论 -
Python爬虫selenium提取数据之driver对象常用方法
selenium提取数据知识点:1. driver对象的常用属性和方法在使用selenium过程中,实例化driver对象后,driver对象有一些常用的属性和方法driver.page_source 当前标签页浏览器渲染之后的网页源代码driver.current_url 当前标签页的urldriver.close() 关闭当前标签页,如果只有一个标签原创 2021-04-12 21:19:01 · 8256 阅读 · 1 评论 -
Python爬虫之selenium自动化测试工具的介绍
selenium的介绍1. selenium运行效果展示Selenium是一个Web的自动化测试工具,最初是为网站自动化测试而开发的,Selenium 可以直接调用浏览器,它支持所有主流的浏览器(包括PhantomJS这些无界面的浏览器),可以接收指令,让浏览器自动加载页面,获取需要的数据,甚至页面截屏等。我们可以使用selenium很容易完成之前编写的爬虫,接下来我们就来看一下selenium的运行效果1.1 chrome浏览器的运行效果在下载好chromedriver以及安装好seleni原创 2021-04-07 18:20:18 · 284 阅读 · 1 评论 -
Python数据提取之lxml模块详解和Xpath语法的使用
1. 了解 lxml模块和xpath语法对html或xml形式的文本提取特定的内容,就需要我们掌握lxml模块的使用和xpath语法。lxml模块可以利用XPath规则语法,来快速的定位HTML\XML 文档中特定元素以及获取节点信息(文本内容、属性值)XPath (XML Path Language) 是一门在 HTML\XML 文档中查找信息的语言,可用来在 HTML\XML 文档中对元素和属性进行遍历。W3School官方文档:http://www.w3school.com.cn/xp原创 2021-04-07 18:10:33 · 6187 阅读 · 0 评论 -
Python爬虫贴吧内容
from lxml import etreeimport requestsclass Tieba(object): def __init__(self, name): self.url = 'https://tieba.baidu.com/f?kw={}'.format(name) self.headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64;原创 2021-04-03 16:05:11 · 788 阅读 · 3 评论 -
Python数据提取之jsonpath模块
1. 响应内容的分类在发送请求获取响应之后,可能存在多种不同类型的响应内容;而且很多时候,我们只需要响应内容中的一部分数据(1)结构化的响应内容json字符串①、可以使用re、json等模块来提取特定数据②、json字符串的例子如下图xml字符串①、可以使用re、lxml等模块来提取特定数据②、xml字符串的例子如下<bookstore><book category="COOKING"> <title lang="en">Everyday原创 2021-04-03 15:47:19 · 312 阅读 · 1 评论 -
Python爬虫之Requests模块session进行登录状态保持
利用requests.session进行状态保持requests模块中的Session类能够自动处理发送请求获取响应过程中产生的cookie,进而达到状态保持的目的。接下来我们就来学习它requests.session的作用以及应用场景requests.session的作用自动处理cookie,即 下一次请求会带上前一次的cookierequests.session的应用场景自动处理连续的多次请求过程中产生的cookierequests.sessi原创 2021-04-03 14:39:46 · 13662 阅读 · 6 评论 -
Python爬虫之Requests模块(二)
1、了解代理以及proxy代理参数的使用proxy代理参数通过指定代理ip,让代理ip对应的正向代理服务器转发我们发送的请求,那么我们首先来了解一下代理ip以及代理服务器(1) 理解使用代理的过程代理ip是一个ip,指向的是一个代理服务器代理服务器能够帮我们向目标服务器转发请求(2)正向代理和反向代理的区别前边提到proxy参数指定的代理ip指向的是正向的代理服务器,那么相应的就有反向服务器;现在来了解一下正向代理服务器和反向代理服务器的区别从发送请求的一方的角度,来区分正向或原创 2021-03-31 19:49:49 · 379 阅读 · 2 评论 -
Python爬虫之Requests模块(一)
1. requests模块介绍requests文档http://docs.python-requests.org/zh_CN/latest/index.html1.1 requests模块的作用:发送http请求,获取响应数据1.2 requests模块是一个第三方模块,需要在你的python(虚拟)环境中额外安装pip/pip3 install requests1.3 requests模块发送get请求需求:通过requests向百度首页发送请求,获取该页面的源码运行原创 2021-03-31 18:50:30 · 300 阅读 · 0 评论 -
Python爬虫的相关概念与HTTP与HTTPS的区别
1. 爬虫的概念模拟浏览器,发送请求,获取响应网络爬虫(又被称为网页蜘蛛,网络机器人)就是模拟客户端(主要指浏览器)发送网络请求,接收请求响应,一种按照一定的规则,自动地抓取互联网信息的程序。原则上,只要是客户端(浏览器)能做的事情,爬虫都能够做爬虫也只能获取客户端(浏览器)所展示出来的数据3. 爬虫的分类3.1 根据被爬取网站的数量不同,可以分为:通用爬虫,如 搜索引擎聚焦爬虫,如12306抢票,或专门抓取某一个(某一类)网站数据3.2 根据是否以获取数据为目的,可以分为:原创 2021-03-31 17:35:50 · 178 阅读 · 0 评论