爬虫
爬虫
IT技术学习
学习很重要
展开
-
Python学习笔记——selenium定位iframe和元素(快速定位)
在使用selenium过程,发现定位iframe、元素比较困难,所以制作一个辅助小工具。原创 2023-03-14 12:22:11 · 2819 阅读 · 0 评论 -
Python学习笔记——爬虫之selenium上传文件
【代码】Python学习笔记——爬虫之selenium上传文件。原创 2023-03-07 22:32:44 · 254 阅读 · 0 评论 -
Python学习笔记——selenium驱动360极速浏览器
右上角三横杠->帮助->关于360极速浏览器(版本低可以选择更新)原创 2023-03-07 22:27:53 · 3968 阅读 · 0 评论 -
requests分段下载文件、多线程下载
参考:requests分段下载文件_m0_46652894的博客-CSDN博客python学习笔记——多线程_小橙子的博客-CSDN博客目录一、常规下载文件二、实现流式下载三、分段请求数据四、两个线程下载数据五、多线程下载六、线程锁一、常规下载文件一次访问,将整个数据返回import requests"""普通的下载视频文件"""url = 'https://vd4.bdstatic.com/mda-nbkdbe1ku0x3hm.原创 2022-03-01 23:59:06 · 1553 阅读 · 0 评论 -
python爬虫——User-Agent
那么User-Agent到底是什么呢?User-Agent是请求头的一部分。会告诉网站服务器,访问者是通过什么工具来请求的,如果是爬虫请求,一般会拒绝,如果是用户浏览器,就会应答。一、默认User-Agent1.代码import requestsr = requests.get('https://movie.douban.com/')print(r.text)2.结果3.查看默认请求头import requestsr = requests.get('h原创 2022-02-16 23:47:24 · 6367 阅读 · 1 评论 -
fiddler抓包小技巧之自动保存抓包数据到文件
一、fiddler原理及HTTPS配置参考:Fiddler抓包工具——使用笔记_小橙子的博客-CSDN博客二、规则配置参考:https://www.jb51.net/article/177679.htm说起这个抓包啊,大家都不陌生。辣么,将自己抓获的数据保存下来进行数据分析就是个问题了。一般情况下,这个软件就是操作软件的,设置自动保存的话,只能依靠软件自身来设置。但是呢,这个fiddler不得不让我们又一次见识到了它的强大。废话不多说,咱们直接来看配置哈。首先: 然后选...原创 2021-10-27 22:58:30 · 3900 阅读 · 1 评论 -
Python+selenium 启用带插件的chrome浏览器
参考:Python+selenium 自动化-启用带插件的chrome浏览器 - 整合侠 - 博客园正常的话我们启用的chrome浏览器是不带插件的,如果你能登陆chrome的话,你会发现登陆信息也没有,还有不管你怎样设置每次新打开的chrome都是默认设置的。我们正常启动的浏览器每次都要加载配置文件的,一般的配置文件就是在user data里,插件就是属于配置文件的一部分。 我们做的工作就是让我们每次启动时都调用一下配置文件就好了。正常我们调用浏览器一行代码就好了。driver =原创 2021-09-15 12:43:20 · 1388 阅读 · 0 评论 -
selenium设置cookie模拟登陆
from selenium.webdriver import Chromeimport timedriver = Chrome(executable_path=r'D:\python_pack\chromedriver.exe')driver.get('https://baidu.com/')#设置cookie前,需要访问一下这个页面#登陆账号后,复制cookie数据c = 'PSTM=1624275407; BIDUPSID=0B7EE199D8CA01CE7F583323D4D003B..原创 2021-09-01 10:45:45 · 726 阅读 · 0 评论 -
selenium设置Chrome浏览器模拟手机请求(手动设置)
chromedriver.exe路径改成自己到的from selenium.webdriver import Chromeimport pyautoguiimport timedriver = Chrome(executable_path=r'D:\python_pack\chromedriver.exe')driver.get('https://v.qq.com/x/page/b32726pze57.html')#快捷键设置 模拟手机请求pyautogui.press('f12')原创 2021-08-31 14:24:58 · 766 阅读 · 0 评论 -
selenium——获取不到iframe内容
#使用驱动 ,进入到指定的frame,注意,括号里写iddriver.switch_to.frame('abc')#进入到id为abc的frame里,再获取frame里的标签就可以了原创 2021-08-30 22:39:42 · 2781 阅读 · 0 评论 -
Python学习笔记——requests分段下载文件
一、获取文件大小import requests# mp4文件链接url = 'https://vd4.bdstatic.com/mda-mgsjfvpjjte5hpqk/sc/cae_h264_clips/1627394487294196654/mda-mgsjfvpjjte5hpqk.mp4'r = requests.get(url,stream=True)#stream:如果`False`,将立即下载响应内容。size = r.headers.get('Content-Length')原创 2021-08-26 14:14:22 · 1603 阅读 · 1 评论 -
Python学习笔记——requests编码格式设置
1.requests设置#调用requests模块import requests#访问需要访问的页面r = requests.get(url)#在输出结果前先设置内容编码r.encoding = "utf-8"print(r.text)2.二进制转字符串时设置编码import requestsr = requests.get(url)a = r.content #获取二进制a = a.decode('UTF-8','strict')#将二进制解码成字符串 utf-8.原创 2021-08-25 21:42:27 · 5938 阅读 · 0 评论 -
python3安装OCR识别库tesserocr过程图解
参考链接:https://www.jb51.net/article/183990.htm一、OCR简介OCR,即Optical Character Recognition,光学字符识别,是指通过扫描字符,然后通过其形状将其翻译成电子文本的过程,对应图形验证码来说,它们都是一些不规则的字符,这些字符是由字符稍加扭曲变换得到的内容,我们可以使用OCR技术来讲其转化为电子文本,然后将结果提取交给服务器,便可以达到自动识别验证码的过程。二、安装1.安装tesserocr1、打开链接,ht原创 2021-08-15 00:20:04 · 5706 阅读 · 2 评论 -
Python学习笔记——Xpath笔记
一、简介1.XPath 是一门在 XML 文档中查找信息的语言。2.测试的准备工作:XPath Helper插件(360极速浏览器或Chrome)360极速浏览器扩展里直接搜索Chrome插件下载,离线安装https://wwa.lanzoui.com/iSlLnslxmdc注意:安装完后,刷新页面再使用插件二、笔记参考:https://www.runoob.com/xpath/xpath-syntax.html1.节点的理解,每一个html标签或根目录(html文件原创 2021-08-14 11:42:38 · 367 阅读 · 0 评论 -
Python学习笔记——selenium无头模式
一、无头模式相关代码from selenium.webdriver.chrome.options import Optionschrome_options = Options()chrome_options.add_argument('--headless')Chrome(options=chrome_options)#设置驱动参数二、测试案例# 1.导入库from selenium.webdriver import Chrome# 5.设置无头模式from selenium原创 2021-06-27 00:02:16 · 1703 阅读 · 2 评论 -
Python学习笔记——selenium代理ip
一、参考官方文档https://www.selenium.dev/documentation/zh-cn/webdriver/http_proxies/from selenium import webdriverPROXY = "<HOST:PORT>"webdriver.DesiredCapabilities.FIREFOX['proxy'] = { "httpProxy": PROXY, "ftpProxy": PROXY, "sslProxy":.原创 2021-06-26 23:52:55 · 584 阅读 · 0 评论 -
Python学习笔记——requests代理ip
一、使用代理ip格式(参考官方文档)import requestsproxies = { "http": "http://10.10.1.10:3128", "https": "http://10.10.1.10:1080",}r = requests.get('https://www.baidu.com/',proxies=proxies)print(r.text) # 打印返回内容注意:代理ip可能会失效二、获取当前使用的代理ip访问:http://htt..原创 2021-06-26 00:33:05 · 3040 阅读 · 0 评论 -
Python3的URL编码和解码问题
编码:quote( )解码:unquote( )# coding:utf-8from urllib import parsestr1 = '你好123'str2 = parse.quote(str1) #字符串编码print(str2)str3 = parse.unquote(str2) #解码字符串print(str3)结果:原创 2021-03-08 17:41:58 · 387 阅读 · 0 评论 -
selenium 通过文字定位元素
1、全部文字java:driver.findElement(By.xpath("//*[text()=’退出’]");python:browser.find_element_by_xpath("//*[text()='退出']").click()2、部分文字java:driver.findElement(By.xpath("//a[contains(text(), ’退出’)]");python:browser.find_element_by_xpath("//*[contains(text().转载 2020-09-07 19:45:49 · 2201 阅读 · 0 评论 -
史上最全!Selenium元素定位的30种方式
Selenium对网页的控制是基于各种前端元素的,在使用过程中,对于元素的定位是基础,只有准去抓取到对应元素才能进行后续的自动化控制,我在这里将对各种元素定位方式进行总结归纳一下。这里将统一使用百度首页(www.baidu.com)进行示例,f12可以查看具体前端代码。WebDriver8种基本元素定位方式find_element_by_id() 采用id属性进行定位。例如在百度页面中输入关键字 Selenium 进行搜索。百度部分关键源码如下: ...转载 2020-09-07 19:27:10 · 367 阅读 · 0 评论 -
Selenium2+python自动化61-Chrome您使用的是不受支持的命令行标记:--ignore-certificate-errors
前言您使用的是不受支持的命令行标记:--ignore-certificate-errors.稳定性和安全性会有所下降selenium2启动Chrome浏览器是需要安装驱动包的,但是不同的Chrome浏览器版本号,对应的驱动文件版本号又不一样,如果版本号不匹配,是没法启动起来的。一、Chrome遇到问题1.如果在启动chrome浏览器时候,出现如下界面,无法打开网址,那么首先恭喜你,踩到了坑,接下来的内容或许对你有所帮助>># coding:utf-8>>.转载 2020-09-07 12:21:11 · 1815 阅读 · 0 评论 -
Python学习笔记——BeautifulSoup4数据提取+爬取天气预报小案例
1.百度搜索 “beautfulSoup4文档”2.按照开发文档安装库3.常用的方法整理笔记Beautiful Soup将复杂HTML文档转换成一个复杂的树形结构,每个节点都是Python对象,所有对象可以归纳为4种:Tag,NavigableString,BeautifulSoup,Comment....原创 2020-04-07 22:19:53 · 2214 阅读 · 0 评论 -
Python学习笔记——爬虫之selenium
资料参考:Python 网络爬虫的常用库汇总1.进入官网,查看开发文档学习https://selenium.dev/documentation/zh-cn/2.安装selenium。官网介绍了两种安装方法,我是用了其一。3.下载浏览器的驱动下载网址:https://chromedriver.storage.googleapis.com/index.html我...原创 2019-12-20 12:49:18 · 507 阅读 · 0 评论 -
Python 网络爬虫的常用库汇总
一、请求库:实现 HTTP 请求操作urllib:一系列用于操作URL的功能,Python的内置库,直接使用方法import导入即可。。 requests:基于 urllib 编写的请求库,阻塞式 HTTP 请求库,发出一个请求,一直等待服务器响应后,程序才能进行下一步处理。 selenium:自动化测试工具。一个调用浏览器的 driver,通过这个库你可以直接调用浏览器完成某些操作,比如...原创 2019-11-25 23:06:31 · 2553 阅读 · 0 评论 -
Python学习笔记——爬虫之BeautifulSoup4数据提取
CSS 选择器:BeautifulSoup4和 lxml 一样,Beautiful Soup 也是一个HTML/XML的解析器,主要的功能也是如何解析和提取 HTML/XML 数据。lxml 只会局部遍历,而Beautiful Soup 是基于HTML DOM的,会载入整个文档,解析整个DOM树,因此时间和内存开销都会大很多,所以性能要低于lxml。BeautifulSoup 用...转载 2019-11-25 20:57:06 · 322 阅读 · 0 评论 -
Python学习笔记——第三方库(包)下载,安装,查看开发文档(requests爬虫库举例)
一、在线安装:1.进入DOS窗口,输入如下命令:注意:python安装目录下的Script文件夹要配置环境变量。pip install requests2.提示更新pip,就更新一下3.再次安装,显示已经存在4.查看已经安装的库pip list二、手动安装1.python官方找到目标库:https://pypi.org/2.选择合适版...原创 2019-11-04 13:26:13 · 522 阅读 · 0 评论