
爬虫
文章平均质量分 66
Python网络爬虫
墨痕诉清风
始于情,行于心。
展开
-
自动化测试验证码识别
【代码】自动化测试验证码识别。原创 2025-01-03 14:20:21 · 571 阅读 · 0 评论 -
Playwright爬虫xpath获取技巧
p class="MuiTypography-root MuiTypography-body1 css-g6tbiw">澳大利亚</p>由于按钮有多个类名,可以使用类名进行定位。如果你想选择包含特定类名的按钮,可以使用。元素位于某个特定的父元素内,你也可以通过父元素来定位。例如,假设它位于某个特定。由于类名包含多个唯一标识符,可以通过组合类名来精确定位该元素。我们可以通过多种方式来定位该元素。有时类名可能会发生变化,但可以通过部分类名匹配来定位元素。以下是几种可能的 XPath 表达式来定位该。原创 2024-12-26 09:50:07 · 2066 阅读 · 0 评论 -
Python bs4 BeautifulSoup库使用记录
bs4 全名,是编写 python 爬虫常用库之一,主要用来解析 html 标签。原创 2023-09-14 14:54:22 · 328 阅读 · 0 评论 -
playwright自动化上传附件
1. 首先保存本地一个文件,例如 aaa.php。2. 获取输入类型为 "file" 的按钮。3. 将本地保存的图片路径赋值。原创 2023-09-12 17:55:18 · 1627 阅读 · 0 评论 -
playwright获取请求、响应、过滤信息记录
1. 获取请求头响应头。2. 去重爬取的url。原创 2023-09-11 18:14:24 · 3190 阅读 · 0 评论 -
pyppeteer模块常用方法
设置UserAgent。对于某个元素执行js。原创 2023-09-06 15:25:57 · 437 阅读 · 0 评论 -
Python虚拟环境venv下安装playwright介绍及记录
Playwright是一个用于自动化Web浏览器测试和Web数据抓取的开源库。它由Microsoft开发,支持、Safari、Edge和WebKit浏览器。Playwright的一个主要特点是它能够在所有主要的操作系统(包括Windows、Linux和macOS)上运行,并且它提供了一些强大的功能,如跨浏览器测试、支持无头浏览器、并行执行测试、元素截图和模拟输入等。它主要有以下优势:兼容多个浏览器,而且所有浏览器都使用相同的API。速度快、稳定性高,即使在大型、复杂的Web应用程序中也可以运行。原创 2023-09-05 11:29:39 · 915 阅读 · 0 评论 -
selenium实现输入数字字母验证码
1. 登录url2. 获取验证码坐标3. 根据桌标截图验证码4. 对验证码进行识别5. 自动输入验证码。原创 2023-08-23 15:50:36 · 1488 阅读 · 0 评论 -
爬虫selenium获取元素定位方法总结(动态获取元素)
人有各种的特征(属性),可以通过其特征找到人,如通过身份证号、姓名、家庭住址。同理,界面的某个元素会有各种的特征(属性),可以通过这个属性找到这对象。相对路径的xpath定位表达式更加简洁,但是偶然会出现错误的寻址,但如果可以推荐使用相对路径的xpath表达式。直接通过class属性定位是会报错的,需要通过css selector按class属性定位。元素定位最终就是通过元素的信息或者元素的层级结构来进行元素定位。通过 .来定义,通过元素的class属性来定位。通过 # 来定义,通过元素的id属性来定位。原创 2023-08-23 15:45:28 · 6753 阅读 · 0 评论 -
Python3的selenium库常用方法总结
Selenium-WEB自动化工具简介:Selenium 是一个用于Web应用程序测试的工具。Selenium测试直接运行在浏览器中,就像真正的用户在操作一样。支持的浏览器:IE(7, 8, 9, 10, 11),Mozilla Firefox,Safari,Google Chrome,Opera等。测试与浏览器的兼容性—支持多种平台和多种浏览器,测试你的应用程序看是否能够很好得工作在不同浏览器和操作系统之上。测试系统功能—创建回归测试检验软件功能和用户需求。原创 2023-08-23 10:47:50 · 1316 阅读 · 0 评论 -
爬虫工具获取页面中域名及子域名(SQL注入、渗透)
自动化寻找网站的注入漏洞,需要先将目标网站的所有带参数的 URL 提取出来,然后针对每个参数进行测试,对于批量化检测的目标,首先要提取大量网站带参数的 URL,针对 GET 请求的链接是可以通过自动化获取的,而 POST 型参数提交的方式,则需要手工点击,然后代理抓取数据包再进行提交测试。本文的重点是如何自动化获取网页中的 URL,然后进行处理后,保留每个路径下的一条记录,从而减少测试的目标,提升测试的效率,这个过程主要分三步,分别是:提取 URL、匹配带参数的 URL、URL 去重。0x01 获取原创 2021-09-02 09:53:29 · 1521 阅读 · 0 评论 -
手机User-Agent大全(Android爬虫)
设备 系统 浏览器 User-Agent 红米Note 5 Android MIUI浏览器 Mozilla/5.0 (Linux; U; Android 9; zh-cn; Redmi Note 5 Build/PKQ1.180904.001) AppleWebKit/537.36 (KHTML, like Gecko) Version/4.0 Chrome/71.0.3578.141 Mobile Safari/537.36 XiaoMi/MiuiBrowser/1原创 2020-11-11 16:36:13 · 58320 阅读 · 0 评论 -
Python爬虫之puppeteer之遇到的bug及解决方法
本来chrome就问题多多,puppeteer也是各种坑,加上pyppeteer是前两者的python版本,也就是产生了只要前两个有一个有bug,那么pyppeteer就会原封不动的继承下来,本来这没什么,但是现在遇到的问题就是pyppeteer这个项目从18年9月份之后就没更新过了,前两者都在不断的更新迭代,而pyppeteer一直不更新,导致很多bug根本没人修复。,我的这个文件夹属性是16G,真的给我吓到了,其中Administrator有个人电脑不是这个用户名,是自己设定的,需要自己替换一下。原创 2020-09-07 14:37:00 · 7549 阅读 · 1 评论 -
Python爬虫之puppeteer搭建远程服务器
puppeteer的使用:目前网上的大多数资料都是基于js进行开发,今天我们剑走偏锋,介绍python中针对该工具开发的第三方工具库pyppeteer,具体的api操作咱就不谈了,官网上有,不咋此赘述,我们直接阐述如何利用pyppeteer做一个远程浏览器服务程序。在该项目考虑到在项目的隔离性,我实在docker容器搭建的该服务端程序,首先首选你需要下载chrome-linux.zip,这是服务端程序必备的工具,好处是他不需要安装,直接解压放在你需要的目录即可(当然也有windows版本chrome-w原创 2020-09-03 15:20:58 · 1829 阅读 · 0 评论 -
Chromium下载各类版本(pyppeteer爬虫下载地址)
https://npm.taobao.org/mirrors/chromium-browser-snapshots/原创 2020-09-02 15:38:43 · 1820 阅读 · 0 评论 -
Python爬虫之pyppeteer去除Chrome正受到自动测试软件的控制(反爬策略)
问题描述import asynciofrom pyppeteer import launchasync def main(): browser = await launch(headless=False) input() await browser.close()asyncio.get_event_loop().run_until_complete(main())解决方案launch时添加参数ignoreDefaultArgs=['--enable..原创 2020-09-02 10:56:41 · 1802 阅读 · 0 评论 -
Python pyppeteer通过cookie获取数据(cookie爬虫)
1. 利用EditThisCookie插件获取页面cookie2. 源码实例 """set browser""" browser = await launch({ "headless": False, "executablePath": "F:\\chrome-win32\\chrome.exe", "args": [ "--disable-gpu",原创 2020-08-31 16:01:09 · 4086 阅读 · 1 评论 -
Python爬虫中文乱码问题(爬虫乱码)
对于有些网页编码为utf-8的网址,输出事发现中文为乱码,此时我们需要进行两次重编码。基于以上三个步骤,即可解决爬虫中文乱码问题。,并不是原网页的编码类型。,与原网页保持一致。原创 2020-07-13 14:23:53 · 10051 阅读 · 4 评论 -
Python爬虫之pyppeteer的使用(爬虫、获取cookie、截屏插件、防爬绕过)
下载文本中的网页源码,由于需要向下拉动滚动条所以使用pyppeteer渲染网页,并执行js代码,可是发现开启无界面的时候似乎执行不了js代码,还有异步的时候好像也执行不了js代码import asynciofrom pyppeteer import launchimport re, os,timeasync def create_page(): browser = await launch(headless=True, dumpio=True) return browser原创 2020-07-13 10:56:21 · 19164 阅读 · 11 评论 -
Python爬虫之xpath的详细使用(爬虫)
8、上面我们使用绝对路径,查找了所有a标签的属性等于href属性值,利用的是/---绝对路径,下面我们使用相对路径,查找一下l相对路径下li标签下的a标签下的href属性的值,注意,a标签后面需要双//。7、上面我们找到全部都是绝对路径(每一个都是从根开始查找),下面我们查找相对路径,例如,查找所有li标签下的a标签内容。3、获取某个标签的内容(基本使用),注意,获取a标签的所有内容,a后面就不用再加正斜杠,否则报错。5、打印指定路径下a标签的属性(可以通过遍历拿到某个属性的值,查找标签的内容)原创 2020-07-13 10:30:14 · 30706 阅读 · 2 评论 -
linux安装selenium、chromedriver、Chrome浏览器、BrowserMob Proxy(代理)爬虫爬站环境安装及测试实例
安装seleniumpip3 install "selenium==3.141.0"安装chromedriver(要配合chrome浏览器版本下载驱动)chrome官网 wget https://chromedriver.storage.googleapis.com/2.38/chromedriver_linux64.zip淘宝源(推荐)wget http://npm.taob...原创 2019-09-28 16:45:36 · 2431 阅读 · 3 评论 -
python3安装scrapy及使用方法(爬虫框架)
安装:sudo pip3 install lxml sudo apt-get install python-dev sudo apt-get install build-essential sudo apt-get install libxml2-dev sudo apt-get install libxslt1-dev sudo pip3 install scrapy介绍:...原创 2019-09-28 15:15:46 · 937 阅读 · 0 评论 -
Python解决爬虫中文返回乱码问题
ISO-9959-1的问题直接上干货import reimport requestsnew_url = "http://www.anquan.us/static/drops/papers-17213.html"res = requests.get(url=new_url).content.decode('utf-8')print (res)"""if res.en...原创 2019-08-02 11:38:03 · 1739 阅读 · 1 评论