Python爬虫
日常记录总结提升
追丰少年
干就完了
展开
-
selenium模拟键盘事件(回车、删除、刷新等)
send_keys(Keys.BACK_SPACE) 删除键BackSpace。send_keys(Keys.CONTROL,‘a’) 全选Ctrl+A。send_keys(Keys.CONTROL,‘c’) 复制CTRL+C。send_keys(Keys.CONTROL,‘x’) 剪切CTRL+X。send_keys(Keys.CONTROL,‘v’) 粘贴Ctrl+V。send_keys(Keys.F12) 键盘F12。send_keys(Keys.F1) 键盘F1。原创 2023-02-02 13:39:17 · 2807 阅读 · 0 评论 -
常用User-Agent
Win64;Win64;MSIE 9.0;WOW64;SLCC2;.NET4.0C;.NET4.0E;]原创 2022-11-18 12:10:18 · 20525 阅读 · 0 评论 -
requests模拟登陆的三种方式(cookie,session)
1.实例化session,使用session发送post请求,然后在使用session.get获取登陆后的信息。一套cookie和session往往对应一个用户,请求太快,请求次数太多,容易被识别为爬虫。不需要建立session对象来获取cookie直接复制浏览器cookie的情况。cookie保存在浏览器中,很多浏览器限制一个站点最多保存20个cookie。但是有时为了获取登陆的页面,必须发送带有cookie的请求。3,配合其他程序, 其他程序获取cookie。3,将cookies字典化,然后调用。转载 2022-10-12 13:47:00 · 48177 阅读 · 0 评论 -
“status“: 400, “error“: “Bad Request“,
【代码】“status“: 400, “error“: “Bad Request“,原创 2022-09-28 13:59:08 · 75825 阅读 · 0 评论 -
xpath获取带命名空间节点注意事项
2. xpath取值必须通过//*[local-name()=’XXX’]来获取节点;1. xpath取值节点和属性都必须是。原创 2022-08-03 14:06:34 · 119113 阅读 · 0 评论 -
Python常用爬虫方法
1原创 2022-07-02 09:53:34 · 131797 阅读 · 1 评论 -
http请求的四部分(请求行,请求头,空行,请求体)
抓包工具抓取数据第一部分 :请求行第二部分:请求头第三部分:空行第四部分:请求体(body)原创 2022-05-20 11:36:59 · 132283 阅读 · 0 评论 -
python使用requests发送application/x-www-form-urlencoded请求数据
def client_post_formurlencodeddata_requests(request_url,requestJSONdata): #功能说明:发送以form表单数据格式(它要求数据名称(name)和数据值(value)之间以等号相连,与另一组name/value值之间用&相连。例如:parameter1=12345¶meter2=23456。)请求到远程服务器,并获取请求响应报文。该请求消息头要求为:{"Content-Type": "ap...原创 2022-05-20 11:25:29 · 140641 阅读 · 2 评论 -
python对utf-8的中文转换
python3默认支持utf-8,因此对于\uXXXX这种格式的中文,可以直接转换,但经常爬虫抓取回来的中文是\\uXXXX格式,因此需要进行转换s1='\u65f6\u4e0d\u53ef\u5931\uff0c\u65f6\u4e0d\u518d\u6765\uff01'print('s1=',s1)s2='\\u65f6\\u4e0d\\u53ef\\u5931\\uff0c\\u65f6\\u4e0d\\u518d\\u6765\\uff01'print('s2=',s2)s3=s原创 2022-05-19 11:33:10 · 141889 阅读 · 1 评论 -
python data:image/xxx;base64的图片编码数据转化为真正的图片
import base64src = "data:image/jpeg;base64,/9j/4AAQSkZJRgABAQAAAQABAAD/2wCEAAkGBxIQDxUQEhISEBEQExgVFhgWFxIQERUVFBMXFhUdHxMYHCggGBolGxMTITIiJTU3LjAuGB8zOTMtNy0tLysBCgoKDg0OGhAQGzEiICY2LjcyMisrKy83NTUtNy0uLSs3MC4vLSstMDItKy0tKzctKzI3Li0tLi0tMDctNy0tLf/AAB.原创 2022-03-28 14:26:25 · 137597 阅读 · 0 评论 -
Python自动化输入文本selenium自动化测试在富文本中输入信息的方法
第一次用selenium+python编写自动测试脚本,因为页面中插入了富文本编辑,开始怎么都无法输入进去,度娘好多方法都无效,分享踩坑的经历一是为了记录一下自己的成长,二是为了给同样摸索selenium初学者的同行一个借鉴,与君共勉。第一种方法切换frame:driver.switch_to.frame(driver.find_element_by_xpath('//*[@id="edui1_iframeholder"]'))# print(223)driver.find_element_原创 2022-03-24 11:57:21 · 132013 阅读 · 0 评论 -
Python爬虫之pyppeteer的使用
背景:在使用selenium抓取数据时,在访问显示如下,解决了后续发现网站会对selenium和webdriver进行识别,网站不给你执行js,于是尝试更换pyppeteer来尝试,避开webdriver检测Chrome “您的连接不是私密连接的方法” 解决办法添加 --test-type --ignore-certificate-errors --disable-web-security --user-data-dir以下正文-----------------------------.原创 2022-01-02 22:24:56 · 47517 阅读 · 0 评论 -
解决python爬虫requests.exceptions.SSLError: HTTPSConnectionPool(host=‘XXXXXXX‘, port=443)问题
报错如下Traceback (most recent call last): File "C:/Users/17653/Desktop/测试.py", line 23, in <module> response = requests.request("POST", url, headers=headers, data=payload) File "D:\Python36\lib\site-packages\requests\api.py", line 61, in req.原创 2022-01-01 10:28:29 · 48347 阅读 · 4 评论 -
破解C/S架构客户端反爬虫利器(第一步:pyautogui自动化控制鼠标和键盘操作)
我们在抓取数据时,目标网站通常是浏览器网页B/S架构的,当需要爬取客户端C/S架构时就不是那么好抓包了,虽然可以下载网络代理如 Fiddler ,Proxifier,不是每个客户端都可以抓到包的,也许你会通过dnSpy反编译查看源代码,也不一定能够反编译成功,很多是C++写的,你没有学过C++,去看去分析人家的源代码,那有多苦涩是吧。废话不多说,就简单说一下如何利用pyautogui来获取我们想要的数据吧PyAutoGUI 中文帮助文档-简介PyAutoGui是一个跨平台GUI自动化库。 ...原创 2021-12-22 17:17:06 · 33629 阅读 · 2 评论 -
Python爬虫之pyppeteer常用API快速上手
文档API Reference — Pyppeteer 0.0.25 documentation快速上手常用API总结:# -*- coding:utf-8 -*-import asyncioimport timefrom pyppeteer.launcher import launchasync def main(): c = { # 'userDataDir': './userdata',# 用户临时目录,保存cookie可以开启 'arg.原创 2022-01-03 16:34:14 · 56150 阅读 · 0 评论 -
解析BaseHTTPRequestHandler.path
使用Python的BaseHTTPRequestHandler。当我执行do_GET方法时,我发现自己正在手工解析self.pathself.path 看起来像这样/?parameter=value&other=some需要它来做Python3import urllib.parses = "/?parameter=value&other=some"print(urllib.parse.parse_qs(s[2:]))>>> {'other': [.原创 2022-01-22 20:53:36 · 55626 阅读 · 0 评论 -
xpath解析网页避坑总结
今天在修改bug时,发现新bug....xpath进行匹配,应该圈到最小范围去匹配,避免因为没有数据导致该标签没有生成,匹配漏掉没有数据的,而没有给我返回空字符串""业务需求:需要采集li 属性值 parameter和对应的文本,必须一一对应测试的数据都是有文本的,于是就这样写了,bug出现然后就有这篇文章了~~from lxml import etreedef go_baidu(): str_html = """ <html> <meta ht原创 2021-12-05 22:24:18 · 24943 阅读 · 0 评论 -
python selenium定位不到二级页面元素解决方法
在对一个页面元素进行操作,点击按钮弹出一个二级页面,一直获取不到元素解决:需要切换到新的页面句柄才可以定位到元素 # 获取当前页的句柄 main_windows = chromeDriver.current_window_handle # 获取所有打开的句柄 all_windows = chromeDriver.window_handles # 循环获取到的句柄,如果不等于当前页的句柄则切换到此句柄,因为页面进行跳转,但是句柄仍停留在第一页,所以切换到新页原创 2022-01-01 16:16:17 · 47823 阅读 · 0 评论 -
使用pyautogui点击远程服务器上的.exe程序文件没有效果的解决方法
最近在搞一个服务器上应用数据的采集,由于服务器上的数据,使用者只可以查询数据,其他操作均被禁用,比如下载软件进行抓包、系统设置等等一系列操作。。在Pycharm里,使用python+pyautogui调用远程服务器 .exe程序文件时候,当程序运行界面出来之后,鼠标失去反应,用pyautogui进行点击没有效果,后面尝试使用图片相似也无法实行点击,就卡脖子了。解决方法:运行Pycharm或者其他ide的时候选择以管理员权限启动即可。...原创 2022-01-01 09:38:55 · 36054 阅读 · 1 评论