采集
文章平均质量分 59
小龙在山东
本博客为个人整理的技术笔记,仅用于学习。
展开
-
aardio网页组件:webPageOperation
webPageOperation是webview得初步封装,用来网页填表、操作网页。可操作web.form、web.view、web.view2等浏览器组件。原创 2023-12-13 22:00:00 · 475 阅读 · 0 评论 -
抓包工具:Sunny网络中间件
支持 获取/修改 HTTP/HTTPS/WS/WSS/TCP/TLS-TCP/UDP 发送及返回数据。可用于HTTP/HTTPS/WS/WSS/TCP/UDP网络分析 为二次开发量身制作。支持 对 HTTP/HTTPS/WS/WSS/TCP/TLS-TCP 链接重定向。Sunny网络中间件 和 Fiddler 类似。是可跨平台的网络分析组件。支持 对 HTTP/HTTPS/WS/WSS 指定连接使用指定代理。支持 WS/WSS/TCP/TLS-TCP/UDP 主动发送数据。原创 2023-12-13 07:42:03 · 4479 阅读 · 1 评论 -
JSRPC的三种实现方式
RPC 为远程过程调用,本文通过在浏览器端(服务端)开启一个WebSocket服务,接收命令,执行浏览器网页的加密代码,得到密文。CMD端(客户端)也开启一个WebSocket服务与浏览器端交互,通过标准输入把命令发送给浏览器执行。原创 2022-11-16 19:00:00 · 2165 阅读 · 0 评论 -
Python通用新闻网站正文抽取器:GNE
GeneralNewsExtractor(GNE)是一个通用新闻网站正文抽取模块,输入一篇新闻网页的 HTML, 输出正文内容、标题、作者、发布时间、正文中的图片地址和正文所在的标签源代码。GNE在提取今日头条、网易新闻、游民星空、 观察者网、凤凰网、腾讯新闻、ReadHub、新浪新闻等数百个中文新闻网站上效果非常出色,几乎能够达到100%的准确率。...原创 2022-08-29 18:09:20 · 828 阅读 · 0 评论 -
Playwright 模拟浏览器、模拟手机、忽略图片加载、等待、监听、操作事件
playwright是微软开源的自动化UI测试工具,支持Chrome、Firefox、Edge等多种浏览器,兼容多种语言、多种操作系统。原创 2022-08-29 16:47:45 · 3529 阅读 · 0 评论 -
mitmproxy代理的使用
mitmproxy 是 man-in-the-middle proxy 的简称,译为中间人代理工具,可以交互方式拦截SSL/TLS加密的HTTP/1、HTTP/2、WebSockets请求。mitmdump以命令行终端形式呈现,类似HTTP版的tcpdump。mitmweb 是基于Web交互的mitmproxy,操作上类似于Vim,是类似于 Chrome 浏览器开发者模式的可视化工具。它是基于Python开发的开源工具,最重要的是它提供了Python API,你完全可以通过Python代码来控制请求和原创 2020-06-05 15:28:13 · 821 阅读 · 0 评论 -
scrapy设置和查看Cookie
设置Cookiesettings文件中给Cookies_enabled=False解注释settings的headers配置的cookie就可以用了def start_requests(self): yield scrapy.Request(url,dont_filter=True,cookies={your cookie})获取Cookie#请求CookieCookie =...原创 2019-12-24 10:27:05 · 756 阅读 · 0 评论 -
python bs4 Only the following pseudo-classes are implemented: nth-of-type.
用python bs4的CSS选择器报错:NotImplementedError: Only the following pseudo-classes are implemented: nth-of-type.原因:不支持nth-child(3)解决方法:可以改为nth-of-type(3),就解决了。...原创 2019-10-24 07:10:00 · 1291 阅读 · 0 评论 -
自动化测试工具Quamotion
简介Quamotion是一个可用于原生、hybrid和移动Web端的自动化测试框架,可以自动化安卓、IOS的真机和模拟器。Quamotion具有如下几个优点:不用重新编译和修改APP,可以利用各个平台内置的自动化平台工具实现自动化你的APP。支持多种编程语言实现WebDriver,例如Java、Python、PowerShell、C#等。可以兼容支持这些语言的测试框架。确定可能就是要...原创 2019-08-15 10:42:56 · 1070 阅读 · 0 评论 -
js解析利器Scrapy Splash
简介官方文档:https://splash.readthedocs.io/en/stable/install.html#linux-docker安装Dockeryun安装dockeryum install docker -y查看docker版本:docker --version改为国内镜像源:修改文件/etc/docker/daemon.json,添加如下内容:{ "re...原创 2019-05-20 15:29:15 · 444 阅读 · 0 评论 -
Selenium简介和API
Selenium简介Selenium是一个用于Web应用程序测试的工具。 Selenium测试直接运行在浏览器中,就像真正的用户在操作一样。 支持的浏览器包括IE、Mozilla Firefox、Mozilla Suite等。这个工具的主要功能包括: * 测试与浏览器的兼容性——测试你的应用程序看是否能够很好得工作在不同浏览器和操作系统之上。 * 测试系统功能——创建衰退测试检验软件功能和用原创 2017-04-19 09:52:01 · 883 阅读 · 0 评论 -
QQ收藏自动提取正文分析
说明QQ收藏可以自动提取网页正文。如果采集使用上这个功能,将会省去很多写采集规则的时间。 现在将简单介绍一下QQ收藏的提取算法,权当抛砖引玉。参数QQ收藏提取正文参考了很多参数,包括正文常见标签/元素宽高/文本长度等。忽略的标签IGNORE_TAGS : ["A", "DD", "DT", "OL", "OPTION", "DL", "DD", "SCRIPT", "STYLE", "UL", "原创 2017-05-08 17:00:32 · 1028 阅读 · 0 评论 -
Scrapy模拟表单和Ajax发送POST请求
普通请求使用scrapy.Request类就可以实现,但是遇到模拟表单提交post请求的时候,Request类就不如子类**FormRequest类方便了,因为他自带**formdata,专门用来设置表单字段数据。def start_requests(self): form_data = {'f1':'1', 'f2':'100'} # 表单数据,字典格式,注意数字也要用引号引起来,否则报原创 2017-08-21 10:36:02 · 8314 阅读 · 0 评论 -
CentOS下pip pkg_resources.DistributionNotFound: The 'pip==1.5.4' distribution was not found ...
报错信息:pkg_resources.DistributionNotFound: The 'pip==1.5.4' distribution was not found and is required by the application根据提示信息可以知道distribution没有安装,所以就安装一下:$wget http://pypi.python.org/packages...原创 2018-04-18 17:45:07 · 3592 阅读 · 0 评论 -
Python Robot Framework
简介Robot Framework是一款自动测试框架。 官网:http://robotframework.org/ GitHub:https://github.com/robotframework/robotframework例子*** Settings ***Documentation A test suite with a single test for vali...原创 2018-08-09 17:06:01 · 588 阅读 · 0 评论 -
Python模块PyAutoIt调用AutoIT
简介Python版本AutoIT,直接绑定到 AutoItX3.dll,然后就可以使用AutoIT的功能了。安装pip install -U pyautoit例子运行记事本,然后写入“hello world”,最后不保存关闭。import autoitautoit.run("notepad.exe")autoit.win_wait_active("[CLASS:N...原创 2018-08-12 16:02:02 · 14819 阅读 · 0 评论 -
Python pywinauto 自动操作Windows GUI
简介pywinauto依赖pywin32,可以自动操作微软windows窗口、鼠标、键盘。安装例子app.UntitledNotepad.menu_select("File->SaveAs")app.SaveAs.ComboBox5.select("UTF-8")app.SaveAs.edit1.set_te原创 2018-08-12 16:43:14 · 19712 阅读 · 3 评论 -
爬虫利器Puppeteer
Puppeteer介绍Puppeteer1 翻译是操纵木偶的人,利用这个工具,我们能做一个操纵页面的人。Puppeteer是一个Nodejs的库,支持调用Chrome的API来操纵Web,相比较Selenium或是PhantomJs,它最大的特点就是它的操作Dom可以完全在内存中进行模拟既在V8引擎中处理而不打开浏览器,而且关键是这个是Chrome团队在维护,会拥有更好的兼容性和前景。Pupp...原创 2018-09-18 11:02:27 · 2014 阅读 · 1 评论 -
nodejs &#x 5B89;编码转换中文
形如&name;&#dddd;&#xhhhh;是 HTML、XML 等 SGML 类语言的转义序列(escape sequence)。它们不是「编码」。以 HTML 为例,这三种转义序列都称作 character reference:第一种是 character entity reference,后接预先定义的 entity 名称,而 entity 声明了自身指代...原创 2018-11-29 14:53:22 · 2705 阅读 · 0 评论 -
采集新浪微博
微博有反爬虫机制,这是一种比较省力的方式。原创 2017-04-17 16:35:14 · 1027 阅读 · 0 评论