- 博客(61)
- 资源 (2)
- 收藏
- 关注
原创 selenium实战之爬取虎牙直播列表页
从页面结构来看,登录弹窗是在一个 id="UDBSdkLgn_iframe"的iframe中,所以我们在这里在进来时候,需要先切换到 iframe中,然后将窗口关闭。前面有了 selenium的基础,这里就拿虎牙直播页面来做一个实战测试,这是作为学习,测试使用,并不用作为商业用途,不刻意损害他人利益。我们需要把中间部分的列表页面内容给爬取下来,包括直播间封面,名称,主播昵称,头像,热度,游戏类别等。
2024-03-28 23:18:35 389
原创 python爬虫之selenium4使用(万字讲解)
声明以下的例子,只是来作为测试学习,并不作为真正的爬虫我们在浏览一些网站时,有不少内容是通过 JavaScript动态渲染的,或是 AJAX 请求后端加载数据,这其中涉及到了不少加密参数如 token,sign,难以找规律,较为复杂。像前面的百度贴吧的一个评论的回复,百度翻译等,都是经过ajax动态 加载得到。为了解决这些问题,我们可以直接模拟浏览器运行,然后爬取数据,这样就可以实现在浏览器中看到内容是怎么样了,不用去分析 JS 的算法,也不用去管 ajax 的接口参数了。
2024-03-28 02:26:10 1769
原创 python爬虫之xpath+多进程爬取百度贴吧实战
本项目采用 xpaht+进程池实战,来取百度贴吧的一篇评论实战,是用来学习用,没有别的商业用途和恶意请求。
2024-03-22 13:36:53 1032
原创 python之jsonpath的使用
JSONPath能在复杂的JSON数据中 查找和提取所需的信息,它是一种功能强大的查询语言,可以通过简单的表达式来快速准确地定位和提取JSON数据。本文将介绍JSONPath的基本语法和用法,并为您展示如何封装和使用JSONPath方法来处理和操作JSON数据。JSONPath类似于XPath提供了一种更简洁、灵活和高效的方式来查询、定位和提取JSON数据中的内容。
2024-03-20 00:27:20 835
原创 python爬虫之xpath入门
XPATH(XML Path Language),它可以在 XML 和 HTML文档中对元素和属性进行查找和遍历。XPath 使用路径表达式来选取 XML 文档中的节点或节点集。这些路径表达式和我们在常规的电脑文件系统中看到的表达式非常类似。使用chrome 插件选择标签时候,选中时,选中的标签会添加属性class=“xh-highlight”
2024-03-19 23:24:26 1059
原创 Python之requests实现github模拟登录
前面学习了requests模块的基础学习后,接下来做一个实战应用,会涉及到requests的post 请求,请求头headers的设置,利用sesson保持 cookie状态等这是拿 github 模拟登录来对 requests模块的get, post方法,以及登录状态保持做的一个应用,主要是为了巩固知识点。它的登录机制还算是比较简单的,因为大部分值都是固定的可以获取到,像真正项目过程中,post 来源的数据都是需要调用接口,或 JS 逆向才能拿到。
2024-03-14 01:57:53 940
原创 python 之pymongo增删查改和管道操作
前面有了mongodb命令操作学习以及pymongo单例连接池的学习,"""批量插入数据,自定义_id@return:"""{"_id": 1, "name": "曹操"},{"_id": 2, "name": "曹丕"},{"_id": 3, "name": "典韦"},{"_id": 4, "name": "许诸"}pass。
2024-03-11 16:58:40 843
原创 python单例模式应用之pymongo连接
单例模式只允许创建一个对象,因此节省内存,加快对象访问速度,因此对象需要被公用的场合适合使用,如多个模块使用同一个数据源连接对象等等。需要频繁实例化然后销毁的对象。创建对象时耗时过多或者耗资源过多,但又经常用到的对象。有状态的工具类对象。频繁访问数据库或文件的对象。资源共享的情况下,避免由于资源操作时导致的性能或损耗等。如上述中的日志文件,应用配置。还有windows系统的回收站和任务管理器,只能打开一个。控制资源的情况下,方便资源之间的互相通信。
2024-03-10 19:10:52 959
原创 mysql日常优化的总结
当前文章主要是以数据表结构优化,查询语句优化,数据库参数优化,以及数据库问题的如何分析定位来进行展开,因本人水平有限,先写到这里了,后续有新的知识点再补充。还希望各位在评论区多提改进建议!!!
2024-03-08 14:54:18 1008
原创 Python的网络请求模块requests
requests 库是一个 python中比较有名的 http请求的库,能处理 get,post,put,delete 等 restful请求,能设置 header,cookie,session 等操作,也是作为爬虫的基础库,它目前还不能异步请求,如果要支持异步,官网文档上也说,用 httpx 等代替。
2024-03-04 00:52:07 835
原创 转webp图片扩展安装笔记
全程都是源码包安装,这里的安装包是统一下载在宿主目录/root下以7.1.0为例 下载:从下图的描述中看,3.4.4是PHP5系列最后一个版本,这里是采用3.4.3以3.4.3为例 下载:这个很重要,yum安装的版本太低,imagemagic不识别,这导致webp始终安装不上以1.2.2为例 下载:由于libwebp,imagemagic安装完成,需要手动刷新动态库才生效,所以采用ldconfig来加载动态链接库,所以需要把/usr/local/lib加到配置文件中验证出现了这个错误
2024-02-05 03:20:31 685
原创 Centos下MYSQL8的原生安装和数据存储目录迁移
虽然现在虽然有了docker,k8s比较方便了,但对于mysql这样的关系型数据库对IO的的要求比较高,在容器中网络,以及存储资源是共享的,这可能会影响数据的读写速度,所以不单单是数据库,建议对于高IO的服务还是安装在物理机上。在安装数据库的过程中,如果没有指定好数据库的存储目录,我们可以自己手动的来修改数据存储位置,一般都是放在数据盘,方便数据量大了以后来进行扩容。这里就是在centos下来原生搭建一个单机版的mysql数据库,后续还会搭建集群版。
2024-02-04 18:35:01 418
原创 Centos下redis的安装
由于Redis也是涉及到数据持久化,网络,在线扩容等问题,也是不建议部署在容器中。这里以在centos的单机版为例子进行原生安装。
2024-02-04 18:20:51 409
原创 Mysql的账户授权和忘记root密码处理
编辑mysql配置文件,找到[mysqld],在下面添加一行skip-grant-tables。编辑文件,找到[mysqld],删除skip-grant-tables这一行。重启mysql,这个时候mysql的root密码已经修改为123456。
2024-02-04 17:11:00 319
原创 linux安装源码包的一般步骤
/configure --prefix=/usr/local/xxx //prefix表示指定安装的路径。1.解压:tar -zxvf php-xxx.tar.gz。1.解压:tar -zxvf xxx.tar.gz。2.进入源码包目录:cd php-xxx。2.进入目录:cd xxx。
2024-02-04 16:34:15 138
原创 MongoDB操作命令大全
在 Mongodb5.0以后,像 insert(),update(),remove(),count()等重要方法被废弃,替换成其他的方法,具体看如下的修改记录。
2024-02-02 00:34:32 778
原创 gitlab操作手册
hotfix分支也叫维护分支或者热修复分支,用于快速给生产线上的产品打补丁用(比如客户在生产线上发现了紧急bug需要马上修复),这是唯一从master分支中去fork出来的分支,修复完成后,将修改的要合并到develop分支,master分支应该用新的版本号打好tag。接下来就来解决冲突,选择其中一行的内容,也可以两行都保留,很简单只需要>> develop去掉,在这个例子以develop分支修改的为主,然后再提交。可以理解成在master分支上处理的临时发布。
2024-02-01 05:53:17 1241
原创 python验证服务器或容器端口是否可以用
分享一个小技巧,使用python调用socket机制来验证端口是否被使用,后续就再写列出正在被使用的端口
2024-02-01 03:05:01 280
原创 docker(三)数据卷和持久化数据
如果容器被删除了,那么容器里面的数据也没有了。这个可写的容器层和特定的容器层绑定的,也就是当前容器的数据和其他容器不能共享。如果希望自己的容器数据保留下来(持久化),则需要将数据存储在数据卷上。数据卷和容器是解耦的,从而可以独立创建并管理数据卷,即使关联容器被删除了,数据卷不会被删除。docker主要提供了两种方式做数据的持久化Data Volume(数据卷),由docker管理,它存在宿主机上的,linux是目录下,windows是在下,它是持久化数据最好的方式。
2023-09-09 06:48:46 234 2
原创 容器管理之OrbStack支持K8s了
OrbStack 是一个可以在 macOS 上快速运行 Docker 容器,和 Linux 虚拟机的工具,资源占用率低,高效,快速。macOS 上的Docker Desktop比较好资源,慢、重、资源消耗巨大。开起来就占用了好几个G的内存,OrbStack 的出现就是为了解决这个问题。OrbStack 主要有两个作用:替代 Docker Desktop、替代 Linux 虚拟机。目前0.17版本刚出k8s的的使用。
2023-09-03 00:54:47 1297
js数据缓存插件
2014-12-01
一个简单JS缓存数据类
2014-11-30
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人