- 博客(23)
- 收藏
- 关注
原创 python之数组,链表,栈,队列
一种更复杂的链表是"双向链表"或"双面链表",每个节点有两个连接:一个指向前一个节点,(当此"连接"为第一个"连接"时,指向空值或者空列表);队列(queue)是一种遵循先入先出规则的线性数据结构,只允许在有序的线性结构集合的一端(队尾)进行加入数据(push)和 另一端(队首)移除数据(pop)的运算。中, 首节点和末节点被连接在一起,要遍历一个循环链表,可以开始于任意一个节点然后沿着列表的任一方向直到返回开始的节点。需要的参数:节点的值,节点的前一个节点,节点的后一个节点。
2024-03-10 18:00:24 1227 1
原创 selenium使用
指定一个等待条件,并且指定一个最长等待时间,会在这个时间内进行判断是否满足等待条件,如果成立就会立即返回,如果不成立,就会一直等待,直到等待你指定的最长等待时间,如果还是不满足,就会抛出异常,如果满足了就会正常返回。一个对象就是一个人一样,他会有各种的特征(属性),如比我们可以通过一个人的身份证号,姓名,或者他住在哪个街道、楼层、门牌找到这个人。到了一定的时间发现元素还没有加载,则继续等待我们指定的时间,如果超过了我们指定的时间还没有加载就会抛出异常,如果没有需要等待的时候就已经加载完毕就会立即执行。
2024-01-01 14:20:47 1254
原创 爬虫提高效率-进程,进程池,线程,协程
获取数据print(f'获取成功:{url}')sleep(3)#初始化需要爬虫的url# 创建线程# 启动线程t.start()t.join()
2023-12-24 18:45:58 2122 1
原创 爬虫(6)-json和jsonpath
JSON(JavaScript Object Notation) 是一种轻量级的数据交换格式,它使得人们很容易的进行阅读和编写。同时也方便了机器进行解析和生成。适用于进行数据交互的场景,比如网站前台与后台之间的数据交互JSON和XML的比较可谓不相上下Python 中自带了JSON模块,直接import json就可以使用了。
2023-12-23 11:15:46 347 1
原创 数据解析-xpath
XPath 是一门在 XML 文档中查找信息的语言。XPath 可用来在 XML 文档中对元素和属性进行遍历。XPath 是 W3C XSLT 标准的主要元素,并且 XQuery 和 XPointer 都构建于 XPath 表达之上.
2023-12-22 16:29:59 366
原创 爬虫(5)-bs4
Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱,通过解析文档为用户提供需要抓取的数据,因为简单,所以不需要多少代码就可以写出一个完整的应用程序.Beautiful Soup自动将。不需要考虑编码方式,除非文档没有指定一个编码方式,这时,Beautiful Soup就不能自动识别编码方式了。然后,仅仅需要说明一下原始编码方式就可以了。
2023-12-22 10:51:47 1935
原创 爬虫(4)
3.:可以通过timeout属性设置超时时间,一旦超过这个时间还没获得响应内容,就会提示错误4,seesion的意思是保持一个会话,比如 登陆后继续操作(记录身份信息) 而requests是单次请求的请求,身份信息不会被记录。
2023-12-21 10:36:44 1383 2
原创 爬虫(2)
字典包含了一些常见的请求头字段,例如User-Agent(用户代理,模拟浏览器)、Referer(引荐页面地址)、Accept-Language(接受的语言类型)、Connection(连接状态)。这些字段可以根据需要进行调整,以使请求头看起来更像正常的浏览器请求。有时,网站会检查User-Agent字段,因此使用随机的User-Agent可能会更有用。可以保持在多个请求之间的状态,包括伪装的请求头。伪装请求头是通过在HTTP请求中设置特定的头部信息,模拟正常浏览器行为,以防止被网站识别为爬虫。
2023-12-12 17:26:59 2198 1
原创 爬虫实战(1)_网易音乐
爬虫步骤:URL地址构造->构造请求对象->发送请求->获取响应,其中为了免于网站发现我们爬虫的操作,会对user-agent参数进行修改,通过修改URL值来选择爬虫的网址。在目前网络获取数据的方式有多种方式:GET方式.大部分被传输到浏览器的html,images,js,css, …都是通过GET方法发出请求的。它是获取数据的主要方法,
2023-12-11 14:32:16 952 1
原创 os库、shutil库、zipfile库、glob库和pathlib库的使用
不需要任何参数,python返回字符串只能创建一级目录os.path模块 是Python 中处理路径信息的常用模块之一,作为os 模块的一个子模块,通常两者一起用来操作文件和目录。该模块提供了许多实用的功能,常用于获取路径的各种信息、属性;以及拼接路径、分割路径等操作。在数据处理过程中,经常需要使用文件路径来读取、写入文件或者访问其他资源。Python 中的文件路径分为相对路径和绝对路径。了解路径,就一定要先了解正斜杠 '/' 和反斜杠 '\'。
2023-12-08 20:48:48 850 1
原创 smtplib.SMTPDataError: (550, b‘The “From“ header is missing or invalid. Please follow RFC5322, RFC20
你使用了 Header('百战python学院 <1120619200@qq.com>', 'utf-8'),尽管你指定了UTF-8编码,但是可能在电子邮件客户端或者Python的 smtplib 和 email 模块在处理这种复杂的编码时存在兼容性问题。msg_body['From'] = Header('python <1120619200@qq.com>') 这种格式符合标准格式,因为它将名字和邮箱地址以常见的格式组合起来,不包括非ASCII字符,所以没有涉及到编码转换。
2023-12-05 20:26:56 1369 1
原创 Redis集群_哨兵工作原理
通知阶段sentinel发送的通知没得到master的回应,就会把master标记为SRI_S_DOWN,并且把master的状态发给各个sentinel,其他sentinel听到master挂了,说我不信,我也去看看,并把结果共享给各个sentinel,当有一半的sentinel都认为master挂了的时候,就会把master标记为SRI_0_DOWN。sentinel不断的向master和slave发起通知,收集信息。自己最先接到哪个sentinel的竞选通知就会把票投给它。
2023-11-08 19:30:35 69 1
原创 Redis-慢查询
慢查询日志是Redis服务端在命令执行前后计算每条命令的执行时长,当超过某个阈值是记录下来的日志。日志中记录了慢查询发生的时间,还有执行时长、具体什么命令等信息,它可以用来帮助开发和运维人员定位系统中存在的慢查询。
2023-11-04 11:53:51 66 1
原创 Redis配置文件
在Redis的解压目录下有个很重要的配置文件 redis.conf ,关于Redis的很多功能的配置都在此文件中完成的,一般为了不破坏安装的文件,出厂默认配置最好不要去改。
2023-11-04 10:05:40 72 1
原创 SQL注入查询漏洞
我们可以直接通过name="孙权" and psw="123"来进行判断就可以获取。来替代,通过函数传入有关的参数变量。这样可以通过函数动态查询有关的信息,,在管理员不知情的情况下实现非法操作,以此来实现欺骗数据库服务器执行。将后面的密码注释掉,使得密码失去其保护隐私的作用,而获得相关的信息。通过%s占位name和psw的输入位置,可以预防注入查询的漏洞。,攻击者可以在web应用程序中事先定义好的查询语句的。例如当我们想查询姓名为孙权的有关信息。,从而进一步得到相应的数据信息。
2023-10-06 15:43:19 104 1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人