Python
文章平均质量分 69
Python
开心星人
信安之路,道阻且长
展开
-
【Python】字母频率分析破解密文
解密文本中出现大量ELT,由于E->T,所以推测ELT为THE。即E->T、L->H、T->E。解密文本中出现大量AST,由于T->E,又S和R的频率相近,所以推测AST为ARE。解密文本中出现多个OW,推测为OF或OR。UOCR,又U->Y,且C和U频率相似,推测为your。D’OGGED’TINP’,推测为collecting,即G->L。即R->D,I->N。D’OMPANIES推测为companies,即D->C。V’EFORE推测为Before,即V->B。F’ORE推测为MORE,即F->M。原创 2024-08-07 13:44:44 · 1102 阅读 · 0 评论 -
【Python】数据处理(mongodb、布隆过滤器、索引)
数据。原创 2024-07-14 16:26:53 · 1089 阅读 · 0 评论 -
【Pytorch】目标检测数据集
目标检测 Object Detection :检测,不仅要找到图片上的所关心的目标位置,同时还要识别出这个目标是什么类别。主流的目标检测都是以 矩阵框 的形式进行输出的,而语义分割比目标检测的精度更高。原创 2024-05-19 22:54:49 · 773 阅读 · 1 评论 -
【pytorch】anaconda使用及安装pytorch
Conda创建环境相当于创建一个虚拟的空间将这些包都装在这个位置,不需要了可以直接打包放入垃圾箱,同时也可以针对不同程序的运行环境选择不同的conda虚拟环境进行运行。例如:env1装了pytorch1.0,env2装了pytorch1.2,需要使用1.0的时候激活env1,需要使用pytorch版本1.2的时候激活env2,这样就不用每次配环境一个一个包重新安装。原创 2024-02-01 15:55:55 · 1457 阅读 · 2 评论 -
爬虫学习日记第九篇(爬取seebug)
经过反复调试,大概测出来开四个线程,每次操作sleep(1.5)结果大概是准确的。并将所有非正常没有测出来的结果加入到err列表中,之后再测一遍。cookie是有时效的(过一段时间就不行了,大概半小时左右),但是并不需要登录(直接抓包拿到的请求头)TODO:自动生成cookie,来对抗cookie的时效。要不然既限制速率,又限制时效,实在太伤了。需求:爬取cve_id及影响组件。原创 2023-12-08 18:14:01 · 1681 阅读 · 0 评论 -
爬虫学习日记第八篇(爬取fofa某端口的协议排行及其机器数目,统计top200协议)
遍历端口,统计各个协议对应的机器数目(不准,但能看出个大概)通过fofa搜索端口,得到协议排名前五名和对应机器的数目。页面动态加载,由于动态渲染的问题,有的请求返回结果为空。API需要会员,一天只能访问1000次。手动登录获取cookie代码。找到最常用的200个协议。单线程,未登录爬虫代码。登录账号的单线程爬虫。原创 2023-10-20 11:31:45 · 953 阅读 · 0 评论 -
【Python】argparse解析命令行参数模块
action - 命令行遇到参数时的动作,默认值是 store。– store_const,表示赋值为const;– append,将遇到的值存储成列表,也就是如果参数重复则会保存多个值;– append_const,将参数规范中定义的一个值保存到一个列表;– count,存储遇到的次数;此外,也可以继承 argparse.Action 自定义参数解析;nargs - 应该读取的命令行参数个数,可以是具体的数字,或者是?原创 2022-10-05 21:35:52 · 933 阅读 · 0 评论 -
爬虫学习日记第六篇(异步爬虫之多进程、线程池和实战项目爬取新发地价格行情)
文章目录异步爬虫的方式:多线程、多进程多线程自定义线程类多进程线程池的简单使用线程池项目实战异步爬虫的方式:1、多线程、多进程(不建议):好处:可以为相关阻塞的操作单独开启线程或者进程,阻塞操作就可以异步执行弊端:无法无限制的开启多线程或者多进程2、线程池、进程池:好处:可以降低系统对进程或者线程创建和销毁的一个频率,从而很好的降低系统的开销弊端:池中线程或进程的数量是有上限的多线程、多进程多线程from threading import Threaddef func():原创 2022-01-29 22:38:07 · 5080 阅读 · 3 评论 -
selenium自动化携带cookie模拟登录头歌实践平台并爬取数据
????需求爬取白页中全部内容,爬取所有测试集输入输出。???? 分析selenium简单向页面发起请求,发现会跳转到登录界面。所以先需要手动登录一下,获取cookie。然后携带cookie向页面发起请求。???? 代码+说明getcookie.pyfrom selenium import webdriverimport timeimport json# 填写webdriver的保存目录driver = webdriver.Chrome("..\chromedriver.exe原创 2022-01-25 16:27:13 · 1281 阅读 · 2 评论 -
爬虫学习日记第五篇(selenuim模块)
目录???? selenuim概述????selenuim安装????获得页面动态加载出来的数据 ????以前的做法 ????selenuim做法????selenium其他自动化操作???? selenuim概述selenuim是基于浏览器自动化的模块作用:便捷的获取网站中动态加载原创 2022-01-22 18:48:24 · 961 阅读 · 0 评论 -
爬虫学习日记第四篇(xpath解析)
xpath概述????xpath解析原理:1、实例化一个etree的对象,且需要将被解析的页面源码数据加载到该对象中2、调用etree对象中的xpath方法,结合这xpath表达式实现标签定位和内容的捕获????如何实例化一个etree对象:from lxml import etree1、将本地的html文档中的源码数据加载到etree对象中:etree.parse(filePath)2、也可以将从互联网上获取的源码数据加载到该对象中etree.HTML(‘page_text’)xpat原创 2022-01-19 15:08:08 · 2328 阅读 · 0 评论 -
爬虫学习日记第三篇(使用正则爬取豆瓣某单个页面中图片和爬取喜剧电影排行榜保存成csv文件)
举出的三个点,由浅入深1、如何爬取图片数据import requestsif __name__=="__main__": url='http://i.gtimg.cn/qqlive/img/jpgcache/files/qqvideo/hori/q/qsmjp87yyoqm7fy.jpg' #content返回的是二进制形式的图片数据 #text 字符串 content 二进制 json() 对象 image_data=requests.get(url=.原创 2022-01-18 17:26:26 · 1078 阅读 · 0 评论 -
爬虫学习日记第二篇(Python正则表达式和re模块)
目录正则表达式概述元字符量词贪婪匹配和惰性匹配re模块正则表达式概述正则表达式:⼀种使用表达式的方式对字符串进行匹配的语法规则在线测试正则表达式元字符元字符: 具有固定含义的特殊符号常用元字符: . 匹配除换⾏符以外的任意字符\w 匹配字母或数字或下划线\s 匹配任意的空⽩符\d 匹配数字\n 匹配⼀个换⾏符\t 匹配⼀个制表符^ 匹配字符串的开始$ 匹配字符串的结尾#爬虫中几乎用不到#但必须测试用户输入的是不是电话号码可以 ^\d{11}$\W 匹配⾮字母或数字或原创 2022-01-18 12:21:54 · 677 阅读 · 0 评论 -
爬虫学习日记第一篇(简易网页采集器)
搜狗网站为例想把这整个搜索页面抓取下来url很长,简化url发现显示内容并不影响开始编写代码import requestsif __name__=="__main__": url="https://www.sogou.com/web" #处理的url携带的参数:封装到字典中 # (原来的url为https://www.sogou.com/web?query=%E4%BD%A0%E5%A5%BD)这里经过了url编码,get传参 kw=input("Please原创 2022-01-17 13:52:34 · 553 阅读 · 0 评论 -
Python第三方库在命令行使用pip安装完成之后只能使用idle,而不能pycharm的解决方法
先使用pip install requests (或者其他模块也可以)然后如图,就可以看到这些模块被安装的位置看到安装的一些模块都在这里直接把site-packages整个文件夹Ctrl+C一下然后找到Pycharm的项目文件夹(就是你在Pycharm里面写的文件保存的位置),一定要找到venv,然后进入Lib,把site-packages改一下名字,再Ctrl+V一下再在Pycharm试一下应该就没问题了如何直接在Pycharm里面安装模块呢[file]->[setting.原创 2022-01-16 13:02:32 · 1629 阅读 · 1 评论 -
Python数据处理csv的简单应用
目录题目代码运行实例题目文件scores.csv包含十位学生的成绩单,表头是"姓名 语文 数学 英语"。请编程完成下述功能。1)计算每位学生的总分与排名,并将扩充后的学生信息写入文件data.csv中,新文件表头是"姓名 语文 数学 英语 总分 名次";2)同时,在控制台上分行输出各门课的最高分与最低分以及对应的学生姓名,输出格式为"课程名 :(最高分,学生1,… ,学生n),(最低分,学生1,… ,学生n)";3)如果总分相同,则同一名次下可能有多人并列,如果最原创 2022-01-08 10:48:31 · 2901 阅读 · 0 评论 -
Python组合数据类型
这是Python123上的题目,我觉得很有意义,这是他给的标准答案(最后一个是我自己写的),之所以记录就是可以让自己以后多看看目录1、文本词频统计2、《沉默的羔羊》之最多单词3、人名最多数统计1、文本词频统计请统计hamlet.txt文件中出现的英文单词情况,统计并输出出现最多的10个单词,注意:(1) 单.原创 2021-12-14 17:58:43 · 936 阅读 · 0 评论 -
Python学习笔记(2)
Python编程:从入门到实践 学习笔记第五章~第七章25注意布尔表达式的结果要么为True,要么为False首字母要大写26.if语句for car in cars: if car == ‘bmw’ :print(car.upper())else:print(car.title())使用and检查多个条件(and相当于&&)使用or检查多个条件(or相当于||)为了改善可读性,可将每个测试都分别放在一对括号内如(age_0 >=21)and(age.原创 2021-08-16 14:47:00 · 133 阅读 · 0 评论 -
Python学习笔记(1)
Python编程:从入门到实践 学习笔记第一章~第四章Python中引号引起来的就是字符串,其中引号可以是单引号也可以是双引号。使用title()方法修改字符串的大小写name=”ada loveace”print(name.title()) #title()以首字母大写的方式显示每个单词,即将每个单词的首字母都改为大写print(name.upper()) #每个字母都大写print(name.lower()) #每个字母都小写3换行符和制表符来添加空白\t 制表符.原创 2021-08-09 12:13:20 · 252 阅读 · 0 评论