自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(18)
  • 问答 (1)
  • 收藏
  • 关注

原创 一些RAG相关的八股知识

你可以在SQL中查找 “ 年龄大于30岁的人” , 但很难写出一句SQL语句找出 “语义与年龄相似的段落”散落在多个分块的边缘,导致检索时要么只捞起片段,要么干脆被忽略。微软公司的实验分析表明,较小的块有助于提高模型性能。小而美、语义集中的块更容易实现精确匹配。并不擅长处理 “向量之间的相似度查询”先说几种场景的Chunk分块粒度。对大量小块文本进行向量化和索引。包含太多噪音,降低了匹配精度。主要目的其实就是为了减少。来高效存储和管理这些向量。LLM 如同读到半句话。

2025-09-14 14:19:02 1031

原创 RLHF,PPO,DPO,GRPO的区别

2025-09-14 14:05:15 1023

原创 一部分大模型算法八股

混合专家模型(MoE)是一种神经网络架构,它将一个大模型拆分成多个小模型,也就是专家模型。由门控机制来决定在处理特定输入时,激活哪些专家。核心设计思想为条件计算,即根据输入内容动态地、稀疏地激活模型的一小部分,而非每次都动用全部参数。这使得模型能拥有极大的总参数量以存储更多知识,但单次推理的实际计算成本却很低,从而将模型规模与计算成本解耦。多头潜在注意力(MLA)采用低秩联合压缩键值技术,优化了键值(KV)矩阵,显著减少了KV Cache并提高了推理效率。

2025-09-14 13:54:20 828

原创 vLLM—— 用于加速大模型推理

vLLM是一个用于快速LLM推理和服务的开源库,利用分页注意力(PagedAttention)有效的管理注意力key和value,增加模型的吞吐量。vLLM整体架构。

2025-09-14 13:39:44 1232

原创 机器学习——K-近邻

K-近邻算法的API:sklearn.neighbors.KNeighborsClassifier(n_neighbors=5, algorithm = 'auto') n_neighbors表是默认使用的邻居数(默认为5),algorithm:{'auto','ball_tree','kd_tree','brute'}返回值:x_train, x_test, y_train, y_test (注意顺序是固定的,分别为特征值的训练集和测试集,目标值的训练集额测试集)选取与当前点距离最小的K个点。

2023-05-07 17:07:40 353

原创 科学计算库——Pandas高级操作

替换缺失值: fillna(value , inplace=True) value表示替换的值,True会修改原数据,False不会修改原数据,生成新的图像。什么是数据离散化:连续属性的离散化就是在连续属性的值域上,将值域划分为若干个离散的区间,最后用不同的符号或整数值代表每个子区间的属性值。透视表(data.pivot_table()):将原有的DataFrame的列分别作为行索引和列索引,然后对指定的列应用聚集函数。缺失值的处理:缺失值指没有被统计到的数据(一般用NaN标记)如果缺失值的标记为NaN。

2023-05-07 17:05:29 177

原创 科学计算库——Pandas数据操作

值排序:df.sort_values(by=,ascending=) by为指定排序的键, ascending = False为降序排序,True为升序排序。axis=0默认是列,1为行运算。综合统计:describe , 可以直接计算出平均值,最大值,最小值,标准差等。DataFrame.plot(kind='') kind 图的类型。读取文件:pd.read_csv('路径')iloc获取索引:可以通过索引的下标去获取。loc获取索引:只能指定行列索引的名字。获取前三行,前两列的数据。

2023-05-07 17:04:01 208

原创 科学计算库——Pandas-DataFrame数据结构

例:data = pd.DataFrame(score , columns = subject , index = stu )例:stu = ['同学' + str(i) for i in range(score_df.shape[0])]优点:增强图表可读性,便捷的数据处理能力,读取文件方便,封装了matplotlib和numpy画图和计算。例:subject = ["语文","数学","英语","政治","体育"]data.head(5) : 获取前五行。data.tail(5) : 获取后五行。

2023-05-07 17:01:40 192

原创 科学计算库——Matplotlib

plt.pie(x,labels=,autopct=,colors) x表示数量 ,自动计算百分比 , labels表示每个部分的名称 , autopct表示占比显示,指定1.2f% ,colors每部分颜色。可以通过subplots函数实现 : matplotlib.pyplot.subplots(nrow = 1 , ncols = 1)创建一个带有多个axes(坐标系/绘图区)的图像。x要显示的刻度:plt.xticks(x,**kwargs)x轴: plt.xlabel("XXX")

2023-05-07 17:00:43 121

原创 科学计算库——Numpy运算

当形状不相同的数组在执行算数运算的时候就会出现广播机制,该机制就会对数组进行拓展,使数组的shape属性值一样,这样,就可以进行矢量化运算了。例:np.where(np.logical_and(temp>60,temp<90),1,0) :表示 判断前四名学生,前四门课程里成绩大于90且小于60的为1,其余为0。例:np.where(np.logical_and(temp>60,temp<90),1,0 : 表示 判断前四名学生,前四门课程里成绩大于90或小于60的为1,其余为0。

2023-05-07 16:58:11 344

原创 科学计算库——Numpy基本操作

是具有两个参数μ和σ的连续型随机变量的分布,μ是服从正态分布的随机变量的均值,σ是此随机变量的方差。创建ndarry:xx = np.array([[],[],[]]) (注:在前面加多少个[]就代表是几维数组,现在给的是二维数组)N维数组—ndarray :是Numpy提供的N维数组类型,描述了相同类型的“items”的集合。相当于索引的形式,并没有真正创建一个新的(浅拷贝):a2 = np.asarray(a)二维数组: 例:a[0,0:3] : 表示获取第一个数组里的,0到3的数组。

2023-05-07 16:56:11 152

原创 Kali渗透-NMAP高级使用技巧和漏洞扫描发现

4.1 NMAP高级使用技巧4.1.1 NMAP概述nmap可用于 检测活在网络上的主机 检测主机上开放的端口 检测到相应的端口的软件和版本 检测操作系统,硬件地址,以及软件版本 检测脆弱性的漏洞(nmap脚本) 4.1.2 NMAP端口状态解析4.1.3 NMAP的语法及示例nmap 可以扫内网,也可以扫描外网 直接使用nmap nmap 192.168.1.63nmap ...

2021-11-19 09:00:27 12774

原创 Kali渗透-WireShark

3.1 WireShark简介和抓包原理及过程3.1.1 WireShark简介 WireShark是一个网络封包分析软件,网络封包分析软件的功能是提取网络封包,并尽可能显示出最为详细的网络封包资料。Wireshark使用WinPCAP作为接口,直接与网卡进行数据报文交换。3.1.2 WireShark快速分析数据包技巧 确定WS的物理位置,如果没有一个正确的位置,启动WS会花费很长是时间捕捉与自己无关的信息 选择捕获接口,一般都是选择连接到internet的网...

2021-11-16 13:50:42 10166

原创 Kali渗透—僵尸扫描

2.5 僵尸扫描2.5.1 什么是僵尸扫描 僵尸主机:僵尸主机是指感染僵尸病毒程序,从而被黑客程序控制的计算机设备。但是僵尸扫描中的僵尸主机指的是一个闲置的操作系统(闲置指主机不会主动和任何人通信),且此系统中IP数据包中ID是递增的。 IPID:指的是通信过程中,IP数据包中的ID。 僵尸扫描具有极高的隐蔽特性,但是实施条件苛刻。 目标网络可伪造源地址进行访问 选择僵尸主机,僵尸主机需要在互联上是一个闲置的操作系...

2021-11-15 18:19:47 5413

原创 学神Kali渗透—信息收集

信息收集的内容:IP地址段 域名信息 邮件地址 文档图片数据 公司地址 公司组织架构等信息收集的用途:信息描述目标 发现目标 社会工程学攻击 物理缺口1.1 被动信息收集-DNS1.1.1 DNS服务器描述 是运行DNS程序服务器的一个计算机。存储DNS数据库信息。DNS服务器分为根域服务器,顶级服务器,根域服务器有13个,都存储了全部的顶级域名服务器的地址;顶级域名服务器存储了每个用户所注册的主机地址,在这里对应了163.com这个级别。1.1.2...

2021-11-14 15:57:03 2086

原创 皮卡丘靶场——XSS(2)

XSS的过滤和绕过在构建网站的时候可以利用一些函数来将构成XSS的一些关键字符给过滤掉,从而达到简单防范XSS入侵的目的。但是攻击者也可以利用一些方法进行绕过,从而达到攻击的目的。(例如更改字母大小写,通过img、body等标签的事件或者 iframe 等标签的 src 注入恶意的 js 代码等)XSS的防御总体思路就是对用户的输入(和URL参数)进行过滤,对输出进行html编码。对输入的内容进行过滤,可以分为黑名单过滤和白名单过滤。黑名单过滤虽然可以拦截大部分的XSS攻击,但是还是存在被绕

2021-10-11 21:01:16 820

原创 皮卡丘靶场自学笔记2——XSS(1)

XSS(跨站脚本攻击)概述:利用网页开发时的漏洞,从而注入JS代码,使用户执行攻击者制造的网页程序,从而获取用户的一些信息,cookie等内容。反射型xss需要欺骗用户自己去点击链接才能触发XSS代码,不可以持久。储存型xss代码是存储在服务器中的,插入代码后,如果没有过滤或过滤不严,那么这些代码将储存到服务器中,用户访问该页面的时候触发代码执行。可以持久。DOM型xssDOM-XSS是通过url传入参数去控制触发的,其实也属于反射型XSS。可以利用XSS后台执行钓鱼

2021-10-10 15:09:40 270

原创 网络安全自学笔记——皮卡丘靶场

皮卡丘靶场:一、 PHPSTUDY→启动阿帕奇和MYSQL环境→启动皮卡丘主页面安装Burpsuite→下载BP证书安装在火狐浏览器上。二、暴力破解:1.概述通俗点来讲,暴力破解就是利用字典来对一个账户的账户密码进行海量的筛选,通过BP捕捉当前页面被拦截的包,利用字典来进行破解攻击,从海量的测试中选择出正确的选项。同时可以通过BP来进行验证码的绕过!从而直接达到筛选出用户的账号密码。2.攻击模式s...

2021-10-10 15:08:13 945

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除