不会CV的酸菜鱼-CSDN博客

原创一些RAG相关的八股知识

你可以在SQL中查找 “ 年龄大于30岁的人” ，但很难写出一句SQL语句找出 “语义与年龄相似的段落”散落在多个分块的边缘，导致检索时要么只捞起片段，要么干脆被忽略。微软公司的实验分析表明，较小的块有助于提高模型性能。小而美、语义集中的块更容易实现精确匹配。并不擅长处理 “向量之间的相似度查询”先说几种场景的Chunk分块粒度。对大量小块文本进行向量化和索引。包含太多噪音，降低了匹配精度。主要目的其实就是为了减少。来高效存储和管理这些向量。LLM 如同读到半句话。

2025-09-14 14:19:02 1031

原创 RLHF,PPO,DPO,GRPO的区别

2025-09-14 14:05:15 1023

原创一部分大模型算法八股

混合专家模型（MoE）是一种神经网络架构，它将一个大模型拆分成多个小模型，也就是专家模型。由门控机制来决定在处理特定输入时，激活哪些专家。核心设计思想为条件计算，即根据输入内容动态地、稀疏地激活模型的一小部分，而非每次都动用全部参数。这使得模型能拥有极大的总参数量以存储更多知识，但单次推理的实际计算成本却很低，从而将模型规模与计算成本解耦。多头潜在注意力（MLA）采用低秩联合压缩键值技术，优化了键值（KV）矩阵，显著减少了KV Cache并提高了推理效率。

2025-09-14 13:54:20 828

原创 vLLM—— 用于加速大模型推理

vLLM是一个用于快速LLM推理和服务的开源库，利用分页注意力（PagedAttention）有效的管理注意力key和value，增加模型的吞吐量。vLLM整体架构。

2025-09-14 13:39:44 1232

原创机器学习——K-近邻

K-近邻算法的API：sklearn.neighbors.KNeighborsClassifier(n_neighbors=5, algorithm = 'auto') n_neighbors表是默认使用的邻居数（默认为5）,algorithm:{'auto','ball_tree','kd_tree','brute'}返回值：x_train, x_test, y_train, y_test (注意顺序是固定的，分别为特征值的训练集和测试集，目标值的训练集额测试集）选取与当前点距离最小的K个点。

2023-05-07 17:07:40 353

原创科学计算库——Pandas高级操作

替换缺失值: fillna(value , inplace=True) value表示替换的值，True会修改原数据，False不会修改原数据，生成新的图像。什么是数据离散化：连续属性的离散化就是在连续属性的值域上，将值域划分为若干个离散的区间，最后用不同的符号或整数值代表每个子区间的属性值。透视表（data.pivot_table()):将原有的DataFrame的列分别作为行索引和列索引，然后对指定的列应用聚集函数。缺失值的处理：缺失值指没有被统计到的数据（一般用NaN标记）如果缺失值的标记为NaN。

2023-05-07 17:05:29 177

原创科学计算库——Pandas数据操作

值排序：df.sort_values(by=,ascending=) by为指定排序的键， ascending = False为降序排序，True为升序排序。axis=0默认是列，1为行运算。综合统计：describe ，可以直接计算出平均值，最大值，最小值，标准差等。DataFrame.plot(kind='') kind 图的类型。读取文件：pd.read_csv('路径')iloc获取索引：可以通过索引的下标去获取。loc获取索引：只能指定行列索引的名字。获取前三行，前两列的数据。

2023-05-07 17:04:01 208

原创科学计算库——Pandas-DataFrame数据结构

例：data = pd.DataFrame(score , columns = subject , index = stu )例：stu = ['同学' + str(i) for i in range(score_df.shape[0])]优点：增强图表可读性，便捷的数据处理能力，读取文件方便，封装了matplotlib和numpy画图和计算。例：subject = ["语文","数学","英语","政治","体育"]data.head(5) ：获取前五行。data.tail(5) ：获取后五行。

2023-05-07 17:01:40 192

原创科学计算库——Matplotlib

plt.pie(x,labels=,autopct=,colors) x表示数量，自动计算百分比， labels表示每个部分的名称， autopct表示占比显示，指定1.2f% ，colors每部分颜色。可以通过subplots函数实现： matplotlib.pyplot.subplots(nrow = 1 , ncols = 1)创建一个带有多个axes（坐标系/绘图区）的图像。x要显示的刻度：plt.xticks(x,**kwargs)x轴： plt.xlabel("XXX")

2023-05-07 17:00:43 121

原创科学计算库——Numpy运算

当形状不相同的数组在执行算数运算的时候就会出现广播机制，该机制就会对数组进行拓展，使数组的shape属性值一样，这样，就可以进行矢量化运算了。例：np.where(np.logical_and(temp>60,temp<90),1,0) :表示判断前四名学生，前四门课程里成绩大于90且小于60的为1，其余为0。例：np.where(np.logical_and(temp>60,temp<90),1,0 ：表示判断前四名学生，前四门课程里成绩大于90或小于60的为1，其余为0。

2023-05-07 16:58:11 344

原创科学计算库——Numpy基本操作

是具有两个参数μ和σ的连续型随机变量的分布，μ是服从正态分布的随机变量的均值，σ是此随机变量的方差。创建ndarry：xx = np.array([[],[],[]]) （注：在前面加多少个[]就代表是几维数组，现在给的是二维数组）N维数组—ndarray ：是Numpy提供的N维数组类型，描述了相同类型的“items”的集合。相当于索引的形式，并没有真正创建一个新的（浅拷贝）：a2 = np.asarray(a)二维数组：例：a[0,0:3] ：表示获取第一个数组里的，0到3的数组。

2023-05-07 16:56:11 152

原创 Kali渗透-NMAP高级使用技巧和漏洞扫描发现

4.1 NMAP高级使用技巧4.1.1 NMAP概述nmap可用于检测活在网络上的主机检测主机上开放的端口检测到相应的端口的软件和版本检测操作系统，硬件地址，以及软件版本检测脆弱性的漏洞（nmap脚本） 4.1.2 NMAP端口状态解析4.1.3 NMAP的语法及示例nmap 可以扫内网，也可以扫描外网直接使用nmap nmap 192.168.1.63nmap ...

2021-11-19 09:00:27 12774

原创 Kali渗透-WireShark

3.1 WireShark简介和抓包原理及过程3.1.1 WireShark简介 WireShark是一个网络封包分析软件，网络封包分析软件的功能是提取网络封包，并尽可能显示出最为详细的网络封包资料。Wireshark使用WinPCAP作为接口，直接与网卡进行数据报文交换。3.1.2 WireShark快速分析数据包技巧确定WS的物理位置，如果没有一个正确的位置，启动WS会花费很长是时间捕捉与自己无关的信息选择捕获接口，一般都是选择连接到internet的网...

2021-11-16 13:50:42 10166

原创 Kali渗透—僵尸扫描

2.5 僵尸扫描2.5.1 什么是僵尸扫描僵尸主机：僵尸主机是指感染僵尸病毒程序，从而被黑客程序控制的计算机设备。但是僵尸扫描中的僵尸主机指的是一个闲置的操作系统（闲置指主机不会主动和任何人通信），且此系统中IP数据包中ID是递增的。 IPID:指的是通信过程中，IP数据包中的ID。僵尸扫描具有极高的隐蔽特性，但是实施条件苛刻。目标网络可伪造源地址进行访问选择僵尸主机，僵尸主机需要在互联上是一个闲置的操作系...

2021-11-15 18:19:47 5413

原创学神Kali渗透—信息收集

信息收集的内容：IP地址段域名信息邮件地址文档图片数据公司地址公司组织架构等信息收集的用途：信息描述目标发现目标社会工程学攻击物理缺口1.1 被动信息收集-DNS1.1.1 DNS服务器描述是运行DNS程序服务器的一个计算机。存储DNS数据库信息。DNS服务器分为根域服务器，顶级服务器，根域服务器有13个，都存储了全部的顶级域名服务器的地址；顶级域名服务器存储了每个用户所注册的主机地址，在这里对应了163.com这个级别。1.1.2...

2021-11-14 15:57:03 2086

原创皮卡丘靶场——XSS（2）

XSS的过滤和绕过在构建网站的时候可以利用一些函数来将构成XSS的一些关键字符给过滤掉，从而达到简单防范XSS入侵的目的。但是攻击者也可以利用一些方法进行绕过，从而达到攻击的目的。(例如更改字母大小写，通过img、body等标签的事件或者 iframe 等标签的 src 注入恶意的 js 代码等）XSS的防御总体思路就是对用户的输入(和URL参数)进行过滤，对输出进行html编码。对输入的内容进行过滤，可以分为黑名单过滤和白名单过滤。黑名单过滤虽然可以拦截大部分的XSS攻击，但是还是存在被绕

2021-10-11 21:01:16 820

原创皮卡丘靶场自学笔记2——XSS（1）

XSS（跨站脚本攻击）概述：利用网页开发时的漏洞，从而注入JS代码，使用户执行攻击者制造的网页程序，从而获取用户的一些信息，cookie等内容。反射型xss需要欺骗用户自己去点击链接才能触发XSS代码，不可以持久。储存型xss代码是存储在服务器中的，插入代码后，如果没有过滤或过滤不严，那么这些代码将储存到服务器中，用户访问该页面的时候触发代码执行。可以持久。DOM型xssDOM-XSS是通过url传入参数去控制触发的，其实也属于反射型XSS。可以利用XSS后台执行钓鱼

2021-10-10 15:09:40 270

原创网络安全自学笔记——皮卡丘靶场

皮卡丘靶场：一、 PHPSTUDY→启动阿帕奇和MYSQL环境→启动皮卡丘主页面安装Burpsuite→下载BP证书安装在火狐浏览器上。二、暴力破解：1.概述通俗点来讲，暴力破解就是利用字典来对一个账户的账户密码进行海量的筛选，通过BP捕捉当前页面被拦截的包，利用字典来进行破解攻击，从海量的测试中选择出正确的选项。同时可以通过BP来进行验证码的绕过！从而直接达到筛选出用户的账号密码。2.攻击模式s...

2021-10-10 15:08:13 945

Shmily17s的博客