
【机器学习】
文章平均质量分 85
君的名字
talk is cheap, show me the code!
只要xian哥在,世界充满爱!爱心发射,biubiu~biubiu~❤ ❤ ❤ ❤
展开
-
【论文阅读】Chain-of-Thought Prompting of Large Language Models for Discovering 基于思维链提示的大语言模型软件漏洞发现与修复方法研究
软件安全漏洞在现代系统中呈现泛在化趋势,其引发的社会影响日益显著。尽管已有多种防御技术被提出,基于深度学习(DL)的方法因能规避传统技术瓶颈而备受关注,但面临两大核心挑战:任务专用标注数据集的规模质量不足,以及面向未知现实场景的泛化能力欠缺。最新研究表明,大语言模型(LLMs)通过思维链(CoT)提示机制展现出突破性潜力。本文创新性地将LLMs与CoT技术融合,系统解决软件漏洞分析三大核心任务:特定类型漏洞识别、泛型漏洞发现及漏洞修复。原创 2025-03-26 17:06:39 · 1525 阅读 · 0 评论 -
macro-F1(宏平均F1)和micro-F1(微平均F1)
在机器学习中,macro-F1(宏平均F1)和micro-F1(微平均F1)是两种评估多分类任务性能的指标。它们的核心区别在于对各类别的权重分配方式不同,适用于不同的场景需求。用Macro-F1:当类别不平衡(如医疗诊断中的罕见病),且需要平等评估每个类别的表现时。用Micro-F1:当类别相对平衡(如新闻分类),且更关注整体的准确率(尤其是大类样本的预测效果)。原创 2025-03-26 16:37:04 · 810 阅读 · 0 评论 -
【博客阅读】使用GPT-3发现了单一代码仓里的213个安全漏洞
GPT-3在该Git代码库中共发现213个安全漏洞。作为对比,某头部网络安全公司的商用扫描工具(市场上表现较好的工具之一)仅发现99个问题,尽管该工具能以更结构化的格式提供漏洞上下文。我们随机抽查了GPT-3检测出的213个漏洞中的60个进行人工核验,发现仅有4个误报。两种工具都存在大量漏报情况。原创 2025-03-24 14:53:16 · 901 阅读 · 0 评论 -
性能评估指标(Precision, Recall, Accuracy, F1-measure)
文章目录 一个例子 Precision 精准率召回率其他Reference 一个例子首先我们看下面的一个表格,也是经典的二分类问题,常常会看见的表格:如上表所示,行表示预测的label值,列表示真实label值。TP,FP,FN,TN分别表示如下意思:TP(true positive):表示样本的真实类别为正,最后预测得到的结果也为正;FP(false positive):表示样本的...原创 2019-12-24 18:19:05 · 2292 阅读 · 0 评论 -
Measuring Similarity between Clusters (Clusters 之间相似度的测量)【未完待续】
综述测量clusters(聚类)之间距离的方法一般可以分为四类, single linkage, complete linkage, average linkage , average groups linkageSingle linkage用两个聚类中相邻最近的点来做比较,我们叫做single linkage Complete Linkage在聚类中选择相隔最远的点来做两个聚类之间的...原创 2018-11-14 19:13:43 · 875 阅读 · 0 评论 -
K-means 算法【基本概念篇】
写在前面的话k-means 算法是一个聚类的算法 也就是clustering 算法。是属于无监督学习算法,也是就样本没有label(标签)的算分,然后根据某种规则进行“分割”, 把相同的或者相近的objects 物体放在一起。在这里K就是我们想要分割的的聚类的个数。当然了,很多资料都会说这个算法吧,毕竟简单粗暴可依赖算法描述首先我们有以下的几个点A1(2,10)...原创 2018-11-14 22:57:54 · 26690 阅读 · 23 评论 -
【Math Time 】Mean, Median, Mode 之间的区别
写在前面的话我们的世界可以说是由各种各样的数据组成的,不同人的身高的集合值,宇宙中星星的亮度值,或者说一个人脸上的青春痘的个数。。。有的数值很简单,有的数据集又很盘大,我们为了理解一些数据的规律提出了很多概念,今天我们在这里介绍一下其中的三个,mean, median , mode. 不正经的正文Mean = Average 也就是一般我们说的算术平均值。就是把所有的数全部加起来,然后...原创 2018-11-14 23:34:48 · 30150 阅读 · 2 评论 -
k-median聚类算法【基本概念篇】
写在前面的话难道最近这种文章看的人比较多,unbelievable!因为觉得这些都是特别老的算法,应该别人会不怎么看的,但是没想到,我觉得有意思的文章反倒是没有人看,觉得就是很多东西不写,想要回顾的时候自己的记忆又没有自己认为的那么牛逼,有些东西还是全面的理解透彻了,写下来的话更持久一些。当然我的blog 主要是我遗忘时候的宝典,偶尔能帮助很多人,我也是很开心的。有时候看到有的文章的阅读量有...原创 2018-11-20 13:55:40 · 16103 阅读 · 9 评论 -
RDKit安装和使用
写在前面的话写在后面的话原创 2019-01-14 22:09:00 · 34817 阅读 · 26 评论 -
决策树算法(五)——处理一些特殊的分类
在之前的决策树算法中我们已经讲解了从数据集构造决策树算法的功能模块。首先是创建数据集,然后计算香农熵,然后基于最好的属性值划分数据集,由于特征值可能多于两个,因此可能存在大于两个分支的数据集划分。第一次划分好之后,数据将被向下传递到树分支的一个节点,在这个节点上我们可以再次划分数据,所以我们可以采用递归的原则处理数据集。递归的结束条件是:遍历完所有划分的数据集的属性,或者每个分支下的所有实例都具有相原创 2016-07-24 23:15:54 · 2182 阅读 · 1 评论 -
数学符号的意义总结(未完待续)
~与。。。同阶无穷大(无穷小) ∝正比于 ξ,ɛ,ω,ϖ,η希腊字母,纯粹的变量 ∁余集 ∫积分 ,∑求和 ⊕直和 ⊗直积 ∅空集 ∩交集∪并集 ⊂,⊆包含于⊃⊇包含 ⊄,⊅,⊈,⊉不包含于,不包含 ⊊,⊋真包含于,真包含 ∈属于 ¬否 ∃存在∀任意 ∧合取 ≜定义原创 2017-07-31 20:11:11 · 5867 阅读 · 0 评论 -
决策树算法(三)——计算香农熵
写在前面的话如果您有任何地方看不懂的,那一定是我写的不好,请您告诉我,我会争取写的更加简单易懂!如果您有任何地方看着不爽,请您尽情的喷,使劲的喷,不要命的喷,您的槽点就是帮助我要进步的地方!计算给定数据的信息熵在决策树算法中最重要的目的我们已经在前几章说过了,就是根据信息论的方法找到最合适的特征来划分数据集。在这里,我们首先要计算所有类别的所有可能值的香农熵,根据香农熵来我们按照取最大信息增益(in原创 2016-07-15 18:20:14 · 11853 阅读 · 4 评论 -
决策树算法(一)——一些重要的数学概念
写在前面的话 趁着现在我还是高中数理化老师,偶尔兼职英语老师的时候赶紧抓紧时间写点有关计算机科学技术的东西。一来是表示我对计算机的热爱,二来,当然是最重要的咯,满足一下我强大的虚荣心。哈哈哈哈!想想高中数学物理化学老师在折腾计算机,是不是有种瞬间吊炸天的感觉。 这个系列我写了一个月了,之后会陆陆续续的放出来的。希望对大家有一点点帮助。如果您没有看懂我在写啥,那一定是我错了,原创 2016-07-12 11:55:09 · 5580 阅读 · 10 评论 -
决策树算法(二)——构建数据集
目录索引目录索引写在前面的话决策树构建的一般流程数据的构建参考链接写在后面的话写在前面的话如果您有任何地方看不懂的,那一定是我写的不好,请您告诉我,我会争取写的更加简单易懂!如果您有任何地方看着不爽,请您尽情的喷,使劲的喷,不要命的喷,您的槽点就是帮助我要进步的地方!1.决策树构建的一般流程收集数据:任何你能收集数据的方法准备数据:原创 2016-07-14 09:46:13 · 4627 阅读 · 0 评论 -
决策树算法(六)——构建决策树
递归构建决策树之前我们已经学习了怎么根据信息论的方法,把一个数据集从杂乱无章的数据集中划分出来,我们使用信息论来构建决策树一级一级分类的方法就是一个递归的过程。它的工作原理如下: 得到原始数据集,然后基于最好的属性值划分数据集。每一次划分数据集,我们都要消耗一个特征,根据某个特征将某些性质相同的元素剥离出来 划分数据的时候我们根据香农熵,计算信息增益之后找到最好的属性值进行数据的划分。原创 2016-07-29 14:12:30 · 6781 阅读 · 19 评论 -
决策树算法
1.背景知识在我们谈论决策树的时候我们先来玩一个游戏好咯。 2016年是奥运年,我最喜欢的两个运动员,(内心戏:当然是女的咯。因为我也是妹子,哈哈哈。)一个当然是女王隆达罗西,还有一个就是伊辛巴耶娃咯。好的,现在我们就来玩猜运动员的游戏。我在心里想一个运动员的名字,比如说就是伊辛巴耶娃。然后你有20次的提问机会,但是我只能回答你是还是不是这两种可能。我们可以这样对话: 你:原创 2016-07-29 23:04:28 · 4305 阅读 · 1 评论 -
TF-IDF模型的概率解释
转自cool shell信息检索概述信息检索是当前应用十分广泛的一种技术,论文检索、搜索引擎都属于信息检索的范畴。通常,人们把信息检索问题抽象为:在文档集合D上,对于由关键词w[1] … w[k]组成的查询串q,返回一个按查询q和文档d匹配度relevance(q, d)排序的相关文档列表D’。对于这一问题,先后出现了布尔模型、向量模型等各种经典的信息检索模型,它们从不同的角度提出了自己的一套解决方转载 2016-08-04 21:47:57 · 1694 阅读 · 0 评论 -
机器学习中常用到的知识点总结
写在前面的话都是什么鬼,为什么学校的洗手液和老板用的沐浴乳是一个味道的,我现在在敲代码,整个手上都弥漫着一股老板的味道,深深的恐惧感油然而生1.基本概念监督学习(supervised learning) 分类问题 数据是有标签的无监督学习 聚类问题, 数据没有标签监督学习一般使用两种类型的目标变量: 标称型 数值型标称型的目标变量的结果一般只在有限的数据集中取转载 2016-08-11 15:51:53 · 3131 阅读 · 2 评论 -
决策树算法(四)——选取最佳特征划分数据集
写在前面的话咦,好神奇,我今天发现我莫名其妙的成了小三。原来我被卖了还不知道,还帮人家宣传博客和微信公众账号。我放弃了自己规划好的人生,然后决定跟另一个在一起,然后发现原来他有女朋友。我今天有点头大哎。哈哈哈哈哈。原来被劈腿也会被我遇到呢。可怜了我这个系列的博客,写的这么好却没有人知道欣赏。就像我这么好,哈哈哈,我好不要脸,却。。。。如果您有任何地方看不懂的,那一定是我写的不好,请您告诉我,我会争取原创 2016-07-19 04:08:44 · 23070 阅读 · 30 评论