- 博客(210)
- 收藏
- 关注
原创 《机器学习》(周志华)第二章 模型评估与选择
AUC 越大,证明排序的质量越好,AUC 为 1 时,证明所有正例排在了负例的前面,AUC 为 0 时,所有的负例排在了正例的前面。显然,我们希望得到的是在新样本上表现得很好的学习器,即泛化误差小的学习器。,设定一个阈值,大于阈值为正例,小于阈值为负例,因此这个实值的好坏直接决定了学习器的泛化性能,若将这些实值排序,则。上面的方法中,将学习器的犯错同等对待,但在现实生活中,将正例预测成假例与将假例预测成正例的代价常常是不一样的。在非均等错误代价下,我们希望的是最小化“总体代价”,这样。
2025-06-09 16:35:07
907
原创 【论文阅读笔记】《A survey on deep learning approaches for text-to-SQL》
《A survey on deep learning approaches for text-to-SQL》阅读笔记
2025-06-07 11:30:16
849
1
原创 《机器学习》(周志华)第一章 绪论
其所研究的主要内容,是关于在计算机上从数据中产生“模型”(model)的算法,即“学习算法”(learning algorithm)。分类中又可分为二分类与多分类任务,二分类顾名思义,只需分2类,一般分别称为“正类”与“反类”,且一般正类用“1”表示,反类用“0”表示。信息,计算机需要自行寻找特征,将这些数据分为几个簇,然后将陌生的数据分到计算机自己划分的几个簇中的过程。信息,计算机通过学习这些训练数据,将未出现在训练样本中的陌生的数据分到已有的类别中的过程。一批关于某种事物的数据的集合称为一个。
2025-06-07 09:29:01
854
1
原创 【论文阅读笔记】Text-to-SQL Empowered by Large Language Models: A Benchmark Evaluation
本文系统评估了基于大型语言模型(LLM)的Text-to-SQL技术,提出新型框架DAIL-SQL,在Spider数据集上创下86.6%的执行准确率新纪录。研究比较了多种提示工程方法,包括问题表示和示例选择策略,并验证了开源LLM(如LLaMA、Vicuna)通过监督微调可达到与商用模型相当的性能。作者特别强调提示工程的token效率优化,指出当前研究在SQL生成正确性优先于查询效率、大规模数据库适应性等方面的局限。未来工作将探索更多规则提示、扩展训练数据,并研究高效SQL生成方法。
2025-06-04 18:01:52
1162
2
原创 【论文阅读】HEXGEN-TEXT2SQL: Optimizing LLM Inference Request Scheduling for Agentic Text-to-SQL Workflows
HEXGEN-TEXT2SQL: 异构GPU集群上优化多阶段Text-to-SQL工作流的LLM推理调度框架 本文提出HEXGEN-TEXT2SQL框架,针对异构GPU集群中多阶段LLM驱动的Text-to-SQL工作流调度问题。通过分层调度方法(全局负载均衡+局部紧急性优先级队列)和轻量级仿真优化超参数,系统显著提升资源利用率并降低SLO违规率。实验显示,相比vLLM基线,该框架将延迟缩短1.41倍,吞吐量提升1.65倍。不足在于复杂查询优化和多租户公平性保障有待改进,未来可结合查询分析和动态资源分配进一
2025-06-02 16:00:53
854
1
原创 5.28 孔老师 nlp讲座
本次讲座系统介绍了语言模型的发展与应用。内容涵盖:语言模型的起源(源于语音识别中的统计模型)与基本概念;N元语言模型及平滑技术解决零概率问题;神经网络在语言建模中的演进,从词向量到RNN;预训练模型(如GPT、BERT)及其跨领域应用。特别强调学生需掌握预训练模型基础以参与实验研究,并安排后续NLP应用分享。会议待办包括调整讲解时间及入学前知识准备要求。讲座展现了语言模型从传统统计方法到深度学习的技术演进脉络。
2025-05-29 11:43:37
670
原创 《深度学习入门》第 3 章 神经网络
神经网络基础与实现摘要 本章介绍了从感知机到神经网络的发展过程,重点阐述了激活函数的作用和神经网络的实现原理。主要内容包括: 神经网络基本结构:输入层、隐藏层和输出层,通过激活函数处理输入信号的总和 常用激活函数及其实现: 阶跃函数:简单二值输出 sigmoid函数:平滑输出(0,1),利于神经网络学习 ReLU函数:max(0,x),目前广泛使用 多维数组运算:使用np.dot()实现矩阵乘法,高效计算神经网络各层间传递 3层神经网络实现示例: 通过权重矩阵和偏置向量实现层间信号传递 使用sigmoid作
2025-05-29 11:14:46
706
原创 《深度学习入门》第2章 感知机
感知机是一种简单的二分类模型,通过权重和偏置对输入进行线性组合,并根据阈值判断输出。本文介绍了感知机的基本概念及其在逻辑电路中的应用,如与门、与非门和或门的实现。通过Python代码展示了如何用感知机实现这些逻辑门,并讨论了感知机的局限性,特别是无法直接实现异或门的问题。最后,通过组合多个感知机,构建了多层感知机,成功实现了异或门,展示了感知机在非线性问题中的扩展能力。
2025-05-21 10:23:34
442
原创 《深度学习入门》第1章
本文主要介绍了Python中NumPy和Matplotlib库的基本用法。NumPy部分涵盖了数组的生成、算术运算、多维数组的操作、广播功能以及元素的访问。Matplotlib部分则介绍了如何绘制简单图形、使用pyplot功能以及显示图像。通过这些基础操作,用户可以高效处理数值数据并进行可视化展示。文章还提供了相关代码示例和图片描述,帮助读者更好地理解和使用这些工具。
2025-05-21 10:23:09
281
原创 【python编程从入门到到实践】第九章类
本文介绍了Python中类的创建、使用、继承、导入以及编程风格。首先,类名应首字母大写,使用双下划线定义__init__方法。通过类可以创建实例,访问属性和调用方法。类可以继承父类,子类可以定义新属性和方法,并重写父类方法。类可以从模块中导入,支持导入单个类、多个类或整个模块。Python标准库提供了丰富的功能,如random模块的randint()函数。编程风格上,类名应首字母大写且不使用下划线,实例名和模块名应全小写并使用下划线,每个类定义后应添加文档字符串。
2025-05-16 15:40:39
620
原创 【python编程从入门到到实践】第八章 函数
本文介绍了Python中函数的基本使用和高级特性。首先,通过定义简单的函数greet_user展示了函数的基本结构。接着,讲解了如何向函数传递信息,并通过位置实参、关键字实参和默认值的方式传递参数。文章还介绍了函数的返回值,包括返回简单值、可选参数、字典以及结合while循环的使用。此外,讨论了如何传递列表,并避免函数修改原列表。最后,介绍了如何传递任意数量的实参,以及将函数存储在模块中并通过导入模块或特定函数来调用。这些内容涵盖了Python函数的基础和进阶用法,帮助读者更好地理解和使用函数。
2025-05-14 15:05:36
395
原创 【python编程从入门到到实践】第七章用户输入和while循环
本文介绍了Python中input()函数和while循环的基本用法。首先,input()函数用于获取用户输入,可以通过添加提示信息和使用int()函数将输入转换为数值。其次,while循环用于重复执行代码块,可以通过条件判断、标志变量、break和continue语句来控制循环的执行。此外,文章还展示了如何在while循环中处理列表和字典,包括移动列表元素、删除特定值的元素以及使用用户输入填充字典。这些技巧有助于编写更灵活和交互性强的Python程序。
2025-05-14 15:04:49
140
原创 如何读论文【论文精读】李沐老师视频笔记
李沐老师在视频《如何读论文【论文精读·1】》中分享了他高效阅读学术论文的方法。论文通常包括标题、摘要、导言、方法、实验和结论六个部分。李沐建议分三遍阅读论文:第一遍通过标题、摘要、结论和实验部分快速判断论文的相关性和质量;第二遍略读全文,关注关键图表和文献引用,理解论文的主要内容和结构;第三遍进行精读,深入理解每一句话和段落,思考如何应用或改进作者的方法。这种方法帮助读者快速筛选并深入理解学术论文,提高研究效率。
2025-05-11 17:00:56
373
原创 C语言【字符串转整型】
模仿 C 库函数 atoi(ASCII 到整数),编写一个函数,接收一个字符串,然后尝试将其解析并转换为整数。函数常用于需要在字符串中查找特定字符集合首次出现位置的场景,比如在解析文本时跳过不包含某些特定字符的部分。可以直接用atoi,或手动,如下。
2025-04-07 09:45:52
319
原创 【练习】PAT 乙 1088 三人行
本题给定甲、乙、丙三个人的能力值关系为:甲的能力值确定是 2 位正整数;把甲的能力值的 2 个数字调换位置就是乙的能力值;甲乙两人能力差是丙的能力值的 X 倍;乙的能力值是丙的 Y 倍。请你指出谁比你强应“从之”,谁比你弱应“改之”。在一行中首先输出甲的能力值,随后依次输出甲、乙、丙三人与你的关系:如果其比你强,输出 Cong;比你弱则输出 Gai。输入在一行中给出三个数,依次为:M(你自己的能力值)、X 和 Y。注意:如果解不唯一,则以甲的最大解为准进行判断;子曰:“三人行,必有我师焉。
2025-03-27 17:59:53
205
原创 【练习】PAT 乙 1087 有多少不同的值
当自然数 n 依次取 1、2、3、……、N 时,算式 ⌊n/2⌋+⌊n/3⌋+⌊n/5⌋ 有多少个不同的值?(注:⌊x⌋ 为取整函数,表示不超过 x 的最大自然数,即 x 的整数部分。输入给出一个正整数 N(2≤N≤10 4 )。在一行中输出题面中算式取到的不同值的个数。初始化一个大数组用来标记值是否已出现过。
2025-03-26 09:22:32
566
原创 【练习】PAT 乙 1086 就不告诉你
做作业的时候,邻座的小盆友问你:“五乘以七等于多少?”你应该不失礼貌地围笑着告诉他:“五十三。”本题就要求你,对任何一对给定的正整数,倒着输出它们的乘积。输入在第一行给出两个不超过 1000 的正整数 A 和 B,其间以空格分隔。在一行中倒着输出 A 和 B 的乘积。将结果转为字符串,逆置,再转回整型。
2025-03-25 16:23:42
525
原创 【练习】PAT 乙 1083 是否存在相等的差
给定 N 张卡片,正面分别写上 1、2、……、N,然后全部翻面,洗牌,在背面分别写上 1、2、……将每张牌的正反两面数字相减(大减小),得到 N 个非负差值,其中是否存在相等的差?输入第一行给出一个正整数 N(2 ≤ N ≤ 10 000),随后一行给出 1 到 N 的一个洗牌后的排列,第 i 个数表示正面写了 i 的那张卡片背面的数字。按照“差值 重复次数”的格式从大到小输出重复的差值及其重复的次数,每行输出一个结果。然后用哈希表映射按键值逆序存放。
2025-03-24 10:43:51
535
原创 【练习】PAT 乙 1082 射击比赛
ID x y 其中 ID 是运动员的编号(由 4 位数字组成);x 和 y 是其打出的弹洞的平面坐标(x,y),均为整数,且 0 ≤ |x|, |y| ≤ 100。题目保证每个运动员的编号不重复,且每人只打 1 枪。本题目给出的射击比赛的规则非常简单,谁打的弹洞距离靶心最近,谁就是冠军;谁差得最远,谁就是菜鸟。本题给出一系列弹洞的平面坐标(x,y),请你编写程序找出冠军和菜鸟。输入在第一行中给出一个正整数 N(≤ 10 000)。输出冠军和菜鸟的编号,中间空 1 格。题目保证他们是唯一的。
2025-03-20 18:38:29
393
原创 【练习】PAT 乙 1081 检查密码
输入第一行给出一个正整数 N(<=100),随后 N 行,每行给出一个用户设置的密码,为不超过80个字符的非空字符串,以回车结束。如果密码长度合法,但存在不合法字符,则输出“Your password is tai luan le.”;如果密码长度合法,但只有字母没有数字,则输出“Your password needs shu zi.”;如果密码长度合法,但只有数字没有字母,则输出“Your password needs zi mu.”。(题目只说了字符串不会是空的,但是没有说不会有空格。
2025-03-19 16:14:58
272
原创 【练习】PAT 乙 1079. 延迟的回文数 (20)
首先将该数字逆转,再将逆转数与该数相加,如果和还不是一个回文数,就重复这个逆转再相加的操作,直到一个回文数出现。如果一个非回文数可以变出回文数,就称这个数为延迟的回文数。其中A是原始的数字,B是A的逆转数,C是它们的和。A从输入的整数开始。重复操作直到C在10步以内变成回文数,这时在一行中输出“C is a palindromic number.”;或者如果10步都没能得到回文数,最后就在一行中输出“Not found in 10 iterations.”。对给定的整数,一行一行输出其变出回文数的过程。
2025-03-18 15:43:49
606
原创 【练习】PAT 乙 1078 字符串压缩与解压
就表示下面的字符串需要被解压。第二行给出需要被压缩或解压的不超过1000个字符的字符串,以回车结尾。文本压缩有很多种方法,这里我们只考虑最简单的一种:把由相同字符组成的一个连续的片段用这个字符和片段中含有这个字符的个数来表示。本题需要你根据压缩或解压的要求,对给定字符串进行处理。这里我们简单地假设原始字符串是完全由英文字母和空格组成的非空字符串。如果字符没有重复,就原样输出。输入第一行给出一个字符,如果是 C 就表示下面的字符串需要被压缩;根据要求压缩或解压字符串,并在一行中输出结果。
2025-03-17 10:51:53
667
原创 【练习】PAT 乙 1077 互评成绩计算
最后这个组的互评成绩是这样计算的:所有其他组的评分中,去掉一个最高分和一个最低分,剩下的分数取平均分记为 G1;老师给这个组的评分记为 G2。输入第一行给出两个正整数N(> 3)和M,分别是分组数和满分,均不超过100。随后N行,每行给出该组得到的N个分数(均保证为整型范围内的整数),其中第1个是老师给出的评分,后面 N-1 个是其他组给的评分。合法的输入应该是[0, M]区间内的整数,若不在合法区间内,则该分数须被忽略。题目保证老师的评分都是合法的,并且每个组至少会有3个来自同学的合法评分。
2025-03-16 10:21:49
729
原创 【练习】PAT 乙 1072 开学寄语
输入第一行给出两个正整数 N(≤ 1000)和 M(≤ 6),分别是学生人数和需要被查缴的物品种类数。第二行给出 M 个需要被查缴的物品编号,其中编号为 4 位数字。随后 N 行,每行给出一位学生的姓名缩写(由 1-4 个大写英文字母组成)、个人物品数量 K(0 ≤ K ≤ 10)、以及 K 个物品的编号。本题要求你写个程序帮助这所学校的老师检查所有学生的物品,以助其成大器。最后一行输出存在问题的学生的总人数和被查缴物品的总数。题目逻辑简单,注意输出格式就行,否则可能会影响测试点2。
2025-03-15 09:31:18
562
原创 【练习】PAT 乙 1071 小赌怡情
输入在第一行给出2个正整数T和K(<=100),分别是系统在初始状态下赠送给玩家的筹码数、以及需要处理的游戏次数。随后K行,每行对应一次游戏,顺序给出4个数字: n1 b t n2 其中n1和n2是计算机先后给出的两个[0, 9]内的整数,保证两个数字不相等。b为0表示玩家赌“小”,为1表示玩家赌“大”。若玩家猜对了,则系统奖励玩家t个筹码;输出格式: 对每一次游戏,根据下列情况对应输出(其中t是玩家下注量,x是玩家当前持有的筹码量): 玩家赢,输出。注意:玩家下注的筹码数不能超过自己帐户上拥有的筹码数。
2025-03-14 10:39:54
577
原创 【练习】PAT 乙 1070 结绳
给定一段一段的绳子,你需要把它们串成一条绳。每次串连的时候,是把两段绳子对折,再如下图所示套接在一起。这样得到的绳子又被当成是另一段绳子,可以再次对折去跟另一段绳子串连。每次串连后,原来两段绳子的长度就会减半。每个输入包含1个测试用例。每个测试用例第1行给出正整数N (2 <= N <= 10^4);第2行给出N个正整数,即原始绳段的长度,数字间以空格分隔。在一行中输出能够串成的绳子的最大长度。结果向下取整,即取为不超过最大长度的最近整数。给定N段绳子的长度,你需要找出它们能串成的绳子的最大长度。
2025-03-14 09:56:27
397
原创 【练习】1069 微博转发抽奖
1000)、N和S,分别是转发的总量、小明决定的中奖间隔、以及第一位中奖者的序号(编号从1开始)。随后M行,顺序给出转发微博的网友的昵称(不超过20个字符、不包含空格回车的非空字符串)。小明PAT考了满分,高兴之余决定发起微博转发抽奖活动,从转发的网友中按顺序每隔N个人就发出一个红包。注意:可能有人转发多次,但不能中奖多次。所以如果处于当前中奖位置的网友已经中过奖,则跳过他顺次取下一位。按照输入的顺序输出中奖名单,每个昵称占一行。搞了两小时不知道我的代码测试点3为什么过不了,网上和大模型也找不出错误。
2025-03-13 12:07:43
381
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人