- 博客(653)
- 收藏
- 关注
翻译 设计者手记思考 IDS-RAM_4_0:构建一个安全数据交换系统的分层哲学
最关键的是,卖数据的公司(数据所有者)能完全掌控自己的数据——谁能用、怎么用,都由卖家说了算(数据主权)。你能决定:谁能用(只给授权伙伴)、怎么用(只许分析,不许转卖)、用多久(比如临时授权)。这些项目就像一个庞大研究拼图的各个碎片,有的研究底层技术(怎么安全传数据),有的设计架构模型(系统该怎么搭),还有的构思实际应用场景(比如用在汽车供应链上)。* 软件公司们拿到 IDSA 制定的规则(标准)后,开始开发产品,比如制造符合标准的“IDS 连接器”(每个公司进出 IDS 集市的“数据闸门”)。
2025-06-12 17:42:12
2
原创 GMM sample question
:关于高斯混合模型(GMM),以下哪一说法是错误的?A. GMM考虑了数据的均值和方差。D. GMM的计算成本比K-均值低。B. GMM可以用EM算法求解。C. GMM是一种软聚类方法。
2025-05-17 01:00:00
454
原创 哪种策略可以减少参数模型的过拟合?
D. 使用二阶优化算法代替梯度下降或随机梯度下降。:1.6 哪种策略可以减少参数模型的过拟合?B. 在损失函数中添加正则化项。C. 考虑复杂的假设模型。A. 减少训练样本数量。
2025-05-16 00:24:09
272
原创 自学无果了,找到了stanford的SEE网站,万一将来想自学呢
一阶:E二阶的公开课程平台,主要提供该校计算机科学、电子工程、逻辑学等领域的课程资源。
2025-05-15 23:53:50
738
原创 如何快速区分confusion matrix的 precision 和 accuracy 和 Recall
要快速区分混淆矩阵中的 和 。
2025-05-15 23:42:38
659
原创 logistic regression sample question
真正弄懂逻辑回归模型,逻辑回归详解_哔哩哔哩_bilibili 选项A:选项B:选项C:选项D:
2025-05-15 23:38:18
119
原创 SVM tutorial
Lagrange duality 在下面这个的第5节,还有KKT,有点折磨了,感觉把large margin背了差不多了,这分暂时不要也罢。SVM large margin 推导:(下面这个第一个视频讲的很牛)
2025-05-15 23:03:54
222
原创 Tree-based Methods:Classifcation Tree
如果另一个属性“形状”的信息增益更大(比如0.3),则优先选“形状”作为根节点。你的第二张图题目要求用熵方法选根节点属性(比如颜色、形状、大小)。(你第一张图的公式)本质上在计算这种“混乱程度”,数学上通过。想象你有一筐混杂的红苹果和青苹果(二分类问题)。
2025-05-15 20:08:26
754
原创 Performance Evaluation
在二分类任务中,阈值用于将模型输出的概率或分数转化为分类结果(正类/负类)。调整阈值会直接影响混淆矩阵中的。:模型在所有正负对上都能正确区分——无一失误。,从而改变模型的性能指标。:正例得分通常比负例高,模型比瞎猜强。:如何通过K折交叉验证调整超参数?:和你随便猜(相当于抛硬币)没差别。
2025-05-15 19:00:32
684
原创 Data - Review
本文解析了人工智能基础课程中的核心内容,重点围绕“数据”展开,涵盖了数据的定义、测量、探索和挖掘等关键概念。课程从数据的基本定义(如什么是数据)入手,逐步介绍了数据处理方法(如聚类、回归)和数据挖掘技术,形成完整的知识链。此外,文中还探讨了数据的类型(如数值型、分类型)、属性分类(如名义属性、序数属性)以及数据可视化工具(如条形图、词云等)。通过通俗易懂的解释和示例,帮助读者理解数据在人工智能中的重要性,并提供了相关的复习题以巩固知识点。总结部分强调了数据是AI的基础,正确区分属性类型对数据分析方法的选择至
2025-05-15 00:22:26
798
原创 PCA -Review
主成分分析(Principal Component Analysis,简称PCA)是一种统计方法,用于降维和特征提取。PCA广泛应用于图像处理、基因表达分析和金融数据分析等领域。PCA对异常值和非线性关系敏感,可能需要数据预处理。PCA的目标是最大化数据在新坐标轴上的方差,即。PCA可以用于数据可视化、噪声去除和特征提取。PCA假设数据的变化主要沿着少数几个方向发生。,第二主成分具有次大的方差,以此类推。,这些主成分捕捉了数据中最重要的变化。PCA是一种线性变换技术,用于将。
2025-05-14 20:24:03
182
原创 CNN _INTRO
卷积:局部探针,提取细节特征(像放大镜找线索)。池化:信息压缩,保留核心特征(像整理线索去冗余)。两者结合:构成CNN(卷积神经网络)的核心,让AI像人类一样“观察→思考→总结”。合并要点:局部感受野参数共享⇒ 控制参数规模,同时保留空间信息。零填充小滤波器⇒ 多层卷积后还能保持图像尺寸,方便深度堆叠。滑动窗口运算本质是向量的点积加偏置,简单而高效。卷积示例帮助理解单步操作:每次窗口移动产生一个数字,最终形成特征图。
2025-05-14 19:33:12
687
原创 CNN Receptive Field
这句话的意思是,在卷积神经网络中,每一层都会扩大其感受野(即网络能够"观察"到的输入图像范围)。根据公式计算,当网络层数L=7时,感受野大小r₀ = 2×7+1 = 15像素,这就意味着网络此时才能感知到宽度为15像素的数字。这也是深度学习模型需要多层结构来识别复杂模式的原因之一。
2025-05-14 17:53:10
213
原创 Deep Learning Intro
局部泛化:传统方法像“盲人摸象”,只能理解零散特征逐层抽象:深度学习像“搭积木”,从简单零件逐步构建完整认知本质突破:通过多层非线性变换,模型能从数据中自动发现规律,实现从“看到”到“理解”的跨越自动特征学习:从“像素打桩机”到“语义检测器”,一条龙服务。逐层抽象:深度网络天然对应人脑多层视觉加工机制。端到端:不拆分特征提取和分类,训练一个网络就能学到完整流程。
2025-05-14 16:46:24
617
原创 BP -1
ADALINE 的全称是。输入信号和目标输出都采用编码(如 −1-1 / +1+1)。:网络多层结构中,只有隐藏层 ADALINE 单元的权重会学习更新;输出层的连接权重保持固定。存在一个(bias),它和其它权重一样可以调整。激活函数是:通过最小化所有输出单元的其中总误差:ADALINE 不经过硬阈值,保留连续信号,适合回归或当作BP的隐藏层。:利用经典的梯度下降(delta 规则)来缩小预测(加权和)与真实值之间的平方差。
2025-05-14 15:38:21
823
原创 Review 神经网络概述
所以图片底部那句话"通过多个隐藏层,增加非线性转换次数",就是说让这些"煎饼师傅"多折腾几轮,才能做出让AI吃货满意的复杂美味。👉 每个师傅不只是简单传递食材(像普通流水线),还会"捣蛋":比如有的师傅把面糊摊成圆形,有的故意戳破气泡,有的把油条摆成花样——这就是"非线性转换"👉 师傅越多(隐藏层越多),能玩的花样就越复杂:可以发明天妇罗煎饼、榴莲煎饼、甚至会拉丝的芝士煎饼。2️⃣ 中间的小圆圈是师傅们(隐藏层):每个师傅负责不同工序——摊面糊、打鸡蛋、炸油条...:这就是神经网络成功的秘诀了。
2025-05-14 15:14:26
652
原创 回顾Loss Function
高斯分布(Gaussian distribution),也称为正态分布(Normal distribution)或钟形曲线,是一种连续概率分布,其特点是呈现出对称的钟形曲线。这种分布在自然界和社会科学中极为常见。μ(均值):分布的中心位置σ²(方差)或σ(标准差):分布的宽度或离散程度数学表达式为:图片中展示了卡尔·弗里德里希·高斯(1777-1855)的贡献,特别是他关于概率的定义主要体现在:误差理论:高斯提出了测量误差服从正态分布的理论。
2025-05-14 14:55:45
370
原创 ANN & Some Review
Hebb Net 定义单层前馈神经网络,使用扩展的 Hebb 规则训练。Application 1:实现 AND 函数(二值输入与目标)输入向量 (x1,x2,1)(x_1,x_2,1),目标输出(target)为 1 或 0。对每条样本,用 Δwi=xi y\Delta w_i = x_i\,y、Δb=y\Delta b=y 更新权重,反复迭代直到收敛。
2025-05-14 14:30:12
987
原创 Network Flow
切断水管,保留那些即便保留也能阻断的。类似简单算法,但是一定能找到最大流。Residual 称为 空闲量。饱和的移除,进入第二轮循环。
2025-05-13 22:29:46
215
原创 DP3 Parenthesization Longestt common subsequence Activity scheduling TSP
先把所有活动按结束时间排好序(马上下课的排在前面),这样做方便决定“抢先占用最早空闲的教室”。注意它们的时间互不重叠。
2025-05-13 16:39:38
286
原创 DP2 Rod + Text
一个整体 → 划分成多个部分每种“划分方案”都有代价或价值找一种最优划分(最大收益或最小代价)也就是说,它们都是:把一个长度为 n 的东西切成若干段,段的组合方式很多,但只有一组划分是最优的特征输入一根长度为n的木棒一个有n个单词的文本决策(guess)从哪一段长度切一刀从哪一个单词断行子问题剩下的n-i长度木棒的最大收益剩下的从j到n-1的单词的最小badness最优结构性质当前切法 + 最优剩下段收益当前断行 + 剩下段文字的最优badness状态转移(DP公式)目标。
2025-05-13 15:15:47
818
原创 DP1 floydwarshall
方法类比Naive递归爬树,每条路径都要走一遍,很慢爬树时做记号,下次遇到就查表Bottom-up干脆别爬树了,从地面一层层搭上去。
2025-05-13 12:09:13
775
原创 Greedy
在一个无向图中,连通分量是一个“最大的子图”,在这个子图中,任意两个节点都有路径相连,并且这个子图与图中其他节点不再相连。连通分量 = 图中互相能到达的一群节点组成的区域切割性质告诉我们:「安全选边就看最轻横切边」,你可以放心地把它加入 MST。这是贪心选择策略背后的理论依据。Union-Find(并查集)是一种数据结构两个元素是不是在同一个集合里?把两个集合合并成一个集合。并查集,三件事:初始化,找代表,合并集;Kruskal 判断成不成环,靠的就是它!初始化:O(n)
2025-05-13 10:12:54
543
原创 KNN SVM PCA SRC
你可以把 KNN 想象成“看邻居选归属”的算法:你搬到一个新小区,想知道你是被归为“打篮球的群体”还是“下围棋的群体”?你就看看你周围的 K 个邻居里谁最多,如果 3 个邻居里有 2 个爱下围棋,那你大概率也被归到这个圈子!“分类”其实就像你第一次见一个人,虽然你不知道他是谁,但你会根据他穿的衣服、说话口音、走路姿势来判断他是不是某个学校/社团/兴趣小组的。我们教“计算机”也这么干:用已经知道身份的样本(训练集)来训练它,之后它就能“靠特征猜身份”了。KNN 就像是“你是和谁最像的?
2025-05-12 23:01:36
949
原创 Dimensionality Reduction
PCA 就像一个聪明的压缩师傅,它会压缩你手里的数据:保留最重要的信息,去掉重复的东西,还能让你以后有可能把原来的信息大致恢复回来。方差(variance)衡量的是数据的发散程度。在一组数中,如果数值变化大,说明它们差异大、信息量也大;如果都差不多,那信息就比较“平”。概念直觉解释与 PCA 的关系方差大说明有变化、有信息PCA专挑这种方向来保留信息不相关不重复,独立的内容PCA找出的主轴彼此独立,信息无重复最小重建误差压缩后还原尽可能接近原图PCA提供误差最小的子空间。
2025-05-12 17:56:23
1087
原创 Pattern Recognition
👉这一部分讲的是“模式”到底是什么。你可以把“模式”想象成一种能反复出现的规律。比如:斑马身上的条纹,是视觉模式;你的声音,是音频模式;一个化学分子结构,是逻辑或结构模式。不管是彩虹、脚印,还是条形码,它们本质上都是一种有形、有规律、可以测量的“东西”。学 AI 的第一步,就是让机器“看懂”这些模式——不论是照片、声音、还是行为!很多时候,一个东西会因为角度不一样、大小不一样、位置不同而“变形”了,但我们人脑还是能认出来它是什么。
2025-05-12 16:19:05
1155
原创 Dijkstra & A*
初始化两端距离和 μ交替弹出各自队列里最小 dist 的节点,做松弛每次如果两边访问到了同一个节点,就尝试更新 μ检查前向最小 + 后向最小 ≥ μ,就可以退出重建路径:从相遇点 y 往前、往后拼起来这样就能比单向 Dijkstra 更早“相遇”并停下来,节省一部分工作量。深入探讨 A* 搜索算法的一个重要变种——使用势函数 h(.) 的 A* 算法。这是一个在人工智能和路径规划中非常实用的主题,请大家集中注意力,我会尽量用简单的语言解释清楚。
2025-05-11 23:29:47
869
原创 DAGS & Dijkstra‘s algorithm
如果我们按某个从“源头到尾部”的顺序处理每个点(拓扑序),那么每次 relax 入边的时候,所有前置点的最短路径值已经确定好了!而 Bellman-Ford 不知道正确顺序,所以要对所有边反复 relax,直到稳定为止(最多 V-1 轮)。负权边可能会让后面发现更短的路径,Dijkstra 以为之前是最短的就“封锁”了,不再更新,导致结果错误。负权边可能会让后面发现更短的路径,Dijkstra 以为之前是最短的就“封锁”了,不再更新,导致结果错误。你刚才理解的是正确的。你刚才理解的是正确的。
2025-05-11 22:09:22
702
原创 Bellman-Ford
更新”指的是:我们发现了从起点到某个点更短的新路径,就用它来替换原来的路径长度。就像你查地图,原来以为开车去 B 要 10 公里,现在发现走 C 再转 B 只要 8 公里 ——那就更新成 8 公里。把所有点的最短距离设为 ∞,起点为 0;不断尝试所有边,看是否能让某个点的距离变短(如果能,就更新);最多做V - 1次(图中点数是 V);最后再多检查一遍是否还能更新,如果能 —— 存在负权环。当然可以!下面是Bellman-Ford 算法的具体思路与解析,适合刚开始学图算法的你,通俗又系统👇。
2025-05-11 19:24:34
584
原创 Approximation
一些问题(如 Knapsack)有非常强的近似解法,几乎可以任意接近最优。有些问题虽然不能完全精确解,但仍然有固定比例的近似保证(比如顶点覆盖)。更难的问题(如 Set Cover)只能给出越来越差的近似解。最难的是某些问题根本无法有效近似,比如普通 TSP——想找一个「不错」的解都很难。MST ≤ OPTH ≤ R所以H ≤ 2×OPT⇒ 是一个2-approximation 算法。
2025-05-11 18:35:59
552
原创 Branch and bound + local search
当前路径看起来都比我已知最优还差,那我就不走了!在 TSP 的过程中,你可以对当前路径计算下界。如果这个下界已经比当前最优路径还差,那你就可以安全地剪掉这个分支。Branch and Bound 就是:尝试所有可能的解,但用“下界”快速剪掉不值得继续探索的路径,从而避免爆炸性搜索。局部搜索是一种渐进式优化算法,非常适合处理 NP 难问题。它灵活、简单,但可能会陷入局部最优。改进方式是增加邻居范围。直观地解释 2-change 和 3-change 是在“换边”干什么。
2025-05-11 17:21:03
599
原创 Coping with NP-completeness:Backtracking
把寻找解的过程想成在迷宫中找出口。回溯法就像探路一样,一条路发现是死路就回头换路,而不是所有路都走到底。所以虽然“理论上还是指数时间”,但剪枝能大幅减少探索路径。Backtracking 解 SAT 就是用 DFS + 剪枝的方式探索解空间,本质上是枚举+验证。和 concolic execution 类似,它也会动态展开搜索路径,但 concolic 更注重程序路径、符号执行、约束求解器来生成满足路径的输入。图中一共有两页(搜索树),每页通过颜色和文字重点强调了以下几个核心概念情况子句内容。
2025-05-11 01:24:38
311
原创 examples of P-reductions
给定一个无向图 G和一个正整数k是否能用 k 种颜色给图的所有顶点染色,且相邻的两个点颜色不同?Clique(团)是图中一个顶点的子集,它们之间每两个点都有边连接,也就是形成一个完全图。比如:顶点子集是一个 4-clique,因为它里面任意两个点之间都有边。在一个无向图中,是一组点,它们之间互相没有边连接,即:任意两个点都不相邻。
2025-05-11 00:59:52
947
原创 Complexity:(NP-completeness theory)
问题的答案是“是 / 否(yes/no)”的类型。例子:Hamiltonian Cycle Problem给一个图,是否存在一个“访问每个点恰好一次”的回路?✅ 答案是 yes 或 no →判定问题要求找到最小值 / 最大值的解,而不仅仅是“有没有解”。例子:旅行商问题(TSP)给一个带权图,找出访问所有城市恰好一次、且总代价最小的路径。不是 yes/no,而是找出最优路径→优化问题复杂度理论(比如)都是以“判定问题”为基础建立的。这是因为:判定问题的输出格式固定(yes/no),更容易统一分析。
2025-05-10 23:43:56
906
原创 ML L1 Review
i.i.d. 是 "Independent and Identically Distributed" 的缩写,中文叫做“独立同分布”假设。Independent(独立)每个样本之间互不影响,比如你调查一堆学生的成绩,假设每个人的成绩都是“独立生成的”。Identically Distributed(同分布)每个样本都来自相同的概率分布。也就是说,不管是训练集还是测试集,数据的结构、规律是一样的。
2025-05-09 17:19:04
800
R smoking-and-drug-use-amongst-English-pupils
2024-03-06
Environment-Setup-Guide-24.pdf
2024-01-18
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人