EricWang1358-CSDN博客

翻译设计者手记思考 IDS-RAM_4_0：构建一个安全数据交换系统的分层哲学

最关键的是，卖数据的公司（数据所有者）能完全掌控自己的数据——谁能用、怎么用，都由卖家说了算（数据主权）。你能决定：谁能用（只给授权伙伴）、怎么用（只许分析，不许转卖）、用多久（比如临时授权）。这些项目就像一个庞大研究拼图的各个碎片，有的研究底层技术（怎么安全传数据），有的设计架构模型（系统该怎么搭），还有的构思实际应用场景（比如用在汽车供应链上）。* 软件公司们拿到 IDSA 制定的规则（标准）后，开始开发产品，比如制造符合标准的“IDS 连接器”（每个公司进出 IDS 集市的“数据闸门”）。

2025-06-12 17:42:12 2

原创 ILP Sample

分支定界法是解决整数线性规划问题的有效算法，其核心思想是通过递归分割问题空间并结合上下界信息来排除不可能包含最优解的分支。

2025-05-30 18:29:50 810

原创 GMM sample question

：关于高斯混合模型（GMM），以下哪一说法是错误的？A. GMM考虑了数据的均值和方差。D. GMM的计算成本比K-均值低。B. GMM可以用EM算法求解。C. GMM是一种软聚类方法。

2025-05-17 01:00:00 454

原创 overfitting -hidden sample question with logistic regression

2025-05-16 01:21:56 185

原创哪种策略可以减少参数模型的过拟合？

D. 使用二阶优化算法代替梯度下降或随机梯度下降。：1.6 哪种策略可以减少参数模型的过拟合？B. 在损失函数中添加正则化项。C. 考虑复杂的假设模型。A. 减少训练样本数量。

2025-05-16 00:24:09 272

原创自学无果了，找到了stanford的SEE网站，万一将来想自学呢

一阶：E二阶的公开课程平台，主要提供该校计算机科学、电子工程、逻辑学等领域的课程资源。

2025-05-15 23:53:50 738

原创如何快速区分confusion matrix的 precision 和 accuracy 和 Recall

要快速区分混淆矩阵中的和。

2025-05-15 23:42:38 659

原创 logistic regression sample question

真正弄懂逻辑回归模型，逻辑回归详解_哔哩哔哩_bilibili 选项A：选项B：选项C：选项D：

2025-05-15 23:38:18 119

原创 SVM tutorial

Lagrange duality 在下面这个的第5节，还有KKT,有点折磨了，感觉把large margin背了差不多了，这分暂时不要也罢。SVM large margin 推导：（下面这个第一个视频讲的很牛）

2025-05-15 23:03:54 222

原创 Bias Variance Noise MSE

下图通过，生动展示了偏差（Bias）与方差（Variance）对机器学习模型误差的影响。

2025-05-15 22:06:07 732

原创 k-means 聚类中影响结果的因素

。

2025-05-15 20:26:21 766

原创 Tree-based Methods：Classifcation Tree

如果另一个属性“形状”的信息增益更大（比如0.3），则优先选“形状”作为根节点。你的第二张图题目要求用熵方法选根节点属性（比如颜色、形状、大小）。（你第一张图的公式）本质上在计算这种“混乱程度”，数学上通过。想象你有一筐混杂的红苹果和青苹果（二分类问题）。

2025-05-15 20:08:26 754

原创 Performance Evaluation

在二分类任务中，阈值用于将模型输出的概率或分数转化为分类结果（正类/负类）。调整阈值会直接影响混淆矩阵中的。：模型在所有正负对上都能正确区分——无一失误。，从而改变模型的性能指标。：正例得分通常比负例高，模型比瞎猜强。：如何通过K折交叉验证调整超参数？：和你随便猜（相当于抛硬币）没差别。

2025-05-15 19:00:32 684

原创 Data - Review

本文解析了人工智能基础课程中的核心内容，重点围绕“数据”展开，涵盖了数据的定义、测量、探索和挖掘等关键概念。课程从数据的基本定义（如什么是数据）入手，逐步介绍了数据处理方法（如聚类、回归）和数据挖掘技术，形成完整的知识链。此外，文中还探讨了数据的类型（如数值型、分类型）、属性分类（如名义属性、序数属性）以及数据可视化工具（如条形图、词云等）。通过通俗易懂的解释和示例，帮助读者理解数据在人工智能中的重要性，并提供了相关的复习题以巩固知识点。总结部分强调了数据是AI的基础，正确区分属性类型对数据分析方法的选择至

2025-05-15 00:22:26 798

原创 PCA -Review

主成分分析（Principal Component Analysis，简称PCA）是一种统计方法，用于降维和特征提取。PCA广泛应用于图像处理、基因表达分析和金融数据分析等领域。PCA对异常值和非线性关系敏感，可能需要数据预处理。PCA的目标是最大化数据在新坐标轴上的方差，即。PCA可以用于数据可视化、噪声去除和特征提取。PCA假设数据的变化主要沿着少数几个方向发生。，第二主成分具有次大的方差，以此类推。，这些主成分捕捉了数据中最重要的变化。PCA是一种线性变换技术，用于将。

2025-05-14 20:24:03 182

原创 CNN _INTRO

卷积：局部探针，提取细节特征（像放大镜找线索）。池化：信息压缩，保留核心特征（像整理线索去冗余）。两者结合：构成CNN（卷积神经网络）的核心，让AI像人类一样“观察→思考→总结”。合并要点：局部感受野参数共享⇒ 控制参数规模，同时保留空间信息。零填充小滤波器⇒ 多层卷积后还能保持图像尺寸，方便深度堆叠。滑动窗口运算本质是向量的点积加偏置，简单而高效。卷积示例帮助理解单步操作：每次窗口移动产生一个数字，最终形成特征图。

2025-05-14 19:33:12 687

原创 CNN Receptive Field

这句话的意思是，在卷积神经网络中，每一层都会扩大其感受野（即网络能够"观察"到的输入图像范围）。根据公式计算，当网络层数L=7时，感受野大小r₀ = 2×7+1 = 15像素，这就意味着网络此时才能感知到宽度为15像素的数字。这也是深度学习模型需要多层结构来识别复杂模式的原因之一。

2025-05-14 17:53:10 213

原创 Deep Learning Intro

局部泛化：传统方法像“盲人摸象”，只能理解零散特征逐层抽象：深度学习像“搭积木”，从简单零件逐步构建完整认知本质突破：通过多层非线性变换，模型能从数据中自动发现规律，实现从“看到”到“理解”的跨越自动特征学习：从“像素打桩机”到“语义检测器”，一条龙服务。逐层抽象：深度网络天然对应人脑多层视觉加工机制。端到端：不拆分特征提取和分类，训练一个网络就能学到完整流程。

2025-05-14 16:46:24 617

原创 BP -1

ADALINE 的全称是。输入信号和目标输出都采用编码（如 −1-1 / +1+1）。：网络多层结构中，只有隐藏层 ADALINE 单元的权重会学习更新；输出层的连接权重保持固定。存在一个（bias），它和其它权重一样可以调整。激活函数是：通过最小化所有输出单元的其中总误差：ADALINE 不经过硬阈值，保留连续信号，适合回归或当作BP的隐藏层。：利用经典的梯度下降（delta 规则）来缩小预测（加权和）与真实值之间的平方差。

2025-05-14 15:38:21 823

原创 Review 神经网络概述

所以图片底部那句话"通过多个隐藏层，增加非线性转换次数"，就是说让这些"煎饼师傅"多折腾几轮，才能做出让AI吃货满意的复杂美味。👉 每个师傅不只是简单传递食材（像普通流水线），还会"捣蛋"：比如有的师傅把面糊摊成圆形，有的故意戳破气泡，有的把油条摆成花样——这就是"非线性转换"👉 师傅越多（隐藏层越多），能玩的花样就越复杂：可以发明天妇罗煎饼、榴莲煎饼、甚至会拉丝的芝士煎饼。2️⃣ 中间的小圆圈是师傅们（隐藏层）：每个师傅负责不同工序——摊面糊、打鸡蛋、炸油条...：这就是神经网络成功的秘诀了。

2025-05-14 15:14:26 652

原创回顾Loss Function

高斯分布（Gaussian distribution），也称为正态分布（Normal distribution）或钟形曲线，是一种连续概率分布，其特点是呈现出对称的钟形曲线。这种分布在自然界和社会科学中极为常见。μ（均值）：分布的中心位置σ²（方差）或σ（标准差）：分布的宽度或离散程度数学表达式为：图片中展示了卡尔·弗里德里希·高斯（1777-1855）的贡献，特别是他关于概率的定义主要体现在：误差理论：高斯提出了测量误差服从正态分布的理论。

2025-05-14 14:55:45 370

原创 ANN & Some Review

Hebb Net 定义单层前馈神经网络，使用扩展的 Hebb 规则训练。Application 1：实现 AND 函数（二值输入与目标）输入向量 (x1,x2,1)(x_1,x_2,1)，目标输出（target）为 1 或 0。对每条样本，用 Δwi=xi y\Delta w_i = x_i\,y、Δb=y\Delta b=y 更新权重，反复迭代直到收敛。

2025-05-14 14:30:12 987

原创 Network Flow

切断水管，保留那些即便保留也能阻断的。类似简单算法，但是一定能找到最大流。Residual 称为空闲量。饱和的移除，进入第二轮循环。

2025-05-13 22:29:46 215

原创 DP3 Parenthesization Longestt common subsequence Activity scheduling TSP

先把所有活动按结束时间排好序（马上下课的排在前面），这样做方便决定“抢先占用最早空闲的教室”。注意它们的时间互不重叠。

2025-05-13 16:39:38 286

原创 DP2 Rod + Text

一个整体 → 划分成多个部分每种“划分方案”都有代价或价值找一种最优划分（最大收益或最小代价）也就是说，它们都是：把一个长度为 n 的东西切成若干段，段的组合方式很多，但只有一组划分是最优的特征输入一根长度为n的木棒一个有n个单词的文本决策（guess）从哪一段长度切一刀从哪一个单词断行子问题剩下的n-i长度木棒的最大收益剩下的从j到n-1的单词的最小badness最优结构性质当前切法 + 最优剩下段收益当前断行 + 剩下段文字的最优badness状态转移（DP公式）目标。

2025-05-13 15:15:47 818

原创 DP1 floydwarshall

方法类比Naive递归爬树，每条路径都要走一遍，很慢爬树时做记号，下次遇到就查表Bottom-up干脆别爬树了，从地面一层层搭上去。

2025-05-13 12:09:13 775

原创 Greedy

在一个无向图中，连通分量是一个“最大的子图”，在这个子图中，任意两个节点都有路径相连，并且这个子图与图中其他节点不再相连。连通分量 = 图中互相能到达的一群节点组成的区域切割性质告诉我们：「安全选边就看最轻横切边」，你可以放心地把它加入 MST。这是贪心选择策略背后的理论依据。Union-Find（并查集）是一种数据结构两个元素是不是在同一个集合里？把两个集合合并成一个集合。并查集，三件事：初始化，找代表，合并集；Kruskal 判断成不成环，靠的就是它！初始化：O(n)

2025-05-13 10:12:54 543

原创 KNN SVM PCA SRC

你可以把 KNN 想象成“看邻居选归属”的算法：你搬到一个新小区，想知道你是被归为“打篮球的群体”还是“下围棋的群体”？你就看看你周围的 K 个邻居里谁最多，如果 3 个邻居里有 2 个爱下围棋，那你大概率也被归到这个圈子！“分类”其实就像你第一次见一个人，虽然你不知道他是谁，但你会根据他穿的衣服、说话口音、走路姿势来判断他是不是某个学校/社团/兴趣小组的。我们教“计算机”也这么干：用已经知道身份的样本（训练集）来训练它，之后它就能“靠特征猜身份”了。KNN 就像是“你是和谁最像的？

2025-05-12 23:01:36 949

原创 Dimensionality Reduction

PCA 就像一个聪明的压缩师傅，它会压缩你手里的数据：保留最重要的信息，去掉重复的东西，还能让你以后有可能把原来的信息大致恢复回来。方差（variance）衡量的是数据的发散程度。在一组数中，如果数值变化大，说明它们差异大、信息量也大；如果都差不多，那信息就比较“平”。概念直觉解释与 PCA 的关系方差大说明有变化、有信息PCA专挑这种方向来保留信息不相关不重复，独立的内容PCA找出的主轴彼此独立，信息无重复最小重建误差压缩后还原尽可能接近原图PCA提供误差最小的子空间。

2025-05-12 17:56:23 1087

原创 Pattern Recognition

👉这一部分讲的是“模式”到底是什么。你可以把“模式”想象成一种能反复出现的规律。比如：斑马身上的条纹，是视觉模式；你的声音，是音频模式；一个化学分子结构，是逻辑或结构模式。不管是彩虹、脚印，还是条形码，它们本质上都是一种有形、有规律、可以测量的“东西”。学 AI 的第一步，就是让机器“看懂”这些模式——不论是照片、声音、还是行为！很多时候，一个东西会因为角度不一样、大小不一样、位置不同而“变形”了，但我们人脑还是能认出来它是什么。

2025-05-12 16:19:05 1155

原创 Dijkstra & A*

初始化两端距离和 μ交替弹出各自队列里最小 dist 的节点，做松弛每次如果两边访问到了同一个节点，就尝试更新 μ检查前向最小 + 后向最小 ≥ μ，就可以退出重建路径：从相遇点 y 往前、往后拼起来这样就能比单向 Dijkstra 更早“相遇”并停下来，节省一部分工作量。深入探讨 A* 搜索算法的一个重要变种——使用势函数 h(.) 的 A* 算法。这是一个在人工智能和路径规划中非常实用的主题，请大家集中注意力，我会尽量用简单的语言解释清楚。

2025-05-11 23:29:47 869

原创 DAGS & Dijkstra‘s algorithm

如果我们按某个从“源头到尾部”的顺序处理每个点（拓扑序），那么每次 relax 入边的时候，所有前置点的最短路径值已经确定好了！而 Bellman-Ford 不知道正确顺序，所以要对所有边反复 relax，直到稳定为止（最多 V-1 轮）。负权边可能会让后面发现更短的路径，Dijkstra 以为之前是最短的就“封锁”了，不再更新，导致结果错误。负权边可能会让后面发现更短的路径，Dijkstra 以为之前是最短的就“封锁”了，不再更新，导致结果错误。你刚才理解的是正确的。你刚才理解的是正确的。

2025-05-11 22:09:22 702

原创 Bellman-Ford

更新”指的是：我们发现了从起点到某个点更短的新路径，就用它来替换原来的路径长度。就像你查地图，原来以为开车去 B 要 10 公里，现在发现走 C 再转 B 只要 8 公里 ——那就更新成 8 公里。把所有点的最短距离设为 ∞，起点为 0；不断尝试所有边，看是否能让某个点的距离变短（如果能，就更新）；最多做V - 1次（图中点数是 V）；最后再多检查一遍是否还能更新，如果能 —— 存在负权环。当然可以！下面是Bellman-Ford 算法的具体思路与解析，适合刚开始学图算法的你，通俗又系统👇。

2025-05-11 19:24:34 584

原创 Approximation

一些问题（如 Knapsack）有非常强的近似解法，几乎可以任意接近最优。有些问题虽然不能完全精确解，但仍然有固定比例的近似保证（比如顶点覆盖）。更难的问题（如 Set Cover）只能给出越来越差的近似解。最难的是某些问题根本无法有效近似，比如普通 TSP——想找一个「不错」的解都很难。MST ≤ OPTH ≤ R所以H ≤ 2×OPT⇒ 是一个2-approximation 算法。

2025-05-11 18:35:59 552

原创 Branch and bound + local search

当前路径看起来都比我已知最优还差，那我就不走了！在 TSP 的过程中，你可以对当前路径计算下界。如果这个下界已经比当前最优路径还差，那你就可以安全地剪掉这个分支。Branch and Bound 就是：尝试所有可能的解，但用“下界”快速剪掉不值得继续探索的路径，从而避免爆炸性搜索。局部搜索是一种渐进式优化算法，非常适合处理 NP 难问题。它灵活、简单，但可能会陷入局部最优。改进方式是增加邻居范围。直观地解释 2-change 和 3-change 是在“换边”干什么。

2025-05-11 17:21:03 599

原创 Coping with NP-completeness：Backtracking

把寻找解的过程想成在迷宫中找出口。回溯法就像探路一样，一条路发现是死路就回头换路，而不是所有路都走到底。所以虽然“理论上还是指数时间”，但剪枝能大幅减少探索路径。Backtracking 解 SAT 就是用 DFS + 剪枝的方式探索解空间，本质上是枚举+验证。和 concolic execution 类似，它也会动态展开搜索路径，但 concolic 更注重程序路径、符号执行、约束求解器来生成满足路径的输入。图中一共有两页（搜索树），每页通过颜色和文字重点强调了以下几个核心概念情况子句内容。

2025-05-11 01:24:38 311

原创 examples of P-reductions

给定一个无向图 G和一个正整数k是否能用 k 种颜色给图的所有顶点染色，且相邻的两个点颜色不同？Clique（团）是图中一个顶点的子集，它们之间每两个点都有边连接，也就是形成一个完全图。比如：顶点子集是一个 4-clique，因为它里面任意两个点之间都有边。在一个无向图中，是一组点，它们之间互相没有边连接，即：任意两个点都不相邻。

2025-05-11 00:59:52 947

原创 Complexity：（NP-completeness theory）

问题的答案是“是 / 否（yes/no）”的类型。例子：Hamiltonian Cycle Problem给一个图，是否存在一个“访问每个点恰好一次”的回路？✅ 答案是 yes 或 no →判定问题要求找到最小值 / 最大值的解，而不仅仅是“有没有解”。例子：旅行商问题（TSP）给一个带权图，找出访问所有城市恰好一次、且总代价最小的路径。不是 yes/no，而是找出最优路径→优化问题复杂度理论（比如）都是以“判定问题”为基础建立的。这是因为：判定问题的输出格式固定（yes/no），更容易统一分析。

2025-05-10 23:43:56 906

原创 ML L2 Review

2025-05-09 18:44:24 87

原创 ML L1 Review

i.i.d. 是 "Independent and Identically Distributed" 的缩写，中文叫做“独立同分布”假设。Independent（独立）每个样本之间互不影响，比如你调查一堆学生的成绩，假设每个人的成绩都是“独立生成的”。Identically Distributed（同分布）每个样本都来自相同的概率分布。也就是说，不管是训练集还是测试集，数据的结构、规律是一样的。

2025-05-09 17:19:04 800

条形码的那些事儿：为什么 12345242 变成了 12345243？

ECE2050-Vivado-Tut.pdf CUHKSZ

ECEVHDLtutCUHKSZ

R smoking-and-drug-use-amongst-English-pupils

[Optimization] Introduction

Environment-Setup-Guide-24.pdf

1 Plato.pptx

空空如也