Vivian_Congcong-CSDN博客

原创 9.5继往开来：regionBoost

Fixed Weighting Scheme 在AdaBoost中每个分类器的权重确定且不会变问题：蓝色、红色五角星分别应该属于O类还是X类？模型对于蓝色、红色五角星的分类准确度哪个高？思考：画个k近邻看看，蓝色五角星周围的样本：三个分错、两个分对。所以蓝色五角星分类准确度可信吗？红色五角星周围5个样本都分对了，则可以认为这个模型对于红色五角星的判断更加可信结论：认为模型的权重和其输入相关（例如你问我一个问题，判断我回答靠不靠谱，要取决于你问我什

2023-12-17 00:01:24 381

原创 9.4集成之美：AdaBoost

The Choice of a 十大算法之一的原因：有非常好的特性，可以从数学上证明很多东西例如，可以证明其（训练）误差的上界可以越来越小，趋近于0 例如，我们通常会认为a是一个参数是需要手工调整的，但其实不是，a是可以推导出来的思路：怎样能够推导出模型的训练误差的上界（upper bound），如果能把它表示出来，就能够进一步推导a怎么取能够使（误差）上界越来越小 a原来是：1/2ln（1-错误率/错误率） Proof：第一步要表示模型误差，先看看第i个样

2023-12-16 23:25:33 403

原创 9.3环环相扣：Boosting

Stacking 问题：随机森林中各个决策树的权重应该不同，权重也应该通过学习调整解决：两层的训练：基础分类器、元分类器将每一个分类器（子分类器）的输出当作输入再放到一个分类器中，再训练一次生成一个新的分类器，由这个分类器做输出操作得到的权重是训练出的结果（例如，子分类器输出是1、0、0、1时最后的输出应该是1），由这样的结果倒推回去，由C分类器学习每一个小分类器的权重大小应该是多少类比：有点像感知机（神经元、输出、权重）优点：提高了模型的准确度 Bo

2023-12-16 14:08:15 916

原创 9.2群策群议：Bagging

Combiners 集成学习的核心：Combiner（因为不同的分类器有不同的输出，最后却要形成一个统一的决定） Majority Voting（少数服从多数） Weighted Majority Voting（加权右下角图中用“阿尔法”表示，每个分类器的权重不同，“老板”说话和“普通员工”说话不同） Diversity 假设、前提：集成学习effective（有用、有效果）的前提是使用不同的分类器 Different Learning Algorithms

2023-12-15 10:35:27 396

原创 9.1民主协商：Ensemble

Ensemble Learning 集成学习：不是一个特定的算法，而是一个大的算法框架门类例如集体决策 What is ensemble learning? 思路：先要有策略得生成N个分类器，再把它们结合到一起，即经过精心挑选的“人”，让他们回答特定的问题，根据大家共同的答案做出最后的判断使用继承学习的原因模型不够强大，需要提高它的performance（例如，准确率89%-95%），可以多找几个“人”做这件事 model selection问

2023-12-14 23:04:31 358

原创第十章总结

进化计算（补充例子）编码横坐标转换为二进制串，但是这个问题中横坐标为连续值，需要简化（分成小区间，区间大小和求解精度相关，和二进制串长度相关）编码长度应为22位产生初始种群例如30-50个个体 Selection 表示为基因型，再通过坐标转换为原数值 Crossover（One Point）& Mutation 第一代第十代第两百代没有交换后非法的可能性（此问题中），即交

2023-12-14 21:05:29 394

原创 10.8.2视频来源：互联网

Antenna Design

2023-12-13 15:14:41 355

原创 10.8.1视频来源：互联网

The Golem Project（魔像计划） Artificial Life Simulation（模拟） Reality Bridging the gap（弥合差距：指通过某种手段或方法来解决两个或多个不同事物之间的差距或分歧）

2023-12-13 15:04:43 408

原创 10.7万物皆进化

Evolvable Circuits（进化电路） 1. 进化电路由左侧这样的芯片构成，可编程门电路FPGA（Field Programmable Gate Array）一般的电路做好以后的功能是定死的，例如DSP芯片（编解码） 2. 右侧芯片叫做“现场可编程”，可以通过不同的连接结构（某些地方可以烧断、连接）实现0，1变换，从而实现不同的功能结构优点：在一定程度上是可以编程的如何进化： 0101的矩阵或串，使用genetic algorithm involve它，按照某一个目标函

2023-12-13 14:55:50 1057

原创 10.6遗传程序设计

进化计算的代表算法（Genetic Programming） GA & GP GA和GP很像有人说GP就是GA的一个分支区别 GA（遗传算法）中：用0101的串来表示选择、不选择 GP中：进化的是一个计算机的程序输出 GA：一组参数值0.5、0.3等等 GP：一个计算机的程序（程序可以做很多事情，例如控制机器人等等） GP发明人：John Koza 人类的很多专利，可以用计算机的方法自己发明出来（reinvent重新创造）

2023-12-13 14:14:08 359

原创 10.5.2遗传算法进阶

Feature Selection（用遗传算法解决特征选择问题）方法： Filter Method：不关心使用哪个分类器，单纯分析属性（区分度等）来选择 Wrapper Method：要考虑选择哪类分类器 GAs & Feature Selection Representation 选择为1，未选择为0 Fitness Function（Objective Function）目标函数使用的各个分类器的Classification Error（比

2023-12-13 13:28:51 332

原创 10.5.1遗传算法进阶

Crossover I（One Point Crossover一点杂交）选一个点，从这个点之后，所有的遗传物质进行交换 Crossover I（One Point Crossover两点杂交）选两个点，将这两个点之间的遗传物质进行交换注意：如果杂交的需要交换的基因一样时，杂交后基因没变化 Crossover III（Uniform Crossover各个点都可以杂交）注意：本身具有随机性，此时是“两个生一个” Is it always easy?

2023-12-13 11:41:40 862

原创 10.4遗传算法初探

A Gentle Introduction to Genetic Algorithms(遗传算法简介) Biology Background Gene：基因是DNA工作片段 Gene Trait：基因性状，例如“眼睛的颜色” Allele：等位基因，眼睛有几种颜色（粽、绿、黑、蓝等等） Genotype：基因型，携带的是什么基因 Phenotype：表现型，表现为眼睛的颜色是什么颜色 Genetic Algorithms loosely base on：大致基于

2023-12-12 17:53:57 880

原创 10.3走向进化

How to solve it? 1. Local Search(局部搜索) 用求导的方式优化，都会遇到局部极值问题 2. 不可以将一个二维问题拆成两个一维问题（例如图中分别固定Y值、x值寻找最优值） dependencies：依赖性、相关性 Solution：Parallel Search 问题复杂-->使用并行搜索，防止陷入局部最优不派一个人去“爬山”，而是派100个人，则找到最高峰的概率就会大很多派一些人去比较可能有宝藏的

2023-12-12 16:17:17 363

原创 10.2尽善尽美

目标函数有些时候无法写出具体的表达式，无法用传统的方法解决（例如求最小值等）问题 Portfolio Optimization(投资组合优化) 如何优化投资组合 Travelling Salesman Problem(旅行商问题) 如何规划旅行（例如送快递人员）最优路径 Knapsack Problem（背包/装箱问题）如果背包只能装50公斤的东西，应该装（偷）什么 Bin Packing Problem（背包/装箱问题）箱子容量固定，按

2023-12-12 15:55:10 346

原创 10.1人与自然

Evolutionary Algorithms(进化计算) 由自然界获得灵感 Overview 初始种群适应度计算变异复制进化论非强者生存而是适者生存孟德尔 Learning from Nature 从自然中获得灵感而不是简单得拷贝、克隆 Motivation of EAs(学习进化计算的意义) 优化计算（在尽可能短的时间内完成定量的任务；在投资一定的条件下获得最高的收益等等）模拟自然界的进化 Key Co

2023-12-12 15:26:40 367

原创 8.5告诉你一个真实的推荐

Netflix Prize 是推荐算法中一次著名的竞赛（百万美元）影片租碟领域，将Cinematch系统的性能再提高10% KDD Cup KDD：数据挖掘领域的顶级会议 2012年做了一个和推荐有关的竞赛，使用了腾讯公司公开的一些微博数据主要为根据用户发帖内容推荐好友、推荐工作 “推荐”的理想与现实价格敏感，广告重要：实际营销与推荐理论（打分矩阵）有差距 Reality Mining（现实挖掘） MIT做的实验可以区分人与人之间

2023-12-04 20:13:55 378

原创 8.4协同过滤

Collaborative Filtering 协同过滤：很多人在一起听听大家的意见，即看与某人品味相近的人会有什么喜好基本思想：一开始要做一个打分矩阵：每一行代表了一个用户，每一列可以理解为一个商品矩阵中每一个元素的值可以是是否喜欢某商品，或对某商品打分的分值因为商品可能有几千几万个，但是每个人只买较少商品，所以矩阵可能非常稀疏根据矩阵可以推测、填充缺失值部分（到底是喜欢还是不喜欢，打几分）分为两部分 1.Memory-Based CF 2.Mode

2023-12-04 18:48:34 387

原创 8.3PageRank传奇

Linked Documents（链接的文档，网页） PageRank 一个网页的PageRank越高说明这个网页的“地位”越高中心思想：有多少个“德高望重”的人给我写了“推荐信”，他又给别人写了多少“推荐信” 为什么不用“我指向别人的”，而是“别人指向我的”：因为前者很容易伪造 PageRank（例子）计算过程是一个迭代过程：在某一个时刻PageRank是多少。可以算下一个时刻的PageRank，以此类推最下面的式子计算的是：在ti时刻，Pi网页的PageR

2023-12-04 17:13:51 332

原创 8.2隐含语义分析

Tf-id f(“Tf”和“idf”两部分合在一起) 人们在搜索引擎中输入的关键词，与计算机中存储的海量数据文本之间的关联度的量化标准 TF：一个特定的单词在文档中出现的频率 IDF：这个单词在其他文档中是否出现。分子：所有文档的个数分子：包含这个特定搜索词的文档的个数 Tf-idf：两者相乘多个关键词：多个Tf-idf相加 Term-Document Matrix：单词-文本矩阵。处理文本时，不处理一堆文本，而是处理一个矩阵：每一列代表一篇文章，每一行代表一个关

2023-12-04 16:38:26 303

原创 8.1无所不在的推荐

推荐算法（Recommendation Algorithms） Information overload(信息过载) Recommendation Systems 基于内容的推荐（根据书籍的作者推荐同一作者写的书）协同过滤（朋友们觉得好不好） Junk Advertisement Targeted Advertisement 核心：广告引擎 Mobile Advertisement Platform 客户手机型号客户所在

2023-12-04 14:03:03 373

原创 7.7视频来源：互联网

未来超市自动引路自动识物结算商品推荐商品对比介绍广告自动播放补货提醒（个人认为甚至可以由机器完成） RFID Techonology (射频识别技术) Chip for data, barcode number, product code, manufacturer：数据芯片、条码编号、产品编码、厂家 data will be stored on an RFD chip mini-antenna(微型天线)

2023-11-28 22:17:24 359

原创 7.6序列模式

Sequential Pattern(序列模式) Sequence 一个序列element中可以仅有一个item，也可以有很多items 一个序列t是序列s的子序列（顺序不能变），则可以说t被s支持序列挖掘计算Support的时候按照CID（CustomerID）分为五组来看 Candidate Space 有一个搜索空间，空间比Itemset要大很多(因为items不仅需要组合还要排序，而且序列中允许item重复出现) C

2023-11-28 22:15:33 389

原创 7.5实例分析

L(k)--->C(k+1) 生成结果不能缺失也不能冗余方法1：将L1、L2所有可能的项拼起来（效率低、冗余）方法2：只将L2中找两个只有1位不同的Itemsets拼起来（效率高、紧凑）问题：虽然方法2只生成了一个C3，但是C3仍然不频繁解决办法：思路：将Item排序，挑出满足下述条件的X、Y：前（k-1）个都要一模一样，第k项不同，把Y的第k项放到X中组成新的Candidate（K+1）存在问题：最后一行的数据仍然生成

2023-11-28 22:14:56 338

原创 7.4Apriori算法

Itemset Generation 频繁集挖掘问题并不是简单的数据库计数问题，而是一个非常复杂的问题 Itemset Calculation 复杂度在于M：如果有d种商品，所有可能的Itemsets就是右下角给出的计算结果。d种商品有两种状态0:不选择、1:选择，有2的d次方种，但是Itemset不可以为空，所以再减去1 计算量庞大，需要更好的方法计算（The Apriori Method） The Apriori Method 任何一个频繁项，它所有的子项都一定要是

2023-11-28 22:14:25 328

原创 7.3误区

Myth No.1 规则很强不代表它有意义解释：计算出买tape就会去买DVD的概率为66%，大于我们设置的阈值50%。但它并没有意义，因为原本会购买DVD的人就有75%，大于它的先验概率66% Myth No.2 面包和电池的先验概率差距很大时会导致规则无意义 Myth No.3 某地区犯罪率上升伴随着冰激凌小梁的上升，并不能说有因果关系，而只能说是两者具有相关关系所以条件规则仅仅是条件概率，不要做过多解释

2023-11-28 22:13:54 324

原创 7.2支持度与置信度

Support of an Itemset X={牛奶}，则Support（支持度）为交易记录中买了牛奶的记录数占总记录数的百分比 Support & Confidence of Association Rule X={牛奶}，Y={面包}，则Support（支持度）为交易记录中买了牛奶和面包的记录数占总记录数的百分比 X={牛奶}，Y={面包}，则Confidence（置信度）为交易记录中买了牛奶和面包的记录数与只买了牛奶记录数之比 Confidence其实就是条件概率

2023-11-28 22:13:21 441

原创 7.1项集与规则

关联规则广义上的Market-Based Problems Frequent Itemsets：两件商品经常被同时购买 Associate Rules：买了这本书的人会买另一半书挖掘哪些文字或单词经常同时出现，分析文本信息 Definitions Transactions

2023-11-27 13:44:24 339

原创第六章总结

聚类如何判断好坏？没有明确的标准以类间的相似度尽量低，类内的相似度尽量高数据预处理注意：不要改变原数据分布 K-Means 原理：样本与簇中心的距离的均值最小化的方法算法复杂度：O（t · k · n）。t是迭代次数、k是中心点个数、n是点的个数（主要原因）限制：预先知道目标分类数量K值优点：简单、收敛迅速缺点：对噪点和偏离值敏感、局部最优（比如初始点选取不好）、只能处理球形分布 Sequential Leader Clustering(顺序先导聚类) 原理：样本与簇

2023-11-27 13:43:53 346

原创 6.4密度与层次

Density Based Methods(基于密度的方法) 图片特征很多噪点数据分布不规则好处和人眼的感觉接近不用事先设定K值，可以基于形状自动判断 DBSCAN 解释核心思想：把点分成了三类核心点：以此点为中心画一个圈，如果这个圈中有足够多的点，那这个点就是核心点边缘点：我能找到一个核心点，且画一个圈，我在这个圈里面，我和核心关系近，但我自己不是核心噪点：不是核心点且与核心点“拉不上关系”，只能是噪点（是要被过滤掉

2023-11-27 13:43:17 391

原创 6.3期望最大法

Gaussian Mixture(另外一种聚类：基于模型的聚类) 解释不直接返回每个点属于哪个簇，而是建模：使用模型逼近数据（分布），比如高斯模型，其实是一种概率密度估计为什么这么做：有了模型就可以从模型中生成新的样本，而且新的样本与原来的样本分布、模式各方面基本一致高斯混合模型：只用一个高斯不能够很好的逼近数据分布，所以用很多高斯阿尔法：权重，其求和为1 注意高斯的个数与峰值的个数不一样：当两个高斯离得很近的时候，会多出一个峰 Cluster

2023-11-27 13:42:46 337

原创 6.2K-Means

Evaluation 假设所有数据都呈球状分布，则使用这个公式效果较好解释有些直观上不合理的数据聚集方式，J值反而可能更小 Silhouette 好处：是一种让我们可以直观上看到或解释聚类效果的函数解释对于每个样本点，他要算出一个值来，为了算这个值而定义了a、b两个数 a：我与和我同组的人的平均距离 b：我与不和我一个组的人的平均距离（如果有c组，再算一下和c组的平均距离，并取其中最小的）如何使用每一个点都是一条横着的蓝色

2023-11-27 13:42:11 322

原创 6.1无监督学习

Clustering Overview What is cluster analysis? Clusters 没有对错之分 Applications of Clustering Earthquakes 地震点聚在一起形成的地震图 Image Segmentation The big picture Requirements arbitrary shape：能不能处理任意形状的数据

2023-11-27 13:41:40 356

原创第五章总结

分类线性核心函数多项式核函数 RBF（高斯和函数） Sigmoid（神经元网络的基底函数） Model Capacity 高容量模型：复杂、解决复杂问题算力需求大容易过拟合低容量模型：简单算力需求小容易欠拟合前提：数据都是有规律的输入：输入数据量的多少也会影响模型容量（属性越多，容量越高）

2023-11-27 13:41:09 355

原创 5.5视频来源：互联网

单词 accelerating：促进的加速的 emergence：出现，显现 instrumented：仪表化的；增加了某些装置的 the planet has grown essential nervous system：基本神经系统 devises：想出、设计 power grade：功率等级 dispatch：派遣，发送 resilient：（人或动物）对困境有承受力的，有复原力的 destructive：破坏性的，毁灭性的文章 The planet has grown e

2023-11-27 13:39:34 370

原创 5.4致敬真神

SVM Roadmap SVM Legend(SVM 发明人) 俄国数学家 Decision Boundaries “圈”：Decision Boundaries，以这样的形式对空间进行了划分：颜色深的地方值为0 离这条线越远，绝对值越高，颜色越亮实验 “圈”：其实是g（x）的等高线为0时的一条线右上角：计算了每一个数据点的“wx+b”，z轴为g(x)的值 Mode

2023-11-27 13:39:01 354

原创 5.3数学家的把戏

Non-Linear SVMs 大圆圈的点表示支持向量将一维的点映射到二维空间中（x=x；y=x^2）则线性不可分问题变为了线性可分 Feature Space(新的空间叫做feature space) 映射到二维映射到三维 Quadratic Basic Functions 以上是固定的几种映射方法中的其中一种 x原来是m维的，映射成为：常数项、线性的、二次项、交叉项，大约有（m^2）/2项 Calculat

2023-11-27 13:38:31 378

原创 5.2线性SVM

Objective Function(目标函数) 1. 将样本都分对(在SVM中：一种分类为+1、另一种为-1) 2.最大化Margin Lagrange Multipliers Dual Problem(Dual:对偶)：在这里的SVM问题中对偶问题与原问题等价解出的很多“阿尔法”都是为0的，少部分非0的就叫做“Support Vector” Solutions of w & b 关键之处：向量做内积 An Example Soft Mar

2023-11-27 13:38:00 379

原创 5.1最大间隔

SVM 核心思想输入空间向更高维度的空间做映射，在新空间中做分类，在新空间中问题被简化，通常认为是成为了线性可分的问题。类似于神经网络的隐含层表示（从输入向中间阶段做映射之后再分类） SVM本源：线性分类器 Linear Classifier 推导出：“w”的方向是与分界线垂直的方向（x1、x2为分界线上的两个点） Distance to Hyperplane(空间中的点到超平面的距离) 空间中任意一点x到超平面的距离（x

2023-11-27 13:37:28 320

原创 4.6视频来源：互联网

世界台球冠军与世界最快机器手臂比赛机械手臂有很强的能力，但暂时还是人类智慧更胜一筹

2023-11-27 13:36:56 324

空空如也

空空如也