Vivian_Congcong
码龄7年
关注
提问 私信
  • 博客:32,271
    32,271
    总访问量
  • 72
    原创
  • 486,950
    排名
  • 485
    粉丝
  • 0
    铁粉
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:上海市
  • 加入CSDN时间: 2018-01-21
博客简介:

Vivian_Congcong的博客

查看详细资料
个人成就
  • 获得636次点赞
  • 内容获得11次评论
  • 获得645次收藏
创作历程
  • 72篇
    2023年
成就勋章
TA的专栏
  • 数据挖掘笔记
    71篇
创作活动更多

新星杯·14天创作挑战营·第9期

这是一个以写作博客为目的的创作活动,旨在鼓励大学生博主们挖掘自己的创作潜能,展现自己的写作才华。如果你是一位热爱写作的、想要展现自己创作才华的小伙伴,那么,快来参加吧!我们一起发掘写作的魅力,书写出属于我们的故事。我们诚挚邀请你们参加为期14天的创作挑战赛! 注: 1、参赛者可以进入活动群进行交流、分享创作心得,互相鼓励与支持(开卷),答疑及活动群请见 https://bbs.csdn.net/topics/619626357 2、文章质量分查询:https://www.csdn.net/qc

473人参与 去参加
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

9.5继往开来:regionBoost

Fixed Weighting Scheme 在AdaBoost中每个分类器的权重确定且不会变 问题: 蓝色、红色五角星分别应该属于O类还是X类? 模型对于蓝色、红色五角星的分类准确度哪个高? 思考: 画个k近邻看看,蓝色五角星周围的样本:三个分错、两个分对。所以蓝色五角星分类准确度可信吗? 红色五角星周围5个样本都分对了,则可以认为这个模型对于红色五角星的判断更加可信 结论: 认为模型的权重和其输入相关(例如你问我一个问题,判断我回答靠不靠谱,要取决于你问我什
原创
发布博客 2023.12.17 ·
420 阅读 ·
8 点赞 ·
0 评论 ·
6 收藏

9.4集成之美:AdaBoost

The Choice of a 十大算法之一的原因:有非常好的特性,可以从数学上证明很多东西 例如,可以证明其(训练)误差的上界可以越来越小,趋近于0 例如,我们通常会认为a是一个参数是需要手工调整的,但其实不是,a是可以推导出来的 思路:怎样能够推导出模型的训练误差的上界(upper bound),如果能把它表示出来,就能够进一步推导a怎么取能够使(误差)上界越来越小 a原来是:1/2ln(1-错误率/错误率) Proof: 第一步 要表示模型误差,先看看第i个样
原创
发布博客 2023.12.16 ·
440 阅读 ·
5 点赞 ·
0 评论 ·
7 收藏

9.3环环相扣:Boosting

Stacking 问题:随机森林中各个决策树的权重应该不同,权重也应该通过学习调整 解决: 两层的训练:基础分类器、元分类器 将每一个分类器(子分类器)的输出当作输入再放到一个分类器中,再训练一次生成一个新的分类器,由这个分类器做输出操作 得到的权重是训练出的结果(例如,子分类器输出是1、0、0、1时最后的输出应该是1),由这样的结果倒推回去,由C分类器学习每一个小分类器的权重大小应该是多少 类比:有点像感知机(神经元、输出、权重) 优点:提高了模型的准确度 Bo
原创
发布博客 2023.12.16 ·
957 阅读 ·
25 点赞 ·
0 评论 ·
19 收藏

9.2群策群议:Bagging

Combiners 集成学习的核心:Combiner(因为不同的分类器有不同的输出,最后却要形成一个统一的决定) Majority Voting(少数服从多数) Weighted Majority Voting(加权右下角图中用“阿尔法”表示,每个分类器的权重不同,“老板”说话和“普通员工”说话不同) Diversity 假设、前提:集成学习effective(有用、有效果)的前提是使用不同的分类器 Different Learning Algorithms
原创
发布博客 2023.12.15 ·
454 阅读 ·
11 点赞 ·
0 评论 ·
5 收藏

9.1民主协商:Ensemble

Ensemble Learning 集成学习:不是一个特定的算法,而是一个大的算法框架门类 例如集体决策 What is ensemble learning? 思路:先要有策略得生成N个分类器,再把它们结合到一起,即经过精心挑选的“人”,让他们回答特定的问题,根据大家共同的答案做出最后的判断 使用继承学习的原因 模型不够强大,需要提高它的performance(例如,准确率89%-95%),可以多找几个“人”做这件事 model selection问
原创
发布博客 2023.12.14 ·
387 阅读 ·
7 点赞 ·
0 评论 ·
8 收藏

第十章总结

进化计算(补充例子) 编码 横坐标转换为二进制串,但是这个问题中横坐标为连续值,需要简化(分成小区间,区间大小和求解精度相关,和二进制串长度相关) 编码长度应为22位 产生初始种群 例如30-50个个体 Selection 表示为基因型,再通过坐标转换为原数值 Crossover(One Point)& Mutation 第一代 第十代 第两百代 没有交换后非法的可能性(此问题中),即交
原创
发布博客 2023.12.14 ·
434 阅读 ·
7 点赞 ·
0 评论 ·
7 收藏

10.8.2视频来源:互联网

Antenna Design
原创
发布博客 2023.12.13 ·
378 阅读 ·
7 点赞 ·
0 评论 ·
9 收藏

10.8.1视频来源:互联网

The Golem Project(魔像计划) Artificial Life Simulation(模拟) Reality Bridging the gap(弥合差距:指通过某种手段或方法来解决两个或多个不同事物之间的差距或分歧)
原创
发布博客 2023.12.13 ·
442 阅读 ·
9 点赞 ·
0 评论 ·
10 收藏

10.7万物皆进化

Evolvable Circuits(进化电路) 1. 进化电路由左侧这样的芯片构成,可编程门电路FPGA(Field Programmable Gate Array)一般的电路做好以后的功能是定死的,例如DSP芯片(编解码) 2. 右侧芯片叫做“现场可编程”,可以通过不同的连接结构(某些地方可以烧断、连接)实现0,1变换,从而实现不同的功能结构 优点:在一定程度上是可以编程的 如何进化: 0101的矩阵或串,使用genetic algorithm involve它,按照某一个目标函
原创
发布博客 2023.12.13 ·
1090 阅读 ·
7 点赞 ·
0 评论 ·
9 收藏

10.6遗传程序设计

进化计算的代表算法(Genetic Programming) GA & GP GA和GP很像 有人说GP就是GA的一个分支 区别 GA(遗传算法)中:用0101的串来表示选择、不选择 GP中:进化的是一个计算机的程序 输出 GA:一组参数值0.5、0.3等等 GP:一个计算机的程序(程序可以做很多事情,例如控制机器人等等) GP发明人:John Koza 人类的很多专利,可以用计算机的方法自己发明出来(reinvent重新创造)
原创
发布博客 2023.12.13 ·
391 阅读 ·
7 点赞 ·
0 评论 ·
8 收藏

10.5.2遗传算法进阶

Feature Selection(用遗传算法解决特征选择问题) 方法: Filter Method:不关心使用哪个分类器,单纯分析属性(区分度等)来选择 Wrapper Method:要考虑选择哪类分类器 GAs & Feature Selection Representation 选择为1,未选择为0 Fitness Function(Objective Function)目标函数 使用的各个分类器的Classification Error(比
原创
发布博客 2023.12.13 ·
363 阅读 ·
9 点赞 ·
0 评论 ·
6 收藏

10.5.1遗传算法进阶

Crossover I(One Point Crossover一点杂交) 选一个点,从这个点之后,所有的遗传物质进行交换 Crossover I(One Point Crossover两点杂交) 选两个点,将这两个点之间的遗传物质进行交换 注意:如果杂交的需要交换的基因一样时,杂交后基因没变化 Crossover III(Uniform Crossover各个点都可以杂交) 注意:本身具有随机性,此时是“两个生一个” Is it always easy?
原创
发布博客 2023.12.13 ·
921 阅读 ·
15 点赞 ·
0 评论 ·
28 收藏

10.4遗传算法初探

A Gentle Introduction to Genetic Algorithms(遗传算法简介) Biology Background Gene:基因是DNA工作片段 Gene Trait:基因性状,例如“眼睛的颜色” Allele:等位基因,眼睛有几种颜色(粽、绿、黑、蓝等等) Genotype:基因型,携带的是什么基因 Phenotype:表现型,表现为眼睛的颜色是什么颜色 Genetic Algorithms loosely base on:大致基于
原创
发布博客 2023.12.12 ·
916 阅读 ·
14 点赞 ·
0 评论 ·
26 收藏

10.3走向进化

How to solve it? 1. Local Search(局部搜索) 用求导的方式优化,都会遇到局部极值问题 2. 不可以将一个二维问题拆成两个一维问题(例如图中分别固定Y值、x值寻找最优值) dependencies:依赖性、相关性 Solution:Parallel Search 问题复杂-->使用并行搜索,防止陷入局部最优 不派一个人去“爬山”,而是派100个人,则找到最高峰的概率就会大很多 派一些人去比较可能有宝藏的
原创
发布博客 2023.12.12 ·
387 阅读 ·
9 点赞 ·
0 评论 ·
7 收藏

10.2尽善尽美

目标函数 有些时候无法写出具体的表达式,无法用传统的方法解决(例如求最小值等)问题 Portfolio Optimization(投资组合优化) 如何优化投资组合 Travelling Salesman Problem(旅行商问题) 如何规划旅行(例如送快递人员)最优路径 Knapsack Problem(背包/装箱问题) 如果背包只能装50公斤的东西,应该装(偷)什么 Bin Packing Problem(背包/装箱问题) 箱子容量固定,按
原创
发布博客 2023.12.12 ·
370 阅读 ·
5 点赞 ·
0 评论 ·
8 收藏

10.1人与自然

Evolutionary Algorithms(进化计算) 由自然界获得灵感 Overview 初始种群 适应度计算 变异 复制 进化论 非强者生存而是适者生存 孟德尔 Learning from Nature 从自然中获得灵感而不是简单得拷贝、克隆 Motivation of EAs(学习进化计算的意义) 优化计算(在尽可能短的时间内完成定量的任务;在投资一定的条件下获得最高的收益等等) 模拟自然界的进化 Key Co
原创
发布博客 2023.12.12 ·
399 阅读 ·
8 点赞 ·
0 评论 ·
9 收藏

8.5告诉你一个真实的推荐

Netflix Prize 是推荐算法中一次著名的竞赛(百万美元) 影片租碟领域,将Cinematch系统的性能再提高10% KDD Cup KDD:数据挖掘领域的顶级会议 2012年做了一个和推荐有关的竞赛,使用了腾讯公司公开的一些微博数据 主要为根据用户发帖内容推荐好友、推荐工作 “推荐”的理想与现实 价格敏感,广告重要:实际营销与推荐理论(打分矩阵)有差距 Reality Mining(现实挖掘) MIT做的实验 可以区分人与人之间
原创
发布博客 2023.12.04 ·
398 阅读 ·
12 点赞 ·
0 评论 ·
5 收藏

8.4协同过滤

Collaborative Filtering 协同过滤:很多人在一起听听大家的意见,即看与某人品味相近的人会有什么喜好 基本思想: 一开始要做一个打分矩阵 :每一行代表了一个用户,每一列可以理解为一个商品 矩阵中每一个元素的值可以是是否喜欢某商品,或对某商品打分的分值 因为商品可能有几千几万个,但是每个人只买较少商品,所以矩阵可能非常稀疏 根据矩阵可以推测、填充缺失值部分(到底是喜欢还是不喜欢,打几分) 分为两部分 1.Memory-Based CF 2.Mode
原创
发布博客 2023.12.04 ·
416 阅读 ·
10 点赞 ·
0 评论 ·
5 收藏

8.3PageRank传奇

Linked Documents(链接的文档,网页) PageRank 一个网页的PageRank越高说明这个网页的“地位”越高 中心思想:有多少个“德高望 重”的人给我写了“推荐信”,他又给别人写了多少“推荐信” 为什么不用“我指向别人的”,而是“别人指向我的”:因为前者很容易伪造 PageRank(例子) 计算过程是一个迭代过程:在某一个时刻PageRank是多少。可以算下一个时刻的PageRank,以此类推 最下面的式子计算的是:在ti时刻,Pi网页的PageR
原创
发布博客 2023.12.04 ·
353 阅读 ·
7 点赞 ·
0 评论 ·
8 收藏

8.2隐含语义分析

Tf-id f(“Tf”和“idf”两部分合在一起) 人们在搜索引擎中输入的关键词,与计算机中存储的海量数据文本之间的关联度的量化标准 TF:一个特定的单词在文档中出现的频率 IDF:这个单词在其他文档中是否出现。 分子:所有文档的个数 分子:包含这个特定搜索词的文档的个数 Tf-idf:两者相乘 多个关键词:多个Tf-idf相加 Term-Document Matrix:单词-文本矩阵。处理文本时,不处理一堆文本,而是处理一个矩阵:每一列代表一篇文章,每一行代表一个关
原创
发布博客 2023.12.04 ·
325 阅读 ·
5 点赞 ·
0 评论 ·
7 收藏
加载更多