- 博客(9)
- 收藏
- 关注
原创 进化计算算法
为什么要学习进化计算? 1.做优化 2.用进化算法来模拟自然界的进化什么是优化?关键概念: 多点随机优化方式 并行 仿生学优秀例子 适者生存 杂交EA算法家族目标函数...
2021-12-16 13:32:34 153
原创 集成学习笔记
民主协商:Ensemble集成学习:为了更好的解决某个特定机器学习的问题把多个模型有策略性的组合的过程,不是某种算法而是一大门类算法包括bagging和boosting 目的:改进某个模型的表现 减少选择到差模型的几率 如何combines群策群议:Bagging 例:采50份样,用这50份训练得出50份分类器,当新的样本来了后,放到50个分类器中,看结果如何投票 取相同结果最多...
2021-12-15 13:07:04 1250
原创 推荐算法笔记
基于内容推荐:协同过滤:根据朋友的意见Tf idfTF:某个单词在一篇文档中出现的频率IDF:该单词在其他文档中是不是出现,分子:所有文档的个数,分母:包含这个特定搜索词的文档的个数.比如the 分子分母比接近一,取log就为0向量空间模型缺点:不能识别近义词和多义词隐含语义分析点与原点的连线夹角越小关系越近pagerank有多少别的网页指向它以及其他网页的含金量所有网页的pagerank值无论哪一时...
2021-12-01 14:37:13 68
原创 关联规则笔记
项集与规则:关联规则:买了一本书还会买另一本item:商品transaction:非空商品子集购物小票cross selling 交叉销售卖相关的产品给顾客buddle discount:捆绑销售shop layout design:商店布局设计关联规则:买了牛奶面包能推导出会买果酱支持度:多少客户买了x的频率关联规则的支持度,置信度(条件概率) 步骤误区一个规则很强但不一定有意义,不能比商品本身概率还小当两个商品概率差别非常大...
2021-11-25 12:30:29 75
原创 2021-11-04
聚类聚类:分割型层次型:聚类:无监督学习,没有标签,数据驱动。聚类无严格意义上的对错聚类的应用:过程:1选择属性降维---->2定义similarity属性接近的---->3分组需求:标准化不一定什么时候都最好K-mea...
2021-11-18 12:22:06 38
原创 数据挖掘第五周
优化magrin:即求的最小值 使用拉格朗日乘数法求最小值,求w算出来大部分α都为零,不为零的α是支持向量求完w求b:剩下的都是支持向量所以 soft margin:放宽了约束条件,并引入了惩罚量非线性支持向量机(non-linear support vector machine):映射到高维变成可解决的问题,但却可以用低维方法解决映射函数...
2021-11-03 23:16:21 81
原创 数据挖掘第三周
贝叶斯 分类是有监督的学习,需要有人打上标签,有输入有输出贝叶斯公式: 贝叶斯公式描述的是后验概率如何由先验概率和以及实验数据得出的朴素贝叶斯由于不好求所以假设条件α1,α2...αn之间条件独立就可得到朴素贝叶斯公式AB条件独立例如男性B抽烟G得肺癌A的概率=抽烟G得肺癌A的概率,是男性B和得肺癌A...
2021-10-20 23:42:06 91
原创 数据挖掘 week2
数据预处理数据清理,数据转换,数据描述,特征的选择,特征的提取 pc和lda算法现实中的数据并不能直接运用知识去进行分析,需要对数据进行预处理工作才能进行后续处理,预处理是数据挖掘中最重要的一个阶段在,脏数据:不完整,有噪声,不一致性,冗余,数据类型,数据不平衡一、数据清洗 1、缺失数据 原因 :设备故障,数据没有被提供,Not Applicable N/A (不适用,比如对学生问工资) 不同的类型:完全随机的缺失(丢...
2021-09-30 13:14:26 145
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人