算法基础-最大似然估计/数据清洗

贝叶斯公式带来的思考

在这里插入图片描述

贝叶斯定理简介

https://www.cnblogs.com/zhoulujun/p/8893393.html
贝叶斯派既然把θ看做是一个随机变量,所以要计算θ的分布,便得事先知道θ的无条件分布,即在有样本之前(或观察到X之前),θ有着怎样的分布呢?
比如往台球桌上扔一个球,这个球落会落在何处呢?如果是不偏不倚的把球抛出去,那么此球落在台球桌上的任一位置都有着相同的机会,即球落在台球桌上某一位置的概率服从均匀分布。这种在实验之前定下的属于基本前提性质的分布称为先验分布,或的无条件分布。
至此,贝叶斯及贝叶斯派提出了一个思考问题的固定模式:

        先验分布 π(θ)+ 样本信息χ⇒  后验分布π(θ|x)

上述思考模式意味着,新观察到的样本信息将修正人们以前对事物的认知。换言之,在得到新的样本信息之前,人们对的认知是先验分布 π(θ),在得到新的样本信息后χ,人们对θ的认知为π(θ|x)。

而后验分布π(θ|x)一般也认为是在给定样本χ的情况下θ的条件分布,而使达到最大的值称为最大后θMD验估计,类似于经典统计学中的极大似然估计。

综合起来看,则好比是人类刚开始时对大自然只有少得可怜的先验知识,但随着不断是观察、实验获得更多的样本、结果,使得人们对自然界的规律摸得越来越透彻。所以,贝叶斯方法既符合人们日常生活的思考方式,也符合人们认识自然的规律,经过不断的发展,最终占据统计学领域的半壁江山,与经典统计学分庭抗礼。
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

最大似然估计思想:给定一组样本x1-xn,参数θ未知,想要求参数θ,可以转换成求给定样本θ,求哪一组θ可以使得样本x出现的概率最大,则该组θ就是要找的参数

最大似然估计

在这里插入图片描述
似然函数就是联合概率密度函数
在这里插入图片描述
在这里插入图片描述
已知10次抛硬币的结果,想求使得出现这样结果的概率最大对应的P值
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

数据清洗

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

PCA

在这里插入图片描述
特征共有150行,4列,X转置X得到44对称方阵,再算出该方阵的特征值λ1-4,以及对应的特征向量u1-4,特征向量相互垂直。λ越大对应的特征向量的方向就是主要的方向。(要降成2维则将4维数据映射到λ前2大对应的特征向量的方向上)

在这里插入图片描述
另一个解释:方差越大代表保留的信息越多
在这里插入图片描述
在这里插入图片描述

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
数据挖掘是一个**从大量数据中通过清理、处理以发现隐藏信息和模式的过程,也被称为知识发现**。它在各种领域都有广泛的应用,如新闻分类、推荐系统等。Python作为一种流行的编程语言,因其简洁的语法、强大的库支持,成为数据挖掘领域的首选工具之一。 以下是一些基于Python的数据挖掘算法: 1. **C4.5算法**:这是一种决策树学习算法,用于分类问题,能够处理离散属性值的数据集。 2. **CART算法**:分类与回归树算法,可以用于解决分类和回归问题,它构建的是二叉树。 3. **SVM算法**:支持向量机算法,用于分类和回归分析,它通过找到最优边界来区分不同类别的数据点。 4. **KNN算法**:K最近邻算法,一种基于实例的学习,通过查找最接近的K个邻居来进行分类或回归。 5. **AdaBoost算法**:自适应增强算法,通过组合弱分类器来形成一个强分类器。 6. **Apriori算法**:这是一种关联规则学习算法,用于挖掘频繁项集内的有趣关系。 7. **K-Means算法**:一种聚类算法,用于将数据集划分为K个不同的簇。 8. **朴素贝叶斯(Naive Bayes)算法**:基于贝叶斯定理的分类算法,假设特征之间相互独立。 9. **EM算法**:期望最大化算法,用于寻找概率模型中未知参数的最大似然估计。 10. **PageRank算法**:谷歌创始人拉里·佩奇提出的网页排名算法,用于搜索引擎结果的排序。 11. **随机森林(Random Forest)算法**:由多棵决策树构成的集成学习方法,用于分类和回归任务。 在学习和研究这些算法时,重要的是要理解它们的原理、优缺点以及适用场景。同时,实践是检验学习成果的重要方式,可以通过案例实战来加深对算法的理解和应用能力。例如,使用鸢尾花数据集来对比各个算法的性能是一种常见的实践方法。此外,数据预处理也是数据挖掘过程中不可或缺的一部分,它涉及到数据清洗、转换等步骤,以确保数据质量,为算法的有效应用打下基础
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值