机器学习强化第一课

最新推荐文章于 2022-04-11 23:15:13 发布

BMnice

最新推荐文章于 2022-04-11 23:15:13 发布

阅读量68

点赞数

分类专栏：机器学习文章标签：机器学习算法

本文链接：https://blog.csdn.net/BMnice/article/details/112119048

版权

机器学习专栏收录该内容

4 篇文章 0 订阅

订阅专栏

机器学习强化第一课

最大似然

模型假设：特征是独立同分布的
	1、独立的。联合概率分布就可以变为相乘的形式
	2、同分布的。模型参数是一致的
    3、公式：L(x1,x2,……xn,θ)= p(x1 |θ) p(x2 |θ) ……p(xn|θ)
	其中L（x,θ）是关于θ的函数，即似然函数，寻找适合的θ，使得似然函数达到最大值
   4、具体操作的方法在实践中，由于求导数的需要，往往将似然函数取为对数，得到对数似然函数，将相乘的对数似然函数拆分成几个特征的加和，方便下一步计算。

数据清洗常用到的方法

1、Panda中的Fuzzywuzzy-levenshtein distance
用于模糊文本的匹配与替换的包，通过使用编辑距离的概念计算与数据库中单词与文字的编辑距离，使用动态规划算法实现
2、模糊查询
3、利用模型进行清洗。通过数据进行拟合与预测，将拟合与预测的结果与原数据进行比较，当差距过大时，表明原数据中出现了异常的噪声数据，利用拟合与预测的数据进行替换，实现噪声的清洗。方法非常多：包括高斯滤波的一些方法
4、one-hot 编码
某些特征是不具有加和的特性（比如说一个人24岁不等于两个12岁的人）。
使用这些特征进行拟合的时候，容易出现错误，一般使用one-hot编码对于这样的数据进行处理。具体地方编码方式为：

编码的含义

几个名词的解释

在这里插入图片描述

ROC：ROC空间将伪阳性率(FPR)定义为 X 轴，真阳性率(TPR)定义为 Y 轴。
AUC: area under the curve(ROC曲线之下的面积)

在这里插入图片描述

下一课补充下PCA的基本原理、 AIC/BIC

BMnice

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录