机器学习强化第一课

机器学习强化第一课

最大似然

模型假设:特征是独立同分布的
	1、独立的。联合概率分布就可以变为相乘的形式
	2、同分布的。模型参数是一致的
    3、公式:L(x1,x2,……xn,θ)= p(x1 |θ) p(x2 |θ) ……p(xn|θ)
	其中L(x,θ)是关于θ的函数,即似然函数,寻找适合的θ,使得似然函数达到最大值
   4、具体操作的方法在实践中,由于求导数的需要,往往将似然函数取为对数,得到对数似然函数,将相乘的对数似然函数拆分成几个特征的加和,方便下一步计算。

数据清洗常用到的方法

1、Panda中的Fuzzywuzzy-levenshtein distance
用于模糊文本的匹配与替换的包,通过使用编辑距离的概念计算与数据库中单词与文字的编辑距离,使用动态规划算法实现
2、模糊查询
3、利用模型进行清洗。通过数据进行拟合与预测,将拟合与预测的结果与原数据进行比较,当差距过大时,表明原数据中出现了异常的噪声数据,利用拟合与预测的数据进行替换,实现噪声的清洗。方法非常多:包括高斯滤波的一些方法
4、one-hot 编码
某些特征是不具有加和的特性(比如说一个人24岁不等于两个12岁的人)。
使用这些特征进行拟合的时候,容易出现错误,一般使用one-hot编码对于这样的数据进行处理。具体地方编码方式为:

编码的含义

几个名词的解释

在这里插入图片描述

ROC:ROC空间将伪阳性率(FPR)定义为 X 轴,真阳性率(TPR)定义为 Y 轴。
AUC: area under the curve(ROC曲线之下的面积)

在这里插入图片描述

下一课补充下PCA的基本原理、 AIC/BIC

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值