机器学习强化第一课
最大似然
模型假设:特征是独立同分布的
1、独立的。联合概率分布就可以变为相乘的形式
2、同分布的。模型参数是一致的
3、公式:L(x1,x2,……xn,θ)= p(x1 |θ) p(x2 |θ) ……p(xn|θ)
其中L(x,θ)是关于θ的函数,即似然函数,寻找适合的θ,使得似然函数达到最大值
4、具体操作的方法在实践中,由于求导数的需要,往往将似然函数取为对数,得到对数似然函数,将相乘的对数似然函数拆分成几个特征的加和,方便下一步计算。
数据清洗常用到的方法
1、Panda中的Fuzzywuzzy-levenshtein distance
用于模糊文本的匹配与替换的包,通过使用编辑距离的概念计算与数据库中单词与文字的编辑距离,使用动态规划算法实现
2、模糊查询
3、利用模型进行清洗。通过数据进行拟合与预测,将拟合与预测的结果与原数据进行比较,当差距过大时,表明原数据中出现了异常的噪声数据,利用拟合与预测的数据进行替换,实现噪声的清洗。方法非常多:包括高斯滤波的一些方法
4、one-hot 编码
某些特征是不具有加和的特性(比如说一个人24岁不等于两个12岁的人)。
使用这些特征进行拟合的时候,容易出现错误,一般使用one-hot编码对于这样的数据进行处理。具体地方编码方式为:
几个名词的解释
ROC:ROC空间将伪阳性率(FPR)定义为 X 轴,真阳性率(TPR)定义为 Y 轴。
AUC: area under the curve(ROC曲线之下的面积)
下一课补充下PCA的基本原理、 AIC/BIC