贝叶斯公式
- 给定某些样本,在这些样本中计算某结论A1,A2……An出现的概率,即P(Ai|D)
- 计算这个p的最大值
- 最后就是算
- 最大似然估计
- 用这个概率的最大值所对应的参数们,即最大似然估计
最大似然估计MLE
- 假定样本是独立同分布的
- 联合密度概率(同时发生)
- 后面写出参数
- 可以将θ看成是固定但未知的参数,所以L(x,θ)是关于θ的函数,即似然函数
- 求参数θ的值,使得似然函数取最大值,这种方法就是最大似然估计
- 实践操作
- 先求对数log(相乘变成相加),求导,令导数为0,求驻点
- 求出θ,找到对应的参数
- 高斯分布
- 最大似然估计与过拟合
- 修正公式
- 两边都加固定值
赔率
- 赔率是给的赌徒的 本金的倍数,本金庄家收走
- 算期望,概率*赔率*本金
- y=1/p公平赔率
- 庄家不赚不亏
- 一般都会乘以一个α系数(0~1)
Pandas
- Fuzzywuzzy包
- 模糊查询和替换
- Levenshtein distance距离
PCA主成分分析
- 取出特征矩阵X
- X转置*X
- 对称矩阵
- 求对称矩阵的特征值(实数)和特征向量(正交)
- 求最大的特征值,即最主要的组分
- 方差最大的方向
- 分类
- 线性
- 特征两两组合
- 曲线分类
- 三三组合
- 分的更好
- 维度太高会造成过拟合
数据清洗
- 设置阈值去掉异常值
- 随机森林预测去掉点的数值加进去
onehot
- 先将一个属性分成几个类别
- 然后再将样本的数据变成矩阵01,1表示其所在类别
- 会导致特征数增多