ML读书笔记
smartcat2010
这个作者很懒,什么都没留下…
展开
-
ML读书笔记(人工智能的热门应用)
A. 计算广告转化率的数据很稀少,可以退而求其次,用二次跳转、加入购物车等,近似转化率;CRT预估的公开数据集:Criteo(7天4000万条训练数据,1天600万条测试数据)PC端广告点击率: 0.1%~1%; 样本严重不均衡,可以在负例样本集里采样;评估:线下AUC和LogLoss; 线上A/B测试点击率(or+停留时长,转化率)根据Query来召回:查询扩展(给出一个查询...原创 2019-10-27 20:26:40 · 109 阅读 · 0 评论 -
ML读书笔记(集成学习)
A.Boosting:级联顺序训练,不能Model并行(只能每个弱分类器内部Data并行);样本有权重;弱分类器有权重;Bagging:可并行训练;偏差:由于分类器的表达能力有限导致的系统性错误,表现在训练误差不收敛;(例如假设错误,比如数据本来符合二次函数,而建模用了一次函数)(在训练集上即可体现出来)方差:由于分类器对于样本分布过于敏感,导致在训练样本数较少时,产生过拟合;(...原创 2019-10-27 18:03:14 · 142 阅读 · 0 评论 -
ML读书笔记(强化学习)
强化学习中,agent的每个action, 只能收到一个间接的反馈(进入到的状态,N步之后可能才有正/负Reward);A.强化学习的核心任务:学习一个从状态空间S到动作空间A的映射,最大化累积收益。价值迭代:每轮更新所有状态的状态价值函数和动作价值函数的值,等于是策略得到了更新;策略迭代:每轮内部,所有状态使用一开始的策略,只更新状态价值函数,直至收敛,该轮结束再更新动作价值函数...原创 2019-10-27 16:39:29 · 158 阅读 · 0 评论 -
ML读书笔记(循环神经网络)
目的:捕捉序列中的长距离依赖关系A. 文本分类的RNN: 过激活函数f得到h 最后一个时刻的h,编码了整个输入序列,在最后一个时刻的h上加输出层,过softmax,得到各个类别的概率;B.BPTT(Back Propagation Through Time)梯度爆炸:使用梯度裁剪来缓解,当梯度的L2-Norm大于某个给定值时,对梯度进行等比收缩;(Tensorflo...原创 2019-10-20 11:23:32 · 266 阅读 · 0 评论 -
ML读书笔记(前向神经网络)
A.1. 拟合异或的问题2个输入变量X和Y,写出异或真值表(<0,0>=>0, <0,1>=>1, <1,0>=>1, <1,1>=>0),拟合异或:如果直接使用线性变化+激活函数,即f(aX+bY+c), f可以为sigmoid函数,根据激活函数单调性,由第1和第2条可得b是正数,由第1和第3条可得a是正数,第2...原创 2019-10-19 17:44:33 · 214 阅读 · 0 评论 -
ML读书笔记(优化算法)
A. 损失函数分类:1. 0-1损失(非凸,非光滑,很难对其求导);2.Hinge损失(SVM用的,分对了但如果离分界面太近也有损失;在fy=1处不可导);3.Logistic损失(LR用的,这里的f就是; 可用梯度下降求导)回归:1. 平方误差损失函数(MSE损失);2. 平均绝对值损失函数(MAE损失);对比:MSE对异常值敏感,容易被一两个异常噪音导致模型为了迎合噪音而牺牲更多正常点...原创 2019-10-12 23:36:22 · 100 阅读 · 0 评论 -
ML读书笔记(概率图模型)
A. 写出具体贝叶斯网络的联合概率分布;(也许用得上课上的3种式子)B. 写出具体马尔科夫网络(无向边)的联合概率分布??C. 最大熵模型的原理??D.生成式模型:P(Y|X) = P(X,Y)/P(X), 即对P(X,Y)建模,曲线救国;(朴素贝叶斯,贝叶斯网络,pLSA,LDA,隐马尔科夫模型)判别式模型:直接对P(Y|X)建模;(最大熵模型,条件随机场CRF)E. ...原创 2019-10-10 22:44:40 · 90 阅读 · 0 评论 -
ML读书笔记(非监督学习)
A. KMeansKMeans的损失函数,是假设每个簇符合方差相等的球星高斯分布,然后极大化似然概率,最小化负对数;正因为各个簇的方差相同,所以预处理必须将数据各个维度归一化,否则方差最大的维度对聚类结果会有绝对影响。以最小化损失函数L为目的:聚类中心不动,找每个样本最近的那个中心做他的类别,是为了最小化L; 所有样本的类别确定了,找最优的聚类中心,也是为了最小化L;受初值和离群点...原创 2019-09-22 13:50:18 · 78 阅读 · 0 评论 -
ML读书笔记(降维)
A. PCA方差大的是信号,方差小的是噪音,信号/噪音就是信噪比,越大越好;PCA最大化方差:先中心化,则投影到新轴w上均值也还是0;样本们在w上的投影,让方差最大化,求w;用了向量乘向量乘向量乘向量,中间2个向量写成x的协方差矩阵,又因为w^2=1,带等式约束的最优化问题,拉格朗日乘子法,求导=0,解得x协方差矩阵的最大特征值是最大方差,对应的特征向量是最优轴;点到直线w的投影=...原创 2019-09-22 11:21:05 · 119 阅读 · 0 评论 -
ML读书笔记(经典模型)
A. SVM ???B. 逻辑回归线性回归和逻辑回归:一个是回归,一个是分类;相同点:都是用极大似然来建模(线性回归认为误差符合高斯分布,求高斯概率连乘最大化;逻辑回归是真实类别概率最大化)Multi-class: Softmax回归;Multi-label:建立多个二分类逻辑回归模型即可;C. 决策树ID3: 信息增益;C4.5:信息增益比=信息增益/数据关于...原创 2019-09-22 10:19:51 · 178 阅读 · 0 评论 -
ML读书笔记(模型评估)
A. accuracy的局限性样本极度不均衡时,模型全预测为多的那类,accuracy高,但是没用。解决:可以用所有类别的accuracy的算术平均。B. Precision和Recall排序问题中,认为前N个是正例,后面的是负例;Precision@N, Recall@NP-R曲线,横轴是R,纵轴是P;F1-score = 2*P*R/(P+R) = 2 / ((1...原创 2019-09-19 08:58:58 · 112 阅读 · 0 评论 -
ML读书笔记(特征工程)
目的:去除原始数据中的杂质和冗余,设计更高效的特征以刻画求解的问题与预测模型之间的关系。A.数值类特征归一化:1. Min-Max Scaling: 线性归一化至0~1;2. Z-Score Normalization:(x-均值)/方差, 归一化至(-1,1)为什么需要归一化:1. 不归一化则损失函数的等高线是椭圆,梯度下降求解时,会震荡,导致收敛速度慢;(公式求导解释);(线性...原创 2019-09-11 08:24:49 · 137 阅读 · 0 评论