数据应用技巧
稻蛙
这个作者很懒,什么都没留下…
展开
-
【数据应用技巧】选择合适的损失函数(回归篇)
案例来源:@AI科技评论案例地址:https://mp.weixin.qq.com/s/Gt8Q4Wm36DoNBO4xI8SJAw1. MSE(均方误差,L2)1)损失函数是预测与目标之间的误差平方和2)对离群点鲁棒性差,当误差超过1时,平方会很大,所以模型容易偏向离群点。可以这么理解,当只输出统一的一个预测值时,MSE最优情况下会输出平均数,平均数对离群点不鲁棒3)如果离群点是异常值,是对业务...转载 2018-07-03 09:50:30 · 2577 阅读 · 0 评论 -
【数据应用技巧】NLP领域的预训练之风
案例来源:@AI科技评论 @集智翻译组 @人工智能LeadAI案例地址:https://mp.weixin.qq.com/s/NCLkZqdmqY9lm5BhyEcLXQ;https://www.sohu.com/a/233269391_395209;https://arxiv.org/pdf/1801.06146.pdf;http://wemedia.ifeng.com/64207141/w...原创 2018-08-07 15:17:15 · 1084 阅读 · 0 评论 -
【数据应用技巧】基于快速GeoHash,实现海量商品与商圈的高效匹配
案例来源:@阿里技术案例地址:https://mp.weixin.qq.com/s/vwhetMpQllczILptBNcoWg 0. 背景:闲鱼每天都有海量商品位置(点数据)与大量商圈(面数据)的匹配问题,如果计算每个点落在哪个面里,需要的计算复杂度非常高 1. 目标:在尽可能保持精度的前提下,快速判断每个商品位置(点数据)属于哪个商圈(面数据) 2. 方法: ...原创 2018-07-26 10:10:57 · 722 阅读 · 0 评论 -
《机器学习技法》第16课笔记 总结
课程来源:林轩田《机器学习技法》课程地址:https://www.bilibili.com/video/av12469267/?p=11. 特征转换方法1)kernel转换2)用分类平面信息作为特征转换3)抽取潜藏特征:kernel的权重也可以训练4)高维转换到低维度(压缩或投影)2. PCA与NN3. 最优化方法1)梯度下降法2)直接求解3)复杂问题的最优化方法3. 防止overfitting方...原创 2018-07-10 20:55:34 · 183 阅读 · 0 评论 -
《机器学习技法》第15课笔记 矩阵分解
课程来源:林轩田《机器学习技法》课程地址:https://www.bilibili.com/video/av12469267/?p=11. x是用户特征,y是用户对电影的评分,可以用这样的两层网络来训练2. 考虑到X是onehot过的,只有一个x是1,其它都是0,所以不需要再进行激活了,没有阈值要考虑,直接输入就输出,那么可以线性神经元。这时就称为线性神经网络3. 估算的用户评分,就是先经过第一层...原创 2018-07-10 20:53:44 · 249 阅读 · 0 评论 -
《机器学习技法》第14课笔记 径向基函数
课程来源:林轩田《机器学习技法》课程地址:https://www.bilibili.com/video/av12469267/?p=11. radial basis function其实由两部分组成1)radial:径向,即只跟x和x'的距离有关2)basis function:多个基础方程的线性组合2. RBF与NN:RBF分成两层,第一层求x到中心点们的距离,第二层进行投票3. RBF主要求解...原创 2018-07-10 20:51:52 · 207 阅读 · 0 评论 -
《机器学习技法》第13课笔记 深度学习
课程来源:林轩田《机器学习技法》课程地址:https://www.bilibili.com/video/av12469267/?p=11. 深度学习面临的问题1)结构构造问题:可以引入领域知识,如CNN实际上就是认为,两个像素相邻太远,它们之间的关联就没有太大意义,所以两个神经元不用相连2. pre-train1)从浅层开始,一层一层训练,每训练好一层就把权重固定住,这样得到整个深层网络的初始值。...原创 2018-07-10 20:49:50 · 183 阅读 · 0 评论 -
《机器学习技法》第12课笔记 神经网络
课程来源:林轩田《机器学习技法》课程地址:https://www.bilibili.com/video/av12469267/?p=11. 什么时候tanh(xw)最大?当x和w平行时最大。 所以实际上可以把每个神经元看成是对输入变量的模式进行学习。2. 链式求导 s是神经元。3. 训练神经元时,当w很大,这时候tanH(扁S型)就会落在很平的区域,这时候下降就很慢。所以建议初始w的参...原创 2018-07-10 20:48:43 · 194 阅读 · 0 评论 -
《机器学习技法》第11课笔记 AdaBoost tree
课程来源:林轩田《机器学习技法》课程地址:https://www.bilibili.com/video/av12469267/?p=11. 每棵树只有一层高时2. 怎么给样本加权?如果再树切分中加权,很麻烦。 一种方式是给每个样本一个权重,然后按权重进行抽样,这样权重高的样本就更容易被注意到。3. 权重的设置4. 投票权重和SVM中的点到超平面的距离很像,差别是没有常数项和正则化5. 推导,...原创 2018-07-09 22:38:59 · 258 阅读 · 0 评论 -
《机器学习技法》第10课笔记 随机森林
课程来源:林轩田《机器学习技法》课程地址:https://www.bilibili.com/video/av12469267/?p=11. bagging与boosting能否结合在一起?2. 随机森林中除了随机样本和随机特征,还可以把随机特征看成是向一个低维空间的投影,这时候一些特征就要进行组合 这种方式下,其实更像是感知机模型了。 1)要投影,要先进行加权分数操作 2)分类,...原创 2018-07-09 22:37:48 · 281 阅读 · 0 评论 -
《机器学习技法》第9课笔记 决策树
课程来源:林轩田《机器学习技法》课程地址:https://www.bilibili.com/video/av12469267/?p=11. 纯度度量:针对多分类情况,为了把每个类别都考虑进去,所以用了现在的纯度计算法2. 如何对决策树进行正则化? 一种思路是对叶子数量进行惩罚,找到错误率+叶子节点数量最低的结果。 这种方法的困难在于要便利所有树的可能,所以一种思路是先生成完全树,然后再...原创 2018-07-09 22:36:21 · 184 阅读 · 0 评论 -
《机器学习技法》第8课笔记 Adaptive Boosting
课程来源:林轩田《机器学习技法》课程地址:https://www.bilibili.com/video/av12469267/?p=11. AdaBoosting的效果2. AdaBoost能够引入非线性。 如我们这里只用了一个非常简单的分类器,每次只对一个维度切一刀,但是经过足够多次的AdaBoost,还是能得到较好的结果。3. 做人脸识别:切成N张图片,每张图片打分是否是人脸,差的直接过...原创 2018-07-09 22:35:18 · 252 阅读 · 0 评论 -
《机器学习技法》第7课笔记 blending and bagging
课程来源:林轩田《机器学习技法》课程地址:https://www.bilibili.com/video/av12469267/?p=11. 设G是g的blending,可以证明G比所有g的平均表现要好,至少相等2. 可以看到,投票过程的下限是bias,去掉的是variance3. 不知道怎么做到的,但是好强 3. 制造g的方法4. bootstrap...原创 2018-07-09 22:34:07 · 224 阅读 · 0 评论 -
《机器学习技法》第5课笔记 核函数逻辑回归
课程来源:林轩田《机器学习技法》课程地址:https://www.bilibili.com/video/av12469267/?p=11. wrap-up2. 可以将条件转化写入方程中,使我们更容易理解 soft kernel3. 这时候会发现很有趣的,我们其实在做的就是正则化。 之所以不从正则化方程的角度讲解soft kernel,是因为这个方程不容易导去QP问题4. soft kerne...原创 2018-07-09 22:29:48 · 529 阅读 · 0 评论 -
《机器学习技法》第4课笔记 Soft Kernel
课程来源:林轩田《机器学习技法》课程地址:https://www.bilibili.com/video/av12469267/?p=11. 如何放宽一些条件,提高泛化能力? 借鉴pocket方法,允许一定数量的点犯错,但是犯错的点越少越好。2. 但是这样有两个问题1)不再是线性,不能用二次规划解2)不能区分犯大错和小错的情况3. 因此改成根据错误的大小来惩罚,这样又变回了线性问题,可以用QP...原创 2018-07-09 22:25:54 · 207 阅读 · 0 评论 -
《机器学习技法》第3课笔记 Kernel核函数
课程来源:林轩田《机器学习技法》课程地址:https://www.bilibili.com/video/av12469267/?p=11. z是转换后的高维空间,那么我们要算ztz,就要先把x转换到z,然后再算z的内积。能不能偷吃步,不用算高维空间的内积?2. 假设这样一个转换函数,它会求x内两两元素的组合,通过这样转换到高维空间。 那么将它展开,可以一直化简,最后我们只要算xx的内积就行了...原创 2018-07-09 22:25:02 · 679 阅读 · 0 评论 -
《机器学习技法》第2课笔记 对偶学习问题
课程来源:林轩田《机器学习技法》课程地址:https://www.bilibili.com/video/av12469267/?p=11. 目标:希望能把转换空间后d+1维的问题,简化为N维的计算2. 拉格朗日对偶问题:将有条件的最优化问题转换为无条件的最优化问题3. 将SVM转换为对偶问题4. 求解目标:5. 对偶问题等于原问题的证明:1)当yn*()不满足原条件时,得到的是正数,那么an取最大...原创 2018-07-09 22:24:06 · 606 阅读 · 0 评论 -
《机器学习技法》第1课笔记 线性SVM
课程来源:林轩田《机器学习技法》课程地址:https://www.bilibili.com/video/av12469267/?p=11. 为什么要选择最右边这个分类线? 因为考虑了测量误差的情况下,右边的分类线鲁棒性最强。2. SVM推导1)平面上的点满足2)两个平面上的点相减会等于0,w提出来,这里的w就是法向量。平面外的点到平面的距离,就是在法向量上的投影长度3)计算点到平面的距离。因...原创 2018-07-09 22:22:44 · 199 阅读 · 0 评论 -
【数据应用案例】医院里的男性就是医生,女性就是护士?NLP 模型的性别偏见到底有多大?
案例来源:@WBLUE @Ben Packer @Yoni Halpern案例地址:https://www.leiphone.com/news/201805/UPjA3tnsC9HY4SLx.html;https://chinagdg.org/2018/04/text-embedding-models-contain-bias-heres-why-that-matters/ 0. ...原创 2018-08-29 09:49:36 · 911 阅读 · 0 评论