2018年07月_稻蛙

原创【数据应用案例】教神经网络写汉字

案例来源：@新智元 @量子位案例地址：https://mp.weixin.qq.com/s/aqfwn0kiXbZwVDVhHXBAXQ；https://mp.weixin.qq.com/s/78GXuz6Sfi7YffSw4Rwgng；http://blog.otoro.net/2015/12/28/recurrent-net-dreams-up-fake-chinese-character...

2018-07-27 09:50:25 429

原创【数据应用案例】神“乐”马良：AI直接将音频转换成动画

案例来源：@新智元案例地址：https://mp.weixin.qq.com/s/XljHirBxi_n3lw2WfB2Xlw 1. 目标：根据音乐内容，生成对应的演奏视频（类似于根据文本内容生成人物嘴唇变化） 2. 方法： 1）选择小提琴与钢琴演奏两种场景为目标，采集演奏视频和音频 2）通过三个库来提取关键点：...

2018-07-26 14:03:03 593

原创【数据应用技巧】基于快速GeoHash，实现海量商品与商圈的高效匹配

案例来源：@阿里技术案例地址：https://mp.weixin.qq.com/s/vwhetMpQllczILptBNcoWg 0. 背景：闲鱼每天都有海量商品位置（点数据）与大量商圈（面数据）的匹配问题，如果计算每个点落在哪个面里，需要的计算复杂度非常高 1. 目标：在尽可能保持精度的前提下，快速判断每个商品位置（点数据）属于哪个商圈（面数据） 2. 方法： ...

2018-07-26 10:10:57 745

原创【数据应用案例】微软小冰英语作文改错——通过全新学习和推断机制提升seq2seq模型的语法改错性能

案例来源：@微软研究院AI头条案例地址：https://www.jiqizhixin.com/articles/2018-07-22-10 1. 目标：实现对英文作文的自动改错（见：https://mp.weixin.qq.com/s/6vPhyKnh4U4JYu-okDUX6Q，并从拼写、语法准确性、行文流畅性、内容丰富性、词汇句式使用程度等多个维度进行打分） 2. 难点：...

2018-07-25 12:51:51 1444

原创【校招面经】机器学习与数据挖掘常见面试题整理 part4

五十一、Hinge lossHinge loss 的叫法来源于其损失函数的图形，为一个折线，通用的函数表达式为：L(mi)=max(0,1−mi(w)) 表示如果被正确分类，损失是0，否则损失就是 1−mi(w) 。在机器学习中，Hing 可以用来解间距最大化的问题，最有代表性的就是SVM 问题，最初的SVM 优化函数如下：argminw,ζ12||w||2+C∑iζi...

2018-07-25 12:43:21 1133 1

原创【校招面经】机器学习与数据挖掘常见面试题整理 part3

四十一、请简要说说EM算法有时候因为样本的产生和隐含变量有关（隐含变量是不能观察的），而求模型的参数时一般采用最大似然估计，由于含有了隐含变量，所以对似然函数参数求导是求不出来的，这时可以采用EM算法来求模型的参数的（对应模型参数个数可能有多个），EM算法一般分为2步：　　E步：选取一组参数，求出在该参数下隐含变量的条件概率值；　　M步：结合E步求出的隐含变量条件概率，求出似然函数下界函数...

2018-07-25 12:41:35 1091

原创【校招面经】机器学习与数据挖掘常见面试题整理 part2

三十、随机森林如何评估特征重要性衡量变量重要性的方法有两种，Decrease GINI 和 Decrease Accuracy： 1) Decrease GINI：对于回归问题，直接使用argmax(VarVarLeftVarRight)作为评判标准，即当前节点训练集的方差Var减去左节点的方差VarLeft和右节点的方差VarRight。 2) Decrease Accuracy：对于一棵...

2018-07-25 12:36:40 1298

原创【数据应用案例】腾讯知文团队负责人钟黎：从 0 到1 打造下一代智能对话引擎

案例来源：@AI科技评论案例地址：https://mp.weixin.qq.com/s/621j43q_rTWYm3EupgsSGw 1. 目标：打造通用智能问答平台 2. 智能问答平台的三种类型： 1）任务驱动型：如查天气、查汇率等 2）信息获取型：目前业界落地最多的智能问答平台类型 3）通用闲聊型：如微软小冰、苹果siri，使对话系统更人性化，...

2018-07-24 17:25:39 589

原创【数据应用案例】AI算法与道德规则如何平衡？IBM推出AI推荐技术

案例来源：@雷锋网案例地址：https://www.leiphone.com/news/201807/b1qadmWOWgBYVs1b.html 1. 背景：现有推荐算法（如今日头条、netflix）容易让用户进入“过滤泡泡”，高度同质化的信息流阻碍人们认识真实的世界。同时一些家长也希望能限制儿童对一些色情、暴力信息的浏览。如果仅仅用规则法，难以过滤对所有情况进行过滤，因此采用一种...

2018-07-23 09:42:08 303

原创【校招面经】统计与概率基础 part1

注：以下是本人春招时看面经时收集的常见面试题，答案部分是由网上多个信息源整理而成，部分是个人解答。当时整理时只是自己看的，很多没有注明来源地址，后续有时间补上来源，如有侵权请告知。一、p值的含义其实理解起来很简单，基本原理只有3个： 1、一个命题只能证伪，不能证明为真 2、在一次观测中，小概率事件不可能发生 3、在一次观测中，如果小概率事件发生了，那就是假设命题为假证明逻辑就是：...

2018-07-23 00:18:21 2284

原创【校招面经】数据库 part1

注：以下是本人春招时看面经时收集的常见面试题，答案部分是由网上多个信息源整理而成，部分是个人解答。当时整理时只是自己看的，很多没有注明来源地址，后续有时间补上来源，如有侵权请告知。一、SQL Select语句的执行顺序1. from子句来计算关系； 2. where子句基于指定的条件对记录行进行筛选； 3. group by子句将数据划分为多个分组； 4. 使用having子句筛...

2018-07-23 00:16:15 1902

原创【校招面经】机器学习与数据挖掘常见面试题整理 part1

注：以下是本人春招时看面经时收集的常见面试题，答案部分是由网上多个信息源整理而成，部分是个人解答。当时整理时只是自己看的，很多没有注明来源地址，后续有时间补上来源，如有侵权请告知。一、PCA为什么要中心化因为要算协方差。单纯的线性变换只是产生了倍数缩放，无法消除量纲对协方差的影响，而协方差是为了让投影后方差最大。二、PCA的主成分是什么在统计学中，主成分分析（PCA...

2018-07-23 00:12:13 11201 1

原创【校招面经】阿里巴巴_数据分析岗_面试笔试题

（注：以下题目主要来自牛客网等论坛，解答由个人解答，可能会出现错误，并非标准答案，欢迎大家进行讨论） 1. 请说明随机森林较一般决策树稳定的几点原因 1）bagging的方法，多个树投票提高泛化能力 2）bagging中引入随机（参数、样本、特征、空间映射），避免单棵树的过拟合，提高整体泛化能力 2. 什么是聚类分析？聚类算法有哪几种？请选择一种详细描述其计算原理和...

2018-07-21 19:47:46 52429 5

原创【数据应用案例】阿里巴巴基于改进注意力循环控制门的品牌个性化排序系统

案例来源：@阿里技术案例地址：https://mp.weixin.qq.com/s/pA1SSEnwC884LBZGiH3jhg 1. 背景：一些用户对品牌有偏好，但是目前天猫的排序系统是将品牌混杂着推给用户的，不能满足品牌偏好用户的需求 2. 目标：设计一个品牌排序系统，按照用户偏好的品牌顺序向用户推荐商品（如用户搜索词是jeans） 3. 特征工程 1...

2018-07-20 10:07:34 284

原创【数据分析案例】如何定义你的“亲密关系”

案例来源：@将门创投案例地址：https://mp.weixin.qq.com/s/vhOvZyL8ihacFTCfqs8LVg 1. 目标：对恋人间的亲密关系做量化，并找出影响亲密关系的关键因素 2. 数据来源：利用happy couple，恋人可以在上面回答一些与彼此相关的问题。收集到两大类数据： 1）回答的结果相同，那么定义为“相似” 2）关于对方的问...

2018-07-19 09:46:00 1140

原创【数据应用案例】用户画像与实践案例

——————思考：用户画像的最佳实践还是在互联网或者电信这种有用户各行动环节浏览记录的企业，对于线下B端企业，对于用户画像确实是难以做到的。即使是银行保险类企业，用户画像的数据源也需要与电信类企业合作。因此用户画像的能力需要平台赋能才能真正实现。用户画像目前基本等同于用户标签，主要有两个作用：作为上游数据源，为推荐、广告、搜索等下游产品线提供处理后的标签信息 ...

2018-07-18 12:56:52 24582 5

原创【数据应用案例】异动分析——指标逻辑树

案例来源：@美团技术博客案例地址：https://zhuanlan.zhihu.com/p/31676443 1. 目标：在BI实践中，快速定位到使某个业务指标发生异动的因素，并对该因素进行细分维度拆分，锁定细分维度对整体的影响 2. 框架 3. 过程 1）指标计算：将基础指标、自定义指标进行拆分，从数据源获取数据 2）分析算法： ...

2018-07-18 09:39:12 8253

原创【数据产品案例】DeepMind_无监督学习让AI学会画画

案例来源：@新智元案例地址：https://mp.weixin.qq.com/s?__biz=MzI3MTA0MTk1MA==&mid=2652016074&idx=4&sn=54d0ca24852b9b6556b1ff9ae2a09397&chksm=f121f93bc656702d6e9dd1423718776f8617ee03b29b28f79fb56ef3c...

2018-07-12 00:10:50 390

原创《机器学习技法》第16课笔记总结

课程来源：林轩田《机器学习技法》课程地址：https://www.bilibili.com/video/av12469267/?p=11. 特征转换方法1）kernel转换2）用分类平面信息作为特征转换3）抽取潜藏特征：kernel的权重也可以训练4）高维转换到低维度（压缩或投影）2. PCA与NN3. 最优化方法1）梯度下降法2）直接求解3）复杂问题的最优化方法3. 防止overfitting方...

2018-07-10 20:55:34 190

原创《机器学习技法》第15课笔记矩阵分解

课程来源：林轩田《机器学习技法》课程地址：https://www.bilibili.com/video/av12469267/?p=11. x是用户特征，y是用户对电影的评分，可以用这样的两层网络来训练2. 考虑到X是onehot过的，只有一个x是1，其它都是0，所以不需要再进行激活了，没有阈值要考虑，直接输入就输出，那么可以线性神经元。这时就称为线性神经网络3. 估算的用户评分，就是先经过第一层...

2018-07-10 20:53:44 256

原创《机器学习技法》第14课笔记径向基函数

课程来源：林轩田《机器学习技法》课程地址：https://www.bilibili.com/video/av12469267/?p=11. radial basis function其实由两部分组成1）radial：径向，即只跟x和x'的距离有关2）basis function：多个基础方程的线性组合2. RBF与NN：RBF分成两层，第一层求x到中心点们的距离，第二层进行投票3. RBF主要求解...

2018-07-10 20:51:52 217

原创《机器学习技法》第13课笔记深度学习

课程来源：林轩田《机器学习技法》课程地址：https://www.bilibili.com/video/av12469267/?p=11. 深度学习面临的问题1）结构构造问题：可以引入领域知识，如CNN实际上就是认为，两个像素相邻太远，它们之间的关联就没有太大意义，所以两个神经元不用相连2. pre-train1）从浅层开始，一层一层训练，每训练好一层就把权重固定住，这样得到整个深层网络的初始值。...

2018-07-10 20:49:50 195

原创《机器学习技法》第12课笔记神经网络

课程来源：林轩田《机器学习技法》课程地址：https://www.bilibili.com/video/av12469267/?p=11. 什么时候tanh（xw）最大？当x和w平行时最大。所以实际上可以把每个神经元看成是对输入变量的模式进行学习。2. 链式求导 s是神经元。3. 训练神经元时，当w很大，这时候tanH（扁S型）就会落在很平的区域，这时候下降就很慢。所以建议初始w的参...

2018-07-10 20:48:43 204

原创【数据产品案例】微软-Dynamics与Azure应用于B端企业

思考微软服务的是B端大型企业，因此相对于服务于中小商户的口碑、百度外卖商户通等产品，B端大型企业对于员工绩效管理、客户管理、数据分析有更大的需求，其中数据分析部分中小商户需要的是端到端的数据产品（由数据直接到行为，如千人多面优惠券一键发放），大型企业有自己的数据分析团队和对数据价值较清楚的认知，因此提供数据报表、仪表盘等对于大型企业是有价值的下文案例中，大部分B端大型企业的信息化还是不充分的，...

2018-07-10 10:58:58 1051

原创【数据产品案例】更善于自动抓拍「有趣」瞬间：谷歌 Clips AI 拍照新技术

案例来源：@AI科技评论案例地址：https://mp.weixin.qq.com/s/QIAo3NVC7u7_ZEdSmBkybQ1. 目标：在google clips抓拍的视频中自动选取出用户可能会喜欢的视频片段。为了避免用户隐私泄露，模型输出需要在相机本地完成。2. 评估好与坏：1）将每个视频分割成若干个短视频片段，随机选取其中两个片段，标注人员标注谁比较好2）成对评估难度会比直接标注视频分...

2018-07-10 10:03:43 278

原创《机器学习技法》第11课笔记 AdaBoost tree

课程来源：林轩田《机器学习技法》课程地址：https://www.bilibili.com/video/av12469267/?p=11. 每棵树只有一层高时2. 怎么给样本加权？如果再树切分中加权，很麻烦。一种方式是给每个样本一个权重，然后按权重进行抽样，这样权重高的样本就更容易被注意到。3. 权重的设置4. 投票权重和SVM中的点到超平面的距离很像，差别是没有常数项和正则化5. 推导，...

2018-07-09 22:38:59 267

原创《机器学习技法》第10课笔记随机森林

课程来源：林轩田《机器学习技法》课程地址：https://www.bilibili.com/video/av12469267/?p=11. bagging与boosting能否结合在一起？2. 随机森林中除了随机样本和随机特征，还可以把随机特征看成是向一个低维空间的投影，这时候一些特征就要进行组合这种方式下，其实更像是感知机模型了。 1）要投影，要先进行加权分数操作 2）分类，...

2018-07-09 22:37:48 293

原创《机器学习技法》第9课笔记决策树

课程来源：林轩田《机器学习技法》课程地址：https://www.bilibili.com/video/av12469267/?p=11. 纯度度量：针对多分类情况，为了把每个类别都考虑进去，所以用了现在的纯度计算法2. 如何对决策树进行正则化？一种思路是对叶子数量进行惩罚，找到错误率+叶子节点数量最低的结果。这种方法的困难在于要便利所有树的可能，所以一种思路是先生成完全树，然后再...

2018-07-09 22:36:21 191

原创《机器学习技法》第8课笔记 Adaptive Boosting

课程来源：林轩田《机器学习技法》课程地址：https://www.bilibili.com/video/av12469267/?p=11. AdaBoosting的效果2. AdaBoost能够引入非线性。如我们这里只用了一个非常简单的分类器，每次只对一个维度切一刀，但是经过足够多次的AdaBoost，还是能得到较好的结果。3. 做人脸识别：切成N张图片，每张图片打分是否是人脸，差的直接过...

2018-07-09 22:35:18 256

原创《机器学习技法》第7课笔记 blending and bagging

课程来源：林轩田《机器学习技法》课程地址：https://www.bilibili.com/video/av12469267/?p=11. 设G是g的blending，可以证明G比所有g的平均表现要好，至少相等2. 可以看到，投票过程的下限是bias，去掉的是variance3. 不知道怎么做到的，但是好强 3. 制造g的方法4. bootstrap...

2018-07-09 22:34:07 233

原创《机器学习技法》第5课笔记核函数逻辑回归

课程来源：林轩田《机器学习技法》课程地址：https://www.bilibili.com/video/av12469267/?p=11. wrap-up2. 可以将条件转化写入方程中，使我们更容易理解 soft kernel3. 这时候会发现很有趣的，我们其实在做的就是正则化。之所以不从正则化方程的角度讲解soft kernel，是因为这个方程不容易导去QP问题4. soft kerne...

2018-07-09 22:29:48 547

原创《机器学习技法》第4课笔记 Soft Kernel

课程来源：林轩田《机器学习技法》课程地址：https://www.bilibili.com/video/av12469267/?p=11. 如何放宽一些条件，提高泛化能力？借鉴pocket方法，允许一定数量的点犯错，但是犯错的点越少越好。2. 但是这样有两个问题1）不再是线性，不能用二次规划解2）不能区分犯大错和小错的情况3. 因此改成根据错误的大小来惩罚，这样又变回了线性问题，可以用QP...

2018-07-09 22:25:54 221

原创《机器学习技法》第3课笔记 Kernel核函数

课程来源：林轩田《机器学习技法》课程地址：https://www.bilibili.com/video/av12469267/?p=11. z是转换后的高维空间，那么我们要算ztz，就要先把x转换到z，然后再算z的内积。能不能偷吃步，不用算高维空间的内积？2. 假设这样一个转换函数，它会求x内两两元素的组合，通过这样转换到高维空间。那么将它展开，可以一直化简，最后我们只要算xx的内积就行了...

2018-07-09 22:25:02 704

原创《机器学习技法》第2课笔记对偶学习问题

课程来源：林轩田《机器学习技法》课程地址：https://www.bilibili.com/video/av12469267/?p=11. 目标：希望能把转换空间后d+1维的问题，简化为N维的计算2. 拉格朗日对偶问题：将有条件的最优化问题转换为无条件的最优化问题3. 将SVM转换为对偶问题4. 求解目标：5. 对偶问题等于原问题的证明：1）当yn*（）不满足原条件时，得到的是正数，那么an取最大...

2018-07-09 22:24:06 663

原创《机器学习技法》第1课笔记线性SVM

课程来源：林轩田《机器学习技法》课程地址：https://www.bilibili.com/video/av12469267/?p=11. 为什么要选择最右边这个分类线？因为考虑了测量误差的情况下，右边的分类线鲁棒性最强。2. SVM推导1）平面上的点满足2）两个平面上的点相减会等于0，w提出来，这里的w就是法向量。平面外的点到平面的距离，就是在法向量上的投影长度3）计算点到平面的距离。因...

2018-07-09 22:22:44 207

原创【数据产品案例】口碑-会员分析

——————————思考优惠券主要类型二次券提高复购率单品券进行引流满减券提高客单精准营销券拉特定客群（如大学生专享券）口碑做得最好的是形成了数据分析的闭环，“数据分析→行为（优惠券发放）→结果（优惠券核销）→产生优惠券投放案例”。这种方式一是让数据分析的结果给商家很明确的反馈（增加了营收），同时也增加了数据（沉淀了优惠券投放数据），有利于更精准的营销一键投放优惠券非常有效，大部分商家都有营销需求...

2018-07-06 19:07:10 4890

原创【数据产品案例】百度外卖商户通

——————————思考为商户提供数据分析功能时，当同时拥有平台信息和商户信息，就能利用平台信息识别出某用户的画像（如高客单、高客频），根据商户该用户画像（如低客单、高客频），找出gap（高客单-低客单），这样就能帮助商户发现具体用户的挖掘点，有针对性地进行营销在百度外卖商户通中能完成数据分析的闭环，数据分析→行为（针对不同用户群体的活动与优惠券）→数据反馈。数据产品在这里起到的作用是“为不同类人...

2018-07-05 15:03:37 1132

原创【数据应用案例】知乎瓦力机器人识别“阴阳怪气”回复

案例来源：@AI科技评论案例地址：https://mp.weixin.qq.com/s/eVbRkwQu0BQKTblKMZAsfA 1. 目标：知乎中有“你可真是棒棒的”、“你开心就好”等评论，识别并过滤这些评论有助于提高社区讨论质量 2. 数据获取： 1）根据“举报”和“踩”，得到“阴阳怪气”样本 2）通过同义词替换，扩大样本量 3）根据提取的...

2018-07-04 09:53:58 3829

转载【数据应用技巧】选择合适的损失函数（回归篇）

案例来源：@AI科技评论案例地址：https://mp.weixin.qq.com/s/Gt8Q4Wm36DoNBO4xI8SJAw1. MSE（均方误差，L2）1）损失函数是预测与目标之间的误差平方和2）对离群点鲁棒性差，当误差超过1时，平方会很大，所以模型容易偏向离群点。可以这么理解，当只输出统一的一个预测值时，MSE最优情况下会输出平均数，平均数对离群点不鲁棒3）如果离群点是异常值，是对业务...

2018-07-03 09:50:30 2646

空空如也

空空如也