数据产品笔记

聚焦数据的应用场景
私信 关注
稻蛙
码龄7年
  • 526,787
    被访问量
  • 134
    原创文章
  • 14,056
    作者排名
  • 828
    粉丝数量
  • 于 2014-01-05 加入CSDN
获得成就
  • 获得395次点赞
  • 内容获得88次评论
  • 获得1,900次收藏
荣誉勋章
TA的专栏
  • 数据分析案例
    13篇
  • 数据产品案例
    77篇
  • 数据类职位面试
    24篇
  • 数据应用技巧
    19篇
  • 思考
    2篇
  • 最近
  • 文章
  • 资源
  • 问答
  • 课程
  • 帖子
  • 收藏
  • 关注/订阅

【数据应用案例】阿里巴巴客服助手_人机协作提高客服效率

案例来源:@阿里巴巴机器智能案例地址:https://weibo.com/ttarticle/p/show?id=2309404343904739692374一、背景1. 阿里每天客服进线量大,除了机器客服外,人工客服仍不可避免,提高人工客服效率能保障用户体验2. 客服接入电话主要有三个耗时过程:1)确定会员名;2)确定订单号;3)确定问题&找到解决方案二、...
原创
1168阅读
0评论
1点赞
发布博客于 2 年前

【数据应用案例】关系数据的隐私保护

案例来源:@关会华 阿里技术案例地址:https://mp.weixin.qq.com/s/4Eqh4p0j3cDj_0M4VAG-aA 0. 背景:    1)关系数据描述的是实体与实体之间的联系,如人与人之间的交际关系、企业与企业之间的关联交易关系等。通过关系数据可以生成一张大网,也成为网络数据或者图数据    2)关系数据的研究包括子群识别、信息传播、欺诈识别等   ...
原创
1474阅读
3评论
1点赞
发布博客于 3 年前

【数据应用案例】人群优选算法模型,挖掘品牌潜客

案例来源:@阿里巴巴机器智能案例地址:https://mp.weixin.qq.com/s/OF51cPHD7C3rfw-WW5NA3Q 导读:为A电商做年货节品牌营销,目标是识别目标受众,广告投放后由“机会人群”转向“兴趣人群”的比例更高。解决方案是:第一步:多方向人群扩散。通过兴趣偏好、品类偏好、竞品受众、搜索人群、流失人群、lookalike人群 六个方向获得潜客名单...
原创
2199阅读
0评论
1点赞
发布博客于 3 年前

【数据应用案例】基于图像搜索引擎的图文无关识别方法

案例来源:@字节跳动技术团队案例地址:https://www.jianshu.com/p/5bab8008e98e 0. 背景:知乎、悟空问答中,用户的回答配上美女、风景图,能大大提高点击率和点赞率,这样对正常回答的内容不公平,影响排序质量。需要找到一种方法,识别图文不符的内容,降低其排序权重。 1. 传统方法:  1)色情图片识别  2)OCR技术:从图片中识别文字,...
原创
636阅读
2评论
0点赞
发布博客于 3 年前

【数据应用案例】摩拜骑行数据挖掘违章停车

案例来源:@机器之心作者:Tianfu He、Jie Bao、Ruiyuan Li、Sijie Ruan、Yanhua Li、Chao Tian、Yu Zheng案例地址:https://mp.weixin.qq.com/s/oGSk9Hsu6lbthJjLHF59Hg 0. 背景:随着汽车保有量增加,停车位供不应求,违章停车现象增加。传统的检测违停的方式是交警巡逻和摄像头检测...
原创
944阅读
0评论
0点赞
发布博客于 3 年前

【思考题】新客老客定义

一、问题数据分析的两层模型中,第一层就是对分析对象做细分,然后第二层看指标异动。针对用户的分析中,最常见的细分方式是做“新客/老客”分析,对新客老客的行为、画像进行分析。在实际应用中,发现“新客/老客”的概念有二义,因此做辨析。考虑下面一种场景:某店A顾客1月份第一次到店,以后每月到店1次;B顾客2月份第一次到店,以后每月到店1次;依次类推,如图所示:   ...
原创
3890阅读
6评论
1点赞
发布博客于 3 年前

【数据产品案例】阿里XSigma智能客服调度平台

案例来源:@阿里技术案例地址:https://mp.weixin.qq.com/s/nqOvcKtxpqehWFO4XkXr5g 0. 背景:以往的客服调度由人工进行,效率低、手段少、无法评测,难以有效应对并发的客服需求(如天猫某个优惠券出了问题,可能瞬间涌入上千通热线) 1. 客服调度的难点:    1)机房可以快速增加设备,客服上岗需要培训    2)客服间差异大,...
原创
1641阅读
0评论
0点赞
发布博客于 3 年前

【思考题】类滴滴顺风车业务的风险控制

0. 背景:    1)滴滴顺风车业务在短期内出现多起司机杀害乘客事件    2)专车、快车、顺风车对应的是不同定价水平的“黑车”,该市场长期存在,滴滴等网约车平台只是将其搬到线上。    3)随着专车的网约车牌照审核要求不断提升,一些黑车司机选择顺风车作为获客的来源。同时中国存在许多城镇间交通,这类交通需求出租车、专车不愿意接(过去后很难找到返程的乘客)或者价格昂贵,大巴客运便捷性低...
原创
2149阅读
0评论
3点赞
发布博客于 3 年前

【数据应用案例】医院里的男性就是医生,女性就是护士?NLP 模型的性别偏见到底有多大?

案例来源:@WBLUE @Ben Packer @Yoni Halpern案例地址:https://www.leiphone.com/news/201805/UPjA3tnsC9HY4SLx.html;https://chinagdg.org/2018/04/text-embedding-models-contain-bias-heres-why-that-matters/ 0. ...
原创
570阅读
0评论
0点赞
发布博客于 3 年前

【数据应用技巧】阿里UC视频推荐优化

案例来源:@阿里技术案例地址:https://mp.weixin.qq.com/s/lb5b-7ImTI0hlFwIBkpqxQ 0. 背景:    视频优化目标    1)感知相关性优化:CTR为目标    2)真实相关性优化:停留时长RDTM/播放完成率PCR    强调感知相关性(CTR)的情况下,会造成用户兴趣收窄、头部流量集中的问题。因此需要引入真实相关性,提...
原创
1152阅读
0评论
0点赞
发布博客于 3 年前

【数据应用案例】隐私保护与PATE方法

案例来源:@百度安全实验室 @AI科技评论 @雷锋网案例地址:http://www.freebuf.com/column/147115.html,https://mp.weixin.qq.com/s/k-nACTv7IhTgfevkdDZ8rQ,http://wemedia.ifeng.com/28852972/wemedia.shtml 0. 背景:对于公开的数据集和模型,里面包含了...
原创
3215阅读
0评论
6点赞
发布博客于 3 年前

【数据应用案例】美团外卖语音助手

案例来源:@美团技术团队案例地址:https://tech.meituan.com/herenqing_ai_con.html 0. 背景:骑手在配送时打电话有三个困难:    1)决策复杂:什么时候打电话?打晚了影响配送速度,打早了影响用户体验    2)操作繁琐与危险:一次操作手机要5-6个操作,大部分在骑电瓶车的时候使用,很危险 1. 目标:美团外卖语音助手解决方...
原创
2095阅读
0评论
0点赞
发布博客于 3 年前

【数据应用案例】根据代码风格识别作者

案例来源:@量子位 @Edwin Dauber @Aylin Caliskan案例地址:https://mp.weixin.qq.com/s/2Jv2TBS_jFrdfRN7rZStLw;https://arxiv.org/pdf/1701.05681.pdf 1. 目标:根据代码,识别代码属于哪个作者。可应用于代码抄袭检测 2. 数据:从github上获取1178个作者的C+...
原创
342阅读
0评论
0点赞
发布博客于 3 年前

【数据应用案例】阿里巴巴长标题压缩

案例来源:@阿里巴巴机器智能案例地址:https://mp.weixin.qq.com/s/m31WKGLIe6P2bA02b8uV8Q;https://arxiv.org/pdf/1801.01725.pdf 0. 背景:阿里巴巴平台上的商户为了提高用户搜索中的召回率,会在标题堆砌很多关键词。在手机淘宝的搜索结果中,需要对长标题进行压缩,提高C端用户的体验,提高点击率 1. ...
原创
453阅读
1评论
2点赞
发布博客于 3 年前

【数据应用案例】DeepMind听声辨位

案例来源:@机器之心案例地址:https://mp.weixin.qq.com/s/ywU4L659iRcmIgmV6RtbXA;https://arxiv.org/pdf/1712.06651.pdf 1. 目标:利用同时具有音频和视频的数据进行训练,进而识别出某段音频是否可能由某段视频产生(如弹吉他、说话、酒杯摔碎),并识别出声音是由哪个部分产生的 2. 匹配音频与视频...
原创
735阅读
4评论
0点赞
发布博客于 3 年前

【数据应用案例】openFive dota5v5战胜人类

@案例来源:@AI科技大本营 @AI科技评论 @论智@案例地址:https://mp.weixin.qq.com/s/exvP4FucUfeOONsUkyTz7w;https://mp.weixin.qq.com/s/-llCCnFkDypVNiEh4yjNMg;https://www.jqr.com/article/000306 0. 背景:美国时间8月5日,open AI的5v5d...
原创
447阅读
0评论
0点赞
发布博客于 3 年前

【数据应用案例】使用时空自编码器检测视频异常事件

案例来源:@阿里巴巴机器智能案例地址:https://mp.weixin.qq.com/s/rUuaaBI3McesED3VVVbsBw 1. 目标:识别视频中的异常事件(如车祸) 2. 难点:正例数据量远远小于负例,同时正例之间的差异性很大,因此难以采用有监督方法进行训练。传统解决方法是使用无监督方法为正常视频建模,然后将异常值视为异常事件。 3. 解决思路:  ...
原创
1650阅读
0评论
1点赞
发布博客于 3 年前

【数据应用案例】通过字体识别国籍

案例来源:@量子位案例地址:https://mp.weixin.qq.com/s/m8IQNuCZUCHUUzw1OZEJpg 1. 目标:基于字体,识别国籍(中国、印度、马来西亚、孟加拉国、伊朗五个国家) 2. 数据预处理    1)处理文本图像中的噪点    2)抽取行文本图像 2. 特征工程    1)字母间距离    2)Cloud of...
原创
313阅读
0评论
0点赞
发布博客于 3 年前

【数据应用技巧】NLP领域的预训练之风

案例来源:@AI科技评论 @集智翻译组 @人工智能LeadAI案例地址:https://mp.weixin.qq.com/s/NCLkZqdmqY9lm5BhyEcLXQ;https://www.sohu.com/a/233269391_395209;https://arxiv.org/pdf/1801.06146.pdf;http://wemedia.ifeng.com/64207141/w...
原创
916阅读
0评论
0点赞
发布博客于 3 年前

【校招面经】机器学习与数据挖掘常见面试题整理 part9

八十、SVM的核函数from:https://blog.csdn.net/lihaitao000/article/details/51173459SVM核函数包括线性核函数、多项式核函数、径向基核函数、高斯核函数、幂指数核函数、拉普拉斯核函数、ANOVA核函数、二次有理核函数、多元二次核函数、逆多元二次核函数以及Sigmoid核函数. 核函数的定义并不困难,根据泛函的有关理论,只要一种函数...
原创
1016阅读
0评论
1点赞
发布博客于 3 年前

【校招面经】机器学习与数据挖掘常见面试题整理 part8

七十六、t-SNEfrom:http://www.datakit.cn/blog/2017/02/05/t_sne_full.htmlt-SNE(t-distributed stochastic neighbor embedding)是用于降维的一种机器学习算法,是由 Laurens van der Maaten 和 Geoffrey Hinton在08年提出来。此外,t-SNE 是一种非...
原创
1082阅读
0评论
1点赞
发布博客于 3 年前

【校招面经】机器学习与数据挖掘常见面试题整理 part7

七十、势函数法from:https://www.cnblogs.com/huadongw/p/4106290.html势函数主要用于确定分类面,其思想来源于物理。1 势函数法基本思想假设要划分属于两种类别ω1和ω2的模式样本,这些样本可看成是分布在n维模式空间中的点xk。 把属于ω1的点比拟为某种能源点,在点上,电位达到峰值。 随着与该点距离的增大,电位分布迅速减小,即把样本x...
原创
658阅读
0评论
1点赞
发布博客于 3 年前

【校招面经】数据库 part2

七、数据库范式1. 1NF:不存在可以分的属性2. 2NF:每一个非主属性依赖于关系模型的某个候选键3. 3NF:不存在非主属性的传递依赖于关系模型的侯选建4. BCNF:每个属性都不存在传递依赖于关系模型的侯选建1NF: 字段是最小的的单元不可再分2NF:满足1NF,表中的字段必须完全依赖于全部主键而非部分主键 (一般我们都会做到)3NF:满足2NF,非主键外的所有字...
原创
399阅读
0评论
0点赞
发布博客于 3 年前

【校招面经】统计与概率基础 part2

十六、对偶问题线性规划有一个有趣的特性,就是任何一个求极大的问题都有一个与其匹配的求极小的线性规划问题。例;原问题为MAX X=8*Z1+10*Z2+2*Z3s.t. 2*Z1+1*Z2+3*Z3 〈=704*Z1+2*Z2+2*Z3 〈=803*Z1+ 1*Z3 〈=152*Z1+2*Z2 〈=50Z1,Z2,Z3 〉=0Z则其对偶问题为MIN =70*Y...
原创
581阅读
0评论
2点赞
发布博客于 3 年前

【校招面经】计算机基础

一、java中Array和ArrayList区别1)精辟阐述:可以将 ArrayList想象成一种“会自动扩增容量的Array”。2)Array([]):最高效;但是其容量固定且无法动态改变;     ArrayList:  容量可动态增长;但牺牲效率;3)建议:基于效率和类型检验,应尽可能使用Array,无法确定数组大小时才使用ArrayList!不过当你试着解决更一...
原创
1872阅读
0评论
2点赞
发布博客于 3 年前

【校招面经】机器学习与数据挖掘常见面试题整理 part6

六十五、海量的 item 算文本相似度的优化方法 —— simhashfrom:https://blog.csdn.net/chenguolinblog/article/details/50830948背景如何设计一个比较两篇文章相似度的算法?可能你会回答几个比较传统点的思路:一种方案是先将两篇文章分别进行分词,得到一系列特征向量,然后计算特征向量之间的距离(可以计算它们之间的欧氏...
原创
434阅读
0评论
1点赞
发布博客于 3 年前

【校招面经】机器学习与数据挖掘常见面试题整理 part5

五十九、计量经济学中的平稳性  六十、高斯混合分布1. 生成模型2. 认为点是由多个高斯分布产生的,每个点可以归入多个类3. 目标是使观测到的点在生成的高斯分布中出现概率最大 在做参数估计的时候,常采用的方法是 最大似然 。最大似然法就是使样本点在估计的概率密度函数上的概率值最大 。由于概率值一般都很小, N 很大的时候这个连乘的结果非常小,容易造成浮点数下溢。...
原创
402阅读
0评论
1点赞
发布博客于 3 年前

【数据应用案例】基于机器学习方法与眼球移动信号的性格检测

案例来源:@将门创投案例地址:https://mp.weixin.qq.com/s/HTIykLcgJkW7tfvXF72Y1Q;https://www.frontiersin.org/articles/10.3389/fnhum.2018.00105/full 1. 目标:通过眼球运动判断用户的性格 2. 方法:    1)使用眼动仪收集被试者在生活中的眼球运动   ...
原创
288阅读
0评论
0点赞
发布博客于 3 年前

【数据应用案例】atom2vec,通过无监督学习的方式复现元素周期表

案例来源:@量子位 @CoupMF @新智元案例地址:https://mp.weixin.qq.com/s/fOOXBImDHEeweYTcMZ1cBg;https://cloud.tencent.com/developer/news/260987;https://xueqiu.com/3426965578/109607389 1. 目标:让模型学习现有的分子结构式,将同类型的原子归类...
原创
346阅读
0评论
1点赞
发布博客于 3 年前

【数据应用案例】担心在机场丢行李?这个日本AI能帮你到处找包

案例来源:@量子位案例地址:https://mp.weixin.qq.com/s/g3JePFenmgt9dRmMuECLDA 1. 场景1-找包:    1)CV识别包    2)追踪各监控中包的移动轨迹,预测包可能丢失的地点 2. 场景2-找人:    1)为了避免侵犯个人隐私,不采用人脸识别的方式是别人,而是根据头发、衣着、背包、身高、鞋子颜色等120个特征建...
原创
274阅读
0评论
0点赞
发布博客于 3 年前

【数据应用案例】教神经网络写汉字

案例来源:@新智元 @量子位案例地址:https://mp.weixin.qq.com/s/aqfwn0kiXbZwVDVhHXBAXQ;https://mp.weixin.qq.com/s/78GXuz6Sfi7YffSw4Rwgng;http://blog.otoro.net/2015/12/28/recurrent-net-dreams-up-fake-chinese-character...
原创
288阅读
0评论
0点赞
发布博客于 3 年前

【数据应用案例】神“乐”马良:AI直接将音频转换成动画

案例来源:@新智元案例地址:https://mp.weixin.qq.com/s/XljHirBxi_n3lw2WfB2Xlw 1. 目标:根据音乐内容,生成对应的演奏视频(类似于根据文本内容生成人物嘴唇变化)      2. 方法:    1)选择小提琴与钢琴演奏两种场景为目标,采集演奏视频和音频    2)通过三个库来提取关键点:...
原创
295阅读
0评论
0点赞
发布博客于 3 年前

【数据应用技巧】基于快速GeoHash,实现海量商品与商圈的高效匹配

案例来源:@阿里技术案例地址:https://mp.weixin.qq.com/s/vwhetMpQllczILptBNcoWg 0. 背景:闲鱼每天都有海量商品位置(点数据)与大量商圈(面数据)的匹配问题,如果计算每个点落在哪个面里,需要的计算复杂度非常高 1. 目标:在尽可能保持精度的前提下,快速判断每个商品位置(点数据)属于哪个商圈(面数据) 2. 方法:  ...
原创
553阅读
0评论
1点赞
发布博客于 3 年前

【数据应用案例】微软小冰英语作文改错——通过全新学习和推断机制提升seq2seq模型的语法改错性能

案例来源:@微软研究院AI头条案例地址:https://www.jiqizhixin.com/articles/2018-07-22-10 1. 目标:实现对英文作文的自动改错(见:https://mp.weixin.qq.com/s/6vPhyKnh4U4JYu-okDUX6Q,并从拼写、语法准确性、行文流畅性、内容丰富性、词汇句式使用程度等多个维度进行打分) 2. 难点:...
原创
1006阅读
0评论
0点赞
发布博客于 3 年前

【校招面经】机器学习与数据挖掘常见面试题整理 part4

五十一、Hinge lossHinge loss 的叫法来源于其损失函数的图形,为一个折线,通用的函数表达式为:L(mi)=max(0,1−mi(w)) 表示如果被正确分类,损失是0,否则损失就是 1−mi(w) 。在机器学习中,Hing 可以用来解 间距最大化 的问题,最有代表性的就是SVM 问题,最初的SVM 优化函数如下:argminw,ζ12||w||2+C∑iζi...
原创
763阅读
1评论
1点赞
发布博客于 3 年前

【校招面经】机器学习与数据挖掘常见面试题整理 part3

四十一、请简要说说EM算法有时候因为样本的产生和隐含变量有关(隐含变量是不能观察的),而求模型的参数时一般采用最大似然估计,由于含有了隐含变量,所以对似然函数参数求导是求不出来的,这时可以采用EM算法来求模型的参数的(对应模型参数个数可能有多个),EM算法一般分为2步:   E步:选取一组参数,求出在该参数下隐含变量的条件概率值;   M步:结合E步求出的隐含变量条件概率,求出似然函数下界函数...
原创
745阅读
0评论
1点赞
发布博客于 3 年前

【校招面经】机器学习与数据挖掘常见面试题整理 part2

三十、随机森林如何评估特征重要性衡量变量重要性的方法有两种,Decrease GINI 和 Decrease Accuracy: 1) Decrease GINI: 对于回归问题,直接使用argmax(VarVarLeftVarRight)作为评判标准,即当前节点训练集的方差Var减去左节点的方差VarLeft和右节点的方差VarRight。 2) Decrease Accuracy:对于一棵...
原创
810阅读
0评论
1点赞
发布博客于 3 年前

【数据应用案例】腾讯知文团队负责人钟黎:从 0 到1 打造下一代智能对话引擎

案例来源:@AI科技评论案例地址:https://mp.weixin.qq.com/s/621j43q_rTWYm3EupgsSGw 1. 目标:打造通用智能问答平台 2. 智能问答平台的三种类型:    1)任务驱动型:如查天气、查汇率等    2)信息获取型:目前业界落地最多的智能问答平台类型    3)通用闲聊型:如微软小冰、苹果siri,使对话系统更人性化,...
原创
376阅读
0评论
0点赞
发布博客于 3 年前

【数据应用案例】AI算法与道德规则如何平衡?IBM推出AI推荐技术

案例来源:@雷锋网案例地址:https://www.leiphone.com/news/201807/b1qadmWOWgBYVs1b.html 1. 背景:现有推荐算法(如今日头条、netflix)容易让用户进入“过滤泡泡”,高度同质化的信息流阻碍人们认识真实的世界。同时一些家长也希望能限制儿童对一些色情、暴力信息的浏览。如果仅仅用规则法,难以过滤对所有情况进行过滤,因此采用一种...
原创
195阅读
0评论
0点赞
发布博客于 3 年前

【校招面经】统计与概率基础 part1

注:以下是本人春招时看面经时收集的常见面试题,答案部分是由网上多个信息源整理而成,部分是个人解答。当时整理时只是自己看的,很多没有注明来源地址,后续有时间补上来源,如有侵权请告知。 一、p值的含义其实理解起来很简单,基本原理只有3个: 1、一个命题只能证伪,不能证明为真 2、在一次观测中,小概率事件不可能发生 3、在一次观测中,如果小概率事件发生了,那就是假设命题为假证明逻辑就是:...
原创
1511阅读
0评论
5点赞
发布博客于 3 年前

【校招面经】数据库 part1

注:以下是本人春招时看面经时收集的常见面试题,答案部分是由网上多个信息源整理而成,部分是个人解答。当时整理时只是自己看的,很多没有注明来源地址,后续有时间补上来源,如有侵权请告知。 一、SQL Select语句的执行顺序1. from子句来计算关系;   2. where子句基于指定的条件对记录行进行筛选; 3. group by子句将数据划分为多个分组; 4. 使用having子句筛...
原创
1587阅读
0评论
2点赞
发布博客于 3 年前

【校招面经】机器学习与数据挖掘常见面试题整理 part1

注:以下是本人春招时看面经时收集的常见面试题,答案部分是由网上多个信息源整理而成,部分是个人解答。当时整理时只是自己看的,很多没有注明来源地址,后续有时间补上来源,如有侵权请告知。 一、PCA为什么要中心化因为要算协方差。单纯的线性变换只是产生了倍数缩放,无法消除量纲对协方差的影响,而协方差是为了让投影后方差最大。 二、PCA的主成分是什么在统计学中,主成分分析(PCA...
原创
9050阅读
1评论
9点赞
发布博客于 3 年前

【校招面经】阿里巴巴_数据分析岗_面试笔试题

(注:以下题目主要来自牛客网等论坛,解答由个人解答,可能会出现错误,并非标准答案,欢迎大家进行讨论) 1. 请说明随机森林较一般决策树稳定的几点原因   1)bagging的方法,多个树投票提高泛化能力   2)bagging中引入随机(参数、样本、特征、空间映射),避免单棵树的过拟合,提高整体泛化能力 2. 什么是聚类分析?聚类算法有哪几种?请选择一种详细描述其计算原理和...
原创
39906阅读
5评论
36点赞
发布博客于 3 年前

【数据应用案例】阿里巴巴基于改进注意力循环控制门的品牌个性化排序系统

案例来源:@阿里技术案例地址:https://mp.weixin.qq.com/s/pA1SSEnwC884LBZGiH3jhg 1. 背景:一些用户对品牌有偏好,但是目前天猫的排序系统是将品牌混杂着推给用户的,不能满足品牌偏好用户的需求 2. 目标:设计一个品牌排序系统,按照用户偏好的品牌顺序向用户推荐商品(如用户搜索词是jeans) 3. 特征工程    1...
原创
188阅读
0评论
0点赞
发布博客于 3 年前

【数据分析案例】如何定义你的“亲密关系”

案例来源:@将门创投案例地址:https://mp.weixin.qq.com/s/vhOvZyL8ihacFTCfqs8LVg 1. 目标:对恋人间的亲密关系做量化,并找出影响亲密关系的关键因素 2. 数据来源:利用happy couple,恋人可以在上面回答一些与彼此相关的问题。收集到两大类数据:    1)回答的结果相同,那么定义为“相似”    2)关于对方的问...
原创
636阅读
0评论
0点赞
发布博客于 3 年前

【数据应用案例】用户画像与实践案例

——————思考: 用户画像的最佳实践还是在互联网或者电信这种有用户各行动环节浏览记录的企业,对于线下B端企业,对于用户画像确实是难以做到的。即使是银行保险类企业,用户画像的数据源也需要与电信类企业合作。因此用户画像的能力需要平台赋能才能真正实现。 用户画像目前基本等同于用户标签,主要有两个作用: 作为上游数据源,为推荐、广告、搜索等下游产品线提供处理后的标签信息 ...
原创
19786阅读
5评论
28点赞
发布博客于 3 年前

【数据应用案例】异动分析——指标逻辑树

案例来源:@美团技术博客案例地址:https://zhuanlan.zhihu.com/p/31676443 1. 目标:在BI实践中,快速定位到使某个业务指标发生异动的因素,并对该因素进行细分维度拆分,锁定细分维度对整体的影响 2. 框架 3. 过程    1)指标计算:将基础指标、自定义指标进行拆分,从数据源获取数据    2)分析算法:      ...
原创
4814阅读
0评论
4点赞
发布博客于 3 年前

【数据应用案例】Face2Face升级版——HeadOn

案例来源:@新智元案例地址:https://mp.weixin.qq.com/s/12_Gl4snq-LdMHJSZn4oOA 1. 目标:Face2Face已经能完成换脸,但是人的表情是伴随着行为的。HeadOn希望通过换脸+换动作(眼球运动、身体动作),实现更自然的换脸行为 2. 过程:    1)输入是RGB-D的视频数据    2)首先构造头部和躯干的proxy...
原创
1734阅读
0评论
0点赞
发布博客于 3 年前

【数据产品案例】DeepMind_无监督学习让AI学会画画

案例来源:@新智元案例地址:https://mp.weixin.qq.com/s?__biz=MzI3MTA0MTk1MA==&mid=2652016074&idx=4&sn=54d0ca24852b9b6556b1ff9ae2a09397&chksm=f121f93bc656702d6e9dd1423718776f8617ee03b29b28f79fb56ef3c...
原创
204阅读
0评论
1点赞
发布博客于 3 年前

《机器学习技法》第16课笔记 总结

课程来源:林轩田《机器学习技法》课程地址:https://www.bilibili.com/video/av12469267/?p=11. 特征转换方法1)kernel转换2)用分类平面信息作为特征转换3)抽取潜藏特征:kernel的权重也可以训练4)高维转换到低维度(压缩或投影)2. PCA与NN3. 最优化方法1)梯度下降法2)直接求解3)复杂问题的最优化方法3. 防止overfitting方...
原创
123阅读
0评论
0点赞
发布博客于 3 年前

《机器学习技法》第15课笔记 矩阵分解

课程来源:林轩田《机器学习技法》课程地址:https://www.bilibili.com/video/av12469267/?p=11. x是用户特征,y是用户对电影的评分,可以用这样的两层网络来训练2. 考虑到X是onehot过的,只有一个x是1,其它都是0,所以不需要再进行激活了,没有阈值要考虑,直接输入就输出,那么可以线性神经元。这时就称为线性神经网络3. 估算的用户评分,就是先经过第一层...
原创
125阅读
0评论
0点赞
发布博客于 3 年前

《机器学习技法》第14课笔记 径向基函数

课程来源:林轩田《机器学习技法》课程地址:https://www.bilibili.com/video/av12469267/?p=11. radial basis function其实由两部分组成1)radial:径向,即只跟x和x'的距离有关2)basis function:多个基础方程的线性组合2. RBF与NN:RBF分成两层,第一层求x到中心点们的距离,第二层进行投票3. RBF主要求解...
原创
118阅读
0评论
0点赞
发布博客于 3 年前

《机器学习技法》第13课笔记 深度学习

课程来源:林轩田《机器学习技法》课程地址:https://www.bilibili.com/video/av12469267/?p=11. 深度学习面临的问题1)结构构造问题:可以引入领域知识,如CNN实际上就是认为,两个像素相邻太远,它们之间的关联就没有太大意义,所以两个神经元不用相连2. pre-train1)从浅层开始,一层一层训练,每训练好一层就把权重固定住,这样得到整个深层网络的初始值。...
原创
121阅读
0评论
1点赞
发布博客于 3 年前

《机器学习技法》第12课笔记 神经网络

课程来源:林轩田《机器学习技法》课程地址:https://www.bilibili.com/video/av12469267/?p=11. 什么时候tanh(xw)最大?当x和w平行时最大。 所以实际上可以把每个神经元看成是对输入变量的模式进行学习。2. 链式求导 s是神经元。3. 训练神经元时,当w很大,这时候tanH(扁S型)就会落在很平的区域,这时候下降就很慢。所以建议初始w的参...
原创
127阅读
0评论
0点赞
发布博客于 3 年前

【数据产品案例】微软-Dynamics与Azure应用于B端企业

思考微软服务的是B端大型企业,因此相对于服务于中小商户的口碑、百度外卖商户通等产品,B端大型企业对于 员工绩效管理、客户管理、数据分析 有更大的需求,其中数据分析部分中小商户需要的是端到端的数据产品(由数据直接到行为,如千人多面优惠券一键发放),大型企业有自己的数据分析团队和对数据价值较清楚的认知,因此提供数据报表、仪表盘等对于大型企业是有价值的下文案例中,大部分B端大型企业的信息化还是不充分的,...
原创
429阅读
0评论
0点赞
发布博客于 3 年前

【数据产品案例】更善于自动抓拍「有趣」瞬间:谷歌 Clips AI 拍照新技术

案例来源:@AI科技评论案例地址:https://mp.weixin.qq.com/s/QIAo3NVC7u7_ZEdSmBkybQ1. 目标:在google clips抓拍的视频中自动选取出用户可能会喜欢的视频片段。为了避免用户隐私泄露,模型输出需要在相机本地完成。2. 评估好与坏:1)将每个视频分割成若干个短视频片段,随机选取其中两个片段,标注人员标注谁比较好2)成对评估难度会比直接标注视频分...
原创
138阅读
0评论
0点赞
发布博客于 3 年前

《机器学习技法》第11课笔记 AdaBoost tree

课程来源:林轩田《机器学习技法》课程地址:https://www.bilibili.com/video/av12469267/?p=11. 每棵树只有一层高时2. 怎么给样本加权?如果再树切分中加权,很麻烦。 一种方式是给每个样本一个权重,然后按权重进行抽样,这样权重高的样本就更容易被注意到。3. 权重的设置4. 投票权重和SVM中的点到超平面的距离很像,差别是没有常数项和正则化5. 推导,...
原创
159阅读
0评论
1点赞
发布博客于 3 年前

《机器学习技法》第10课笔记 随机森林

课程来源:林轩田《机器学习技法》课程地址:https://www.bilibili.com/video/av12469267/?p=11. bagging与boosting能否结合在一起?2. 随机森林中除了随机样本和随机特征,还可以把随机特征看成是向一个低维空间的投影,这时候一些特征就要进行组合 这种方式下,其实更像是感知机模型了。 1)要投影,要先进行加权分数操作 2)分类,...
原创
163阅读
0评论
0点赞
发布博客于 3 年前

《机器学习技法》第9课笔记 决策树

课程来源:林轩田《机器学习技法》课程地址:https://www.bilibili.com/video/av12469267/?p=11. 纯度度量:针对多分类情况,为了把每个类别都考虑进去,所以用了现在的纯度计算法2. 如何对决策树进行正则化? 一种思路是对叶子数量进行惩罚,找到错误率+叶子节点数量最低的结果。 这种方法的困难在于要便利所有树的可能,所以一种思路是先生成完全树,然后再...
原创
121阅读
0评论
0点赞
发布博客于 3 年前

《机器学习技法》第8课笔记 Adaptive Boosting

课程来源:林轩田《机器学习技法》课程地址:https://www.bilibili.com/video/av12469267/?p=11. AdaBoosting的效果2. AdaBoost能够引入非线性。 如我们这里只用了一个非常简单的分类器,每次只对一个维度切一刀,但是经过足够多次的AdaBoost,还是能得到较好的结果。3. 做人脸识别:切成N张图片,每张图片打分是否是人脸,差的直接过...
原创
159阅读
0评论
0点赞
发布博客于 3 年前

《机器学习技法》第7课笔记 blending and bagging

课程来源:林轩田《机器学习技法》课程地址:https://www.bilibili.com/video/av12469267/?p=11. 设G是g的blending,可以证明G比所有g的平均表现要好,至少相等2. 可以看到,投票过程的下限是bias,去掉的是variance3. 不知道怎么做到的,但是好强 3. 制造g的方法4. bootstrap...
原创
151阅读
0评论
0点赞
发布博客于 3 年前

《机器学习技法》第5课笔记 核函数逻辑回归

课程来源:林轩田《机器学习技法》课程地址:https://www.bilibili.com/video/av12469267/?p=11. wrap-up2. 可以将条件转化写入方程中,使我们更容易理解 soft kernel3. 这时候会发现很有趣的,我们其实在做的就是正则化。 之所以不从正则化方程的角度讲解soft kernel,是因为这个方程不容易导去QP问题4. soft kerne...
原创
368阅读
0评论
0点赞
发布博客于 3 年前

《机器学习技法》第4课笔记 Soft Kernel

课程来源:林轩田《机器学习技法》课程地址:https://www.bilibili.com/video/av12469267/?p=11. 如何放宽一些条件,提高泛化能力? 借鉴pocket方法,允许一定数量的点犯错,但是犯错的点越少越好。2. 但是这样有两个问题1)不再是线性,不能用二次规划解2)不能区分犯大错和小错的情况3. 因此改成根据错误的大小来惩罚,这样又变回了线性问题,可以用QP...
原创
120阅读
0评论
0点赞
发布博客于 3 年前

《机器学习技法》第3课笔记 Kernel核函数

课程来源:林轩田《机器学习技法》课程地址:https://www.bilibili.com/video/av12469267/?p=11. z是转换后的高维空间,那么我们要算ztz,就要先把x转换到z,然后再算z的内积。能不能偷吃步,不用算高维空间的内积?2. 假设这样一个转换函数,它会求x内两两元素的组合,通过这样转换到高维空间。 那么将它展开,可以一直化简,最后我们只要算xx的内积就行了...
原创
401阅读
0评论
1点赞
发布博客于 3 年前

《机器学习技法》第2课笔记 对偶学习问题

课程来源:林轩田《机器学习技法》课程地址:https://www.bilibili.com/video/av12469267/?p=11. 目标:希望能把转换空间后d+1维的问题,简化为N维的计算2. 拉格朗日对偶问题:将有条件的最优化问题转换为无条件的最优化问题3. 将SVM转换为对偶问题4. 求解目标:5. 对偶问题等于原问题的证明:1)当yn*()不满足原条件时,得到的是正数,那么an取最大...
原创
313阅读
0评论
0点赞
发布博客于 3 年前

《机器学习技法》第1课笔记 线性SVM

课程来源:林轩田《机器学习技法》课程地址:https://www.bilibili.com/video/av12469267/?p=11. 为什么要选择最右边这个分类线? 因为考虑了测量误差的情况下,右边的分类线鲁棒性最强。2. SVM推导1)平面上的点满足2)两个平面上的点相减会等于0,w提出来,这里的w就是法向量。平面外的点到平面的距离,就是在法向量上的投影长度3)计算点到平面的距离。因...
原创
133阅读
0评论
1点赞
发布博客于 3 年前

【数据产品案例】口碑-会员分析

——————————思考优惠券主要类型二次券提高复购率单品券进行引流满减券提高客单精准营销券拉特定客群(如大学生专享券)口碑做得最好的是形成了数据分析的闭环,“数据分析→行为(优惠券发放)→结果(优惠券核销)→产生优惠券投放案例”。这种方式一是让数据分析的结果给商家很明确的反馈(增加了营收),同时也增加了数据(沉淀了优惠券投放数据),有利于更精准的营销一键投放优惠券非常有效,大部分商家都有营销需求...
原创
3947阅读
0评论
3点赞
发布博客于 3 年前

【数据产品案例】百度外卖商户通

——————————思考为商户提供数据分析功能时,当同时拥有平台信息和商户信息,就能利用平台信息识别出某用户的画像(如高客单、高客频),根据商户该用户画像(如低客单、高客频),找出gap(高客单-低客单),这样就能帮助商户发现具体用户的挖掘点,有针对性地进行营销在百度外卖商户通中能完成数据分析的闭环,数据分析→行为(针对不同用户群体的活动与优惠券)→数据反馈。数据产品在这里起到的作用是“为不同类人...
原创
649阅读
0评论
0点赞
发布博客于 3 年前

【数据应用案例】知乎瓦力机器人识别“阴阳怪气”回复

案例来源:@AI科技评论案例地址:https://mp.weixin.qq.com/s/eVbRkwQu0BQKTblKMZAsfA 1. 目标:知乎中有“你可真是棒棒的”、“你开心就好”等评论,识别并过滤这些评论有助于提高社区讨论质量 2. 数据获取:    1)根据“举报”和“踩”,得到“阴阳怪气”样本    2)通过同义词替换,扩大样本量    3)根据提取的...
原创
3023阅读
0评论
1点赞
发布博客于 3 年前

【数据应用技巧】选择合适的损失函数(回归篇)

案例来源:@AI科技评论案例地址:https://mp.weixin.qq.com/s/Gt8Q4Wm36DoNBO4xI8SJAw1. MSE(均方误差,L2)1)损失函数是预测与目标之间的误差平方和2)对离群点鲁棒性差,当误差超过1时,平方会很大,所以模型容易偏向离群点。可以这么理解,当只输出统一的一个预测值时,MSE最优情况下会输出平均数,平均数对离群点不鲁棒3)如果离群点是异常值,是对业务...
转载
1827阅读
0评论
0点赞
发布博客于 3 年前

【数据产品案例】Cape Analytics,用地理空间图像为房产估值

案例地址:https://capeanalytics.com/#products;https://mp.weixin.qq.com/s/uumQuOZnt0_p0V_wE7BFYA;http://www.sohu.com/a/119030881_4446691. 目标:保险公司在进行房产估值时减少排出专人到现场的人力成本,并希望得到更准确的评估2. 方法:1)从合作方获取地理空间图像(户外图像、卫...
原创
270阅读
0评论
0点赞
发布博客于 3 年前

【数据分析案例】从XGBoost算法开始,更好地理解和改进你的模型

案例来源:@将门创投案例地址:https://mp.weixin.qq.com/s/oeetxWMM3cr1BgvIaGU54A1. 目标:使用xgb评估客户的信贷风险时,还希望得出揭示2. xgb全局特征重要性度量1)weight:根据特征用于划分的次数2)cover:根据特征用于划分的次数和每次划分的样本数加权计算得来3)gain:特征用于划分时所带来的训练损失减益的平均值3. 评价特征度量的...
原创
1831阅读
0评论
0点赞
发布博客于 3 年前

【数据产品案例】阿里生意参谋-竞争情报

案例来源:https://sycm.bbs.taobao.com/detail.html?spm=a210m.8146702.0.0.3579410cr5HQa4&postId=7229592;https://sycm.bbs.taobao.com/detail.html?spm=a210m.8146702.0.0.3579410cr5HQa4&postId=7292307————...
原创
1776阅读
0评论
3点赞
发布博客于 3 年前

【数据产品案例】阿里生意参谋-用户分析

案例地址:https://sycm.bbs.taobao.com/detail.html?spm=a21ag.8365346.slider.d7286.2930410cX1PmiX&postId=8162781;https://sycm.bbs.taobao.com/detail.html?spm=a210m.8146702.0.0.276a410cCm8GoU&postId=68...
原创
4102阅读
0评论
3点赞
发布博客于 3 年前

【数据应用案例】知识图谱技术与应用指南

案例来源:@机器之心案例地址:https://mp.weixin.qq.com/s/fuI9U7aZpuk-WX6GQNtOuA1. 知识图谱1)包含实体与实体间关系2)实体与关系可以有属性3)学界常采用RDF三元组存储(如Jena),缺点是难以表达实体的属性;业界常用图存储数据库(如Neo4j、OrientDB、JanusGraph),可以表达实体和关系的属性,同时利于检索4)知识抽取过程a. ...
原创
679阅读
0评论
0点赞
发布博客于 3 年前

【数据分析案例】使用机器学习做游戏留存数据挖掘的一种尝试

案例来源:@深极智能案例地址:https://zhuanlan.zhihu.com/p/312135531. 目标:针对K游戏数据,预测玩家留存情况,并找出影响留存的因素2. 数据:玩家id,动作,动作时间戳,玩家关键属性(金币、装备、等级等)3. 数据清洗:1)剔除操作数<16的玩家,这类对游戏题材不感兴趣,非目标用户2)剔除冷门动作信息(在这里绝大部分冷门动作信息是玩家固有的聊天动作)4...
原创
3838阅读
0评论
1点赞
发布博客于 3 年前

【数据产品案例】如何将知识图谱特征学习应用到推荐系统?

案例来源:@AI科技大本营案例地址:https://mp.weixin.qq.com/s/_LuF4d0X_oHKuweo7Bt1Wg1. 知识图谱应用到推荐系统中的三种方式1)依次学习:先训练知识图谱模型,得到实体和实体关系的向量表示;再将该向量作为推荐模型的输入2)联合学习:将知识图谱和推荐系统的目标函数结合,使用端到端的方式训练3)交替学习:将知识图谱和推荐系统的训练放在一起,使用多任务学习...
原创
1435阅读
0评论
3点赞
发布博客于 3 年前

【数据产品案例】百度AI控烟项目

案例来源:@机器之心案例地址:https://mp.weixin.qq.com/s/vE2qZg2WF0TM9l2n1fU12A1. 应用场景:1)识别出广场内吸烟者2)将吸烟者投影到大屏幕中,提醒吸烟有害健康3)大部分情况吸烟者都会掐掉烟(交互提示效果远远大于静态提示,更何况是公开场合)2. 技术过程:1)线下训练吸烟动作识别(因为监控精度识别不到烟,只能识别到动作)2)现场监控图像,做百度Pa...
原创
598阅读
0评论
0点赞
发布博客于 3 年前

【数据产品案例】京东众智数据标注平台

案例来源:@AI科技大本营案例地址:https://mp.weixin.qq.com/s/w1tbvFcDNxYjwkfL1in_Rw1. 目标:提供中立标注平台,对接标注方和需求方1)提高标注质量2)提高标注速度3)降低标注成本4)保证数据安全2. 提高标注质量1)为小标注作坊提供专业工具2)优化工作流程3)高水平专家进行审核抽检3. 提高标注速度1)由京东“Pre-AI”进行预标注2)人工进行...
原创
3440阅读
0评论
0点赞
发布博客于 3 年前

【数据产品案例】有赞美业数据报表

案例地址:https://www.youzan.com/intro/beauty1. 有赞是新零售的软件服务商,为商户提供强大的微商城和完整的移动零售解决方案,帮助互联网时代的生意人管店、管货、管客、管钱。其自身定位是为商家提供的SaaS系统,提供零售的完整解决方案。与淘宝不同的是,淘宝是商业地产模式,淘宝引流导向商户;有赞不吸引流量,有赞服务的商家需要有自己产生流量的能力。2. 线下美容美发行业...
原创
2288阅读
0评论
0点赞
发布博客于 3 年前

【数据产品案例】有赞大数据实践- 敏捷型数据仓库的构建及其应用

案例来源:@洪斌案例地址:https://tech.youzan.com/you-zan-big-data-practice/1. 数据仓库处理:近源数据层→数据宽表→基础指标表1)近源数据层:封装中间层,实现:a. 合并不同业务数据,如pc和app的日志数据b. 脏数据屏蔽c. 冗余字段合并2)数据宽表:提取足够常用的字段,如订单宽表:a. 基本订单信息b. 订单中的用户画像,如下单人性别、城市...
原创
955阅读
0评论
0点赞
发布博客于 3 年前

【数据应用案例】卡通人脸检测

案例来源:@将门创投案例地址:https://mp.weixin.qq.com/s/rze_vnSRriQ5tIzMd-bDug1. 卡通人脸检测的用处1)搜索引擎检索2)通过识别与语音合成帮助视障用户享受卡通作品3)内容控制和审查的一部分2. 数据集:IIIT-CFW卡通数据集,包含8928张带标记卡通人脸图像,包括年龄、性别、情感的基本人脸数据,还包括各个人种、人脸位置以及讽刺隐喻等高维度信息...
原创
1683阅读
2评论
0点赞
发布博客于 3 年前

【数据分析案例】Instagram公布算法原理:说没有抵制刷屏,也没有逼谁买广告

案例来源:@量子位案例地址:https://mp.weixin.qq.com/s/JYnVmBoA7F7NPvQoFVx_Jw1. 排序算法关心的特征维度1)(高权重)用户兴趣2)(高权重)热度:最后一次转发距今的时间3)(高权重)关系:用户与发动态者的交互频繁程度4)多久刷一次:确定回溯到动态的时间5)一次刷多久:确定每次召回的动态数量,在有限数量下让用户更满意6)关注人数:如果数量太多,分配不...
原创
648阅读
0评论
0点赞
发布博客于 3 年前

【数据产品案例】美团点评-点评管家“竞对分析”功能

案例来源:@MR-TOP案例地址:https://zhuanlan.zhihu.com/p/277263811. 背景:竞对分析是美团点评对于商家开放的一项功能2. 竞对分析指标(包括昨日/7日/30日数据)1)曝光指数:门店在列表页的曝光情况2)人气指数:点击进门店的次数3)交易指数:门店销售额指标3. 竞对门店的选择的几种方法1)同类别2)同商圈3)品牌性:品牌调性、价格、产品、客户群定位等4...
原创
6510阅读
0评论
1点赞
发布博客于 3 年前

【数据产品案例】美团外卖O2O的用户画像实践

案例来源:@美团技术团队案例地址:https://zhuanlan.zhihu.com/p/257316781. 外卖O2O特征1)新事物:许多用户对外卖平台的新品类、自己的需求都了解较少,需要平台发现用户消费意愿2)高频3)场景驱动:外卖有极强的场景性,对于同一个用户,工作餐ta关心的是健康、价格合适,周末的夜宵关心的是好吃、价格不敏感4)用户消费的地理位置固定:结合地理位置可以帮助判断用户的消...
原创
5590阅读
0评论
3点赞
发布博客于 3 年前

【数据产品案例】数据驱动精准化营销在大众点评的实践

案例来源:@美团技术团队案例地址:https://tech.meituan.com/dp-growth-hacker.html1. 背景1)O2O营销包括精准用户营销活动、DSP投放、渠道价值排名和反作弊等,本文介绍精准用户营销活动2)数据参与用户营销活动的三个环节:a. 活动前:确定和选取目标用户b. 活动中:效果监测;用户和商户端的策略输出c. 活动后:效果评估和优化建议3)之前存在的问题:a...
原创
739阅读
0评论
0点赞
发布博客于 3 年前

【数据产品案例】携程新一代呼叫中心话务监控平台

案例来源:@携程技术中心案例地址:https://zhuanlan.zhihu.com/p/326505331. 原话务平台面临的问题1)人工设置告警规则,无法适应业务变化2)小业务量监控项多、数据量小,难以设定有效规则3)误报4)告警风暴:大型故障发生产生告警风暴,影响排障效率2. Horus解决方案1)自动检测:a. 首先进行跌零检测,如数据跌零切累计损失话务量满足规定次数,告警b. 未跌零的...
原创
473阅读
0评论
0点赞
发布博客于 3 年前

【数据应用案例】基于用户画像的腾讯大数据防刷架构

案例来源:@颜国平案例地址:http://bbs.qcloud.com/thread-10745-1-1.html1. 羊毛党角色1)软件制作团伙:开发黑产工具,如注册自动机、刷单自动机等2)短信代接平台:实现短信的自动接发3)账号出售团伙:养各类账号,通过转卖账号获利4)刷单团伙:到各平台刷单,获取优惠,然后通过第三方平台出售优惠套现2. 对抗刷单的三个主要环节1)注册环节:识别虚假注册的账号2...
原创
1849阅读
0评论
1点赞
发布博客于 3 年前

【数据应用案例】预测电影偏好?如何利用自编码器实现协同过滤方法

案例来源:@机器之心案例地址:https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650742528&idx=2&sn=175ac53d0f360e107dc3ae75d3e774dc&chksm=871adb7eb06d5268130f782ee914c0d56d3e50ca926674fb85f055c1...
原创
519阅读
1评论
0点赞
发布博客于 3 年前

【数据分析案例】留存率分析方法

案例来源:@GrowingIO檀润洋 @鸟哥笔记 @TalkingData @陈维贤案例地址:http://wwv.cyzone.cn/a/20160414/294127.html,http://www.yixieshi.com/51954.html,http://www.youxituoluo.com/4108.html,http://www.woshipm.com/operate/372455...
原创
13917阅读
0评论
8点赞
发布博客于 3 年前

【数据应用案例】金融行业大数据用户画像实践

案例来源:@鲍忠铁案例地址:https://mp.weixin.qq.com/s?__biz=MjM5ODE1NDYyMA==&mid=2653382844&idx=1&sn=62488a43265862a24540d5ef2ac78dc3&chksm=bd1cd0af8a6b59b9369a14e2fb4ff89172735150d34cad81dd10b9667...
原创
6406阅读
0评论
3点赞
发布博客于 3 年前

【数据分析案例】DOTA2先干掉中路一塔后有多大胜算?

案例来源:@何求知案例地址:https://zhuanlan.zhihu.com/p/367769671. 问题:dota2中先拿掉对方中路一塔是否对赢得比赛很重要?2. 数据来源:调用OPENDOTA的API(原文中有api使用方法,作者之前也专门写过如何调用dota api的方法)3. 分析过程:1)计算采集比赛样本中“先破塔一方”的胜率a. 由于OPENDOTA有限制访问速度,因此无法获取大...
原创
1071阅读
0评论
0点赞
发布博客于 3 年前

【秋招】搜狐游戏_数据分析岗_面试题整理

1. 如果现在有个情景,我们有一款游戏收入下降了,你怎么分析。(我说完她说不到位,然后帮我补充了很多,我也问了一点问题,这部分聊了十分钟)   1)两层模型:细分用户、渠道、产品,看到底是哪里的收入下降了   2)指标拆解:收入 = 玩家数量*活跃占比*付费转化率*付费次数*客单价   进一步细分,如玩家数量 = 老玩家数量*活跃度+新玩家数量*留存率等。然后对各个指标与以往的数据进行...
原创
4820阅读
0评论
14点赞
发布博客于 3 年前

【数据分析案例】机器学习进入Instagram,利用社交媒体揭秘服饰变化规律

案例来源:@DeepTech深科技案例地址:https://mp.weixin.qq.com/s?__biz=MzA3NTIyODUzNA==&mid=2649532527&idx=3&sn=eda4e9ff6e287351d08d732671c491fd1. 目标:基于instagram数据, 研究服饰风格随着时间、空间的变化规律2. 数据来源:1)采集instagram...
原创
278阅读
0评论
0点赞
发布博客于 3 年前

【数据产品案例】周志华团队和蚂蚁金服合作:用分布式深度森林算法检测套现欺诈

案例来源:@AI科技大本营案例地址:https://mp.weixin.qq.com/s?__biz=MzI0ODcxODk5OA==&mid=2247495146&idx=1&sn=5cd9a49fcc52fa429c689880a08d095f&chksm=e99ede13dee95705947a2de932d8c1ea5c6dbcb7954b9ee11b80b...
原创
2179阅读
0评论
1点赞
发布博客于 3 年前

【秋招】腾讯_数据分析岗_面试题整理

1. 二叉树题目略 2. 层序遍历算法题    1)由顶向下逐层访问    2)可以用队列存储树,每次打印根节点并将左右节点放进队列(参考:https://www.cnblogs.com/masterlibin/p/5911298.html) 3. 图论中的最大团、连通分量,然后问图划分的算法略 4. 如何判断社区活跃度(基于图),现在想着可能是根据连通...
原创
64466阅读
10评论
33点赞
发布博客于 3 年前

【数据应用案例】基于机器学习的web异常检测

案例来源:@七雨案例地址:https://www.cnblogs.com/alisecurity/p/6378869.html0. 背景:a. 硬规则的异常检测容易被黑客绕过,并且无法应对0day攻击;同时规则构造和维护成本高。b. 引入机器学习技术,但是web入侵样本稀少,变化多样,对模型训练造成难度1. 思路:基于profile的方法,对正常访问日志建模,与正常流量不符的视为一场流量2. 方法...
原创
1522阅读
0评论
0点赞
发布博客于 3 年前

【秋招】饿了么_数据分析岗_面试题整理

1. 一面是群面,群面是让设计一个估算配送时间的模型   影响配送时间的因素:商家出餐速度、配送速度、用户交付速度(配送过程中,商家取餐与交付用户占到配送时长的一半以上。准确预测取餐和交付时间,可以减少骑手等待时间)(参考:https://blog.csdn.net/u013382288/article/details/78395989)   1)商家出餐速度:品类、时段、天气、活动、销量...
原创
9170阅读
2评论
4点赞
发布博客于 3 年前

【秋招】拼多多_数据分析岗_面试题整理

1. 贝叶斯公式复述并解释应用场景   1)P(A|B) = P(B|A)*P(A) / P(B)   2)如搜索query纠错,设A为正确的词,B为输入的词,那么:      a. P(A|B)表示输入词B实际为A的概率      b. P(B|A)表示词A错输为B的概率,可以根据AB的相似度计算(如编辑距离)      c. P(A)是词A出现的频率,统计获得     ...
原创
37988阅读
10评论
36点赞
发布博客于 3 年前

【数据应用案例】CTR 预估模型的进化之路

案例来源:@TonyZhou案例地址:hhttps://cloud.tencent.com/developer/article/10054161. 高维度离散特征+LR(广点通精排)2. GBDT少量低维特征(Yahoo&Bing)1)特征工程3. GBDT+LR(Facebook)1)方案一:将id以外特征输入GBDT树来抽特征,id特征在lr阶段加入。好处是同时利用了GBDT对连续特征...
原创
916阅读
0评论
0点赞
发布博客于 3 年前