自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

数据产品笔记

聚焦数据的应用场景

  • 博客(21)
  • 收藏
  • 关注

原创 【数据应用案例】预测电影偏好?如何利用自编码器实现协同过滤方法

案例来源:@机器之心案例地址:https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650742528&idx=2&sn=175ac53d0f360e107dc3ae75d3e774dc&chksm=871adb7eb06d5268130f782ee914c0d56d3e50ca926674fb85f055c1...

2018-05-31 21:14:16 816 1

原创 【数据分析案例】留存率分析方法

案例来源:@GrowingIO檀润洋 @鸟哥笔记 @TalkingData @陈维贤案例地址:http://wwv.cyzone.cn/a/20160414/294127.html,http://www.yixieshi.com/51954.html,http://www.youxituoluo.com/4108.html,http://www.woshipm.com/operate/372455...

2018-05-31 19:52:54 18180

原创 【数据应用案例】金融行业大数据用户画像实践

案例来源:@鲍忠铁案例地址:https://mp.weixin.qq.com/s?__biz=MjM5ODE1NDYyMA==&mid=2653382844&idx=1&sn=62488a43265862a24540d5ef2ac78dc3&chksm=bd1cd0af8a6b59b9369a14e2fb4ff89172735150d34cad81dd10b9667...

2018-05-30 14:22:35 8339

原创 【数据分析案例】DOTA2先干掉中路一塔后有多大胜算?

案例来源:@何求知案例地址:https://zhuanlan.zhihu.com/p/367769671. 问题:dota2中先拿掉对方中路一塔是否对赢得比赛很重要?2. 数据来源:调用OPENDOTA的API(原文中有api使用方法,作者之前也专门写过如何调用dota api的方法)3. 分析过程:1)计算采集比赛样本中“先破塔一方”的胜率a. 由于OPENDOTA有限制访问速度,因此无法获取大...

2018-05-29 22:52:38 1308

原创 【秋招】搜狐游戏_数据分析岗_面试题整理

1. 如果现在有个情景,我们有一款游戏收入下降了,你怎么分析。(我说完她说不到位,然后帮我补充了很多,我也问了一点问题,这部分聊了十分钟)   1)两层模型:细分用户、渠道、产品,看到底是哪里的收入下降了   2)指标拆解:收入 = 玩家数量*活跃占比*付费转化率*付费次数*客单价   进一步细分,如玩家数量 = 老玩家数量*活跃度+新玩家数量*留存率等。然后对各个指标与以往的数据进行...

2018-05-29 22:14:30 5647

原创 【数据分析案例】机器学习进入Instagram,利用社交媒体揭秘服饰变化规律

案例来源:@DeepTech深科技案例地址:https://mp.weixin.qq.com/s?__biz=MzA3NTIyODUzNA==&mid=2649532527&idx=3&sn=eda4e9ff6e287351d08d732671c491fd1. 目标:基于instagram数据, 研究服饰风格随着时间、空间的变化规律2. 数据来源:1)采集instagram...

2018-05-28 21:46:00 453

原创 【数据产品案例】周志华团队和蚂蚁金服合作:用分布式深度森林算法检测套现欺诈

案例来源:@AI科技大本营案例地址:https://mp.weixin.qq.com/s?__biz=MzI0ODcxODk5OA==&mid=2247495146&idx=1&sn=5cd9a49fcc52fa429c689880a08d095f&chksm=e99ede13dee95705947a2de932d8c1ea5c6dbcb7954b9ee11b80b...

2018-05-27 19:40:08 2477

原创 【秋招】腾讯_数据分析岗_面试题整理

1. 二叉树题目略 2. 层序遍历算法题    1)由顶向下逐层访问    2)可以用队列存储树,每次打印根节点并将左右节点放进队列(参考:https://www.cnblogs.com/masterlibin/p/5911298.html) 3. 图论中的最大团、连通分量,然后问图划分的算法略 4. 如何判断社区活跃度(基于图),现在想着可能是根据连通...

2018-05-27 16:31:26 79654 12

原创 【数据应用案例】基于机器学习的web异常检测

案例来源:@七雨案例地址:https://www.cnblogs.com/alisecurity/p/6378869.html0. 背景:a. 硬规则的异常检测容易被黑客绕过,并且无法应对0day攻击;同时规则构造和维护成本高。b. 引入机器学习技术,但是web入侵样本稀少,变化多样,对模型训练造成难度1. 思路:基于profile的方法,对正常访问日志建模,与正常流量不符的视为一场流量2. 方法...

2018-05-26 13:01:57 1920

原创 【秋招】饿了么_数据分析岗_面试题整理

1. 一面是群面,群面是让设计一个估算配送时间的模型   影响配送时间的因素:商家出餐速度、配送速度、用户交付速度(配送过程中,商家取餐与交付用户占到配送时长的一半以上。准确预测取餐和交付时间,可以减少骑手等待时间)(参考:https://blog.csdn.net/u013382288/article/details/78395989)   1)商家出餐速度:品类、时段、天气、活动、销量...

2018-05-25 15:36:30 10911 2

原创 【秋招】拼多多_数据分析岗_面试题整理

1. 贝叶斯公式复述并解释应用场景   1)P(A|B) = P(B|A)*P(A) / P(B)   2)如搜索query纠错,设A为正确的词,B为输入的词,那么:      a. P(A|B)表示输入词B实际为A的概率      b. P(B|A)表示词A错输为B的概率,可以根据AB的相似度计算(如编辑距离)      c. P(A)是词A出现的频率,统计获得     ...

2018-05-25 13:15:01 44681 10

原创 【数据应用案例】CTR 预估模型的进化之路

案例来源:@TonyZhou案例地址:hhttps://cloud.tencent.com/developer/article/10054161. 高维度离散特征+LR(广点通精排)2. GBDT少量低维特征(Yahoo&Bing)1)特征工程3. GBDT+LR(Facebook)1)方案一:将id以外特征输入GBDT树来抽特征,id特征在lr阶段加入。好处是同时利用了GBDT对连续特征...

2018-05-24 21:27:53 1234

原创 【数据应用案例】提速100倍,秒杀传统AB测!Netflix交错测试个性化推荐算法

案例来源:@AI前线案例地址:https://weibo.com/ttarticle/p/show?id=23094041820945982658231. 背景:AB test的缺点1)当待测试的算法数量很多时,传统的AB测需要较多的用户样本。如100个算法,那么需要100组的用户2)用户差异性:如测试百事与可乐谁好喝,选择AB两个group,如果A中常用苏打水的用户明显大于B中常用苏打水的用户,...

2018-05-24 13:11:14 998

原创 【秋招】携程_数据分析岗_面试题整理

1. spark用过吗?那你觉得和MR这两个计算框架中间产生的数据倾斜怎么处理    1)数据倾斜指的是key的分布严重不均,如wordCount中,有80%的数据都是('aaa',1),这样大部分数据交给一个reduce,剩下的20%数据分散到不同的reduce处理    2)造成数据倾斜的原因:        a. group by维度小,某值数量多        b. dis...

2018-05-24 11:19:46 20110 5

原创 【数据分析案例】数据下的城市拥堵秘密:“抄小路”也是一门智慧

案例来源:@DT数据侠案例地址:https://mp.weixin.qq.com/s/fYJHA74UQUHyb6aeDSIpAw1. 问题:1)北京市是否存在支路利用率低的问题?2)哪些地方支路利用率低?2. 数据:2012年北京市和纽约市的出租车运营轨迹数据3. 思路:定义绕路比指标,用该指标结合时间、空间维度进行对比分析。 绕路比指标:R = Dt / DI DI是两地直线距离,...

2018-05-23 11:56:34 961

原创 【秋招】京东_数据分析岗_面试题整理

1. 怎么做恶意刷单检测分类问题用机器学习方法建模解决,我想到的特征有:    1)商家特征:商家历史销量、信用、产品类别、发货快递公司等    2)用户行为特征:用户信用、下单量、转化率、下单路径、浏览店铺行为、支付账号    3)环境特征(主要是避免机器刷单):地区、ip、手机型号等    4)异常检测:ip地址经常变动、经常清空cookie信息、账号近期交易成功率上升等...

2018-05-23 11:34:50 76007 12

原创 【数据产品案例】图像算法在电商大促中的应用浅析

案例来源:@AI前线案例地址:https://weibo.com/ttarticle/p/show?id=2309404174114356093942 1. 背景:蘑菇街的图像来源于商家、用户,图像算法应用于电商场景中,可以服务于用户、商家和蘑菇街运营人员 2. 图像搜索技术    1)技术原理:        a. 标签来源:商品类目 & 商家标引的商品描述...

2018-05-22 16:42:04 796

原创 【秋招】今日头条_数据分析岗_面试题整理

1. 做自我介绍,着重介绍跟数据分析相关的经验,还有自己为什么要做数据分析略。 2. 如果次日用户留存率下降了 5%该怎么分析    1)首先采用“两层模型”分析:对用户进行细分,包括新老、渠道、活动、画像等多个维度,然后分别计算每个维度下不同用户的次日留存率。通过这种方法定位到导致留存率下降的用户群体是谁    2)对于目标群体次日留存下降问题,具体情况具体分析。具体分析可以...

2018-05-21 11:56:12 38398 7

原创 【秋招】招行_数据分析岗_面试题整理

1. kmeans是啥一种em过程的聚类方法,先固定类中心将每个点划分到最近的类中,然后更新类中心,通过这种迭代的方法进行聚类。优点是速度较其它的聚类方法较快,缺点是需要预先设定类的数目,并且对初始化的类中心敏感,对异常值敏感。 2. left join inner join 区别左连接是保留所有左表中的值,右表无对应的值会表示为。内连接是两个表的交集。 3. 常用...

2018-05-21 11:55:24 18009 2

原创 【秋招】快手_数据分析岗_面试题整理

1. 不用任何公开参考资料,估算今年新生儿出生数量    1)采用两层模型(人群画像*人群转化):新生儿出生数=Σ各年龄层育龄女性数量*各年龄层生育比率    2)从数字到数字:如果有前几年新生儿出生数量数据,建立时间序列模型(需要考虑到二胎放开的突变事件)进行预测    3)找先兆指标,如婴儿类用品的新增活跃用户数量X表示新生儿家庭用户。Xn/新生儿n为该年新生儿家庭用户的转化率,如...

2018-05-21 11:54:41 21670 4

原创 【数据应用案例】浅析eBay联盟营销的上下文广告机制

案例来源:@AI前线案例地址:https://weibo.com/ttarticle/p/show?id=23094042132026059846111. 目标:根据网页上下文内容找到匹配的营销广告2. 过程:1)对网页内容进行情感分析,仅页面是积极情绪时呈现广告2)对网页内容采用LDA获得网页的两个主题,每个主题有三个关键词(该主题下出现频率top3词)3)抽取网页标题,过滤出名词、命名实体词与...

2018-05-20 21:20:21 1933

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除