自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

数据产品笔记

聚焦数据的应用场景

  • 博客(22)
  • 收藏
  • 关注

原创 【数据应用案例】医院里的男性就是医生,女性就是护士?NLP 模型的性别偏见到底有多大?

案例来源:@WBLUE @Ben Packer @Yoni Halpern案例地址:https://www.leiphone.com/news/201805/UPjA3tnsC9HY4SLx.html;https://chinagdg.org/2018/04/text-embedding-models-contain-bias-heres-why-that-matters/ 0. ...

2018-08-29 09:49:36 956

原创 【数据应用技巧】阿里UC视频推荐优化

案例来源:@阿里技术案例地址:https://mp.weixin.qq.com/s/lb5b-7ImTI0hlFwIBkpqxQ 0. 背景:    视频优化目标    1)感知相关性优化:CTR为目标    2)真实相关性优化:停留时长RDTM/播放完成率PCR    强调感知相关性(CTR)的情况下,会造成用户兴趣收窄、头部流量集中的问题。因此需要引入真实相关性,提...

2018-08-27 09:58:38 1516

原创 【数据应用案例】隐私保护与PATE方法

案例来源:@百度安全实验室 @AI科技评论 @雷锋网案例地址:http://www.freebuf.com/column/147115.html,https://mp.weixin.qq.com/s/k-nACTv7IhTgfevkdDZ8rQ,http://wemedia.ifeng.com/28852972/wemedia.shtml 0. 背景:对于公开的数据集和模型,里面包含了...

2018-08-23 13:05:39 6459

原创 【数据应用案例】美团外卖语音助手

案例来源:@美团技术团队案例地址:https://tech.meituan.com/herenqing_ai_con.html 0. 背景:骑手在配送时打电话有三个困难:    1)决策复杂:什么时候打电话?打晚了影响配送速度,打早了影响用户体验    2)操作繁琐与危险:一次操作手机要5-6个操作,大部分在骑电瓶车的时候使用,很危险 1. 目标:美团外卖语音助手解决方...

2018-08-21 18:59:45 3838

原创 【数据应用案例】根据代码风格识别作者

案例来源:@量子位 @Edwin Dauber @Aylin Caliskan案例地址:https://mp.weixin.qq.com/s/2Jv2TBS_jFrdfRN7rZStLw;https://arxiv.org/pdf/1701.05681.pdf 1. 目标:根据代码,识别代码属于哪个作者。可应用于代码抄袭检测 2. 数据:从github上获取1178个作者的C+...

2018-08-20 13:49:02 577

原创 【数据应用案例】阿里巴巴长标题压缩

案例来源:@阿里巴巴机器智能案例地址:https://mp.weixin.qq.com/s/m31WKGLIe6P2bA02b8uV8Q;https://arxiv.org/pdf/1801.01725.pdf 0. 背景:阿里巴巴平台上的商户为了提高用户搜索中的召回率,会在标题堆砌很多关键词。在手机淘宝的搜索结果中,需要对长标题进行压缩,提高C端用户的体验,提高点击率 1. ...

2018-08-15 13:36:14 631 1

原创 【数据应用案例】DeepMind听声辨位

案例来源:@机器之心案例地址:https://mp.weixin.qq.com/s/ywU4L659iRcmIgmV6RtbXA;https://arxiv.org/pdf/1712.06651.pdf 1. 目标:利用同时具有音频和视频的数据进行训练,进而识别出某段音频是否可能由某段视频产生(如弹吉他、说话、酒杯摔碎),并识别出声音是由哪个部分产生的 2. 匹配音频与视频...

2018-08-14 14:17:31 1004 4

原创 【数据应用案例】openFive dota5v5战胜人类

@案例来源:@AI科技大本营 @AI科技评论 @论智@案例地址:https://mp.weixin.qq.com/s/exvP4FucUfeOONsUkyTz7w;https://mp.weixin.qq.com/s/-llCCnFkDypVNiEh4yjNMg;https://www.jqr.com/article/000306 0. 背景:美国时间8月5日,open AI的5v5d...

2018-08-10 12:24:42 667

原创 【数据应用案例】使用时空自编码器检测视频异常事件

案例来源:@阿里巴巴机器智能案例地址:https://mp.weixin.qq.com/s/rUuaaBI3McesED3VVVbsBw 1. 目标:识别视频中的异常事件(如车祸) 2. 难点:正例数据量远远小于负例,同时正例之间的差异性很大,因此难以采用有监督方法进行训练。传统解决方法是使用无监督方法为正常视频建模,然后将异常值视为异常事件。 3. 解决思路:  ...

2018-08-09 14:28:18 2158

原创 【数据应用案例】通过字体识别国籍

案例来源:@量子位案例地址:https://mp.weixin.qq.com/s/m8IQNuCZUCHUUzw1OZEJpg 1. 目标:基于字体,识别国籍(中国、印度、马来西亚、孟加拉国、伊朗五个国家) 2. 数据预处理    1)处理文本图像中的噪点    2)抽取行文本图像 2. 特征工程    1)字母间距离    2)Cloud of...

2018-08-08 10:05:45 479

原创 【数据应用技巧】NLP领域的预训练之风

案例来源:@AI科技评论 @集智翻译组 @人工智能LeadAI案例地址:https://mp.weixin.qq.com/s/NCLkZqdmqY9lm5BhyEcLXQ;https://www.sohu.com/a/233269391_395209;https://arxiv.org/pdf/1801.06146.pdf;http://wemedia.ifeng.com/64207141/w...

2018-08-07 15:17:15 1095

原创 【校招面经】机器学习与数据挖掘常见面试题整理 part9

八十、SVM的核函数from:https://blog.csdn.net/lihaitao000/article/details/51173459SVM核函数包括线性核函数、多项式核函数、径向基核函数、高斯核函数、幂指数核函数、拉普拉斯核函数、ANOVA核函数、二次有理核函数、多元二次核函数、逆多元二次核函数以及Sigmoid核函数. 核函数的定义并不困难,根据泛函的有关理论,只要一种函数...

2018-08-04 22:10:31 1241

原创 【校招面经】机器学习与数据挖掘常见面试题整理 part8

七十六、t-SNEfrom:http://www.datakit.cn/blog/2017/02/05/t_sne_full.htmlt-SNE(t-distributed stochastic neighbor embedding)是用于降维的一种机器学习算法,是由 Laurens van der Maaten 和 Geoffrey Hinton在08年提出来。此外,t-SNE 是一种非...

2018-08-04 21:46:27 1466

原创 【校招面经】机器学习与数据挖掘常见面试题整理 part7

七十、势函数法from:https://www.cnblogs.com/huadongw/p/4106290.html势函数主要用于确定分类面,其思想来源于物理。1 势函数法基本思想假设要划分属于两种类别ω1和ω2的模式样本,这些样本可看成是分布在n维模式空间中的点xk。 把属于ω1的点比拟为某种能源点,在点上,电位达到峰值。 随着与该点距离的增大,电位分布迅速减小,即把样本x...

2018-08-04 21:32:43 933

原创 【校招面经】数据库 part2

七、数据库范式1. 1NF:不存在可以分的属性2. 2NF:每一个非主属性依赖于关系模型的某个候选键3. 3NF:不存在非主属性的传递依赖于关系模型的侯选建4. BCNF:每个属性都不存在传递依赖于关系模型的侯选建1NF: 字段是最小的的单元不可再分2NF:满足1NF,表中的字段必须完全依赖于全部主键而非部分主键 (一般我们都会做到)3NF:满足2NF,非主键外的所有字...

2018-08-04 20:38:27 571

原创 【校招面经】统计与概率基础 part2

十六、对偶问题线性规划有一个有趣的特性,就是任何一个求极大的问题都有一个与其匹配的求极小的线性规划问题。例;原问题为MAX X=8*Z1+10*Z2+2*Z3s.t. 2*Z1+1*Z2+3*Z3 〈=704*Z1+2*Z2+2*Z3 〈=803*Z1+ 1*Z3 〈=152*Z1+2*Z2 〈=50Z1,Z2,Z3 〉=0Z则其对偶问题为MIN =70*Y...

2018-08-04 20:30:08 982

原创 【校招面经】计算机基础

一、java中Array和ArrayList区别1)精辟阐述:可以将 ArrayList想象成一种“会自动扩增容量的Array”。2)Array([]):最高效;但是其容量固定且无法动态改变;     ArrayList:  容量可动态增长;但牺牲效率;3)建议:基于效率和类型检验,应尽可能使用Array,无法确定数组大小时才使用ArrayList!不过当你试着解决更一...

2018-08-04 16:40:03 2274

原创 【校招面经】机器学习与数据挖掘常见面试题整理 part6

六十五、海量的 item 算文本相似度的优化方法 —— simhashfrom:https://blog.csdn.net/chenguolinblog/article/details/50830948背景如何设计一个比较两篇文章相似度的算法?可能你会回答几个比较传统点的思路:一种方案是先将两篇文章分别进行分词,得到一系列特征向量,然后计算特征向量之间的距离(可以计算它们之间的欧氏...

2018-08-04 16:01:10 934

原创 【校招面经】机器学习与数据挖掘常见面试题整理 part5

五十九、计量经济学中的平稳性  六十、高斯混合分布1. 生成模型2. 认为点是由多个高斯分布产生的,每个点可以归入多个类3. 目标是使观测到的点在生成的高斯分布中出现概率最大 在做参数估计的时候,常采用的方法是 最大似然 。最大似然法就是使样本点在估计的概率密度函数上的概率值最大 。由于概率值一般都很小, N 很大的时候这个连乘的结果非常小,容易造成浮点数下溢。...

2018-08-04 15:58:45 627

原创 【数据应用案例】基于机器学习方法与眼球移动信号的性格检测

案例来源:@将门创投案例地址:https://mp.weixin.qq.com/s/HTIykLcgJkW7tfvXF72Y1Q;https://www.frontiersin.org/articles/10.3389/fnhum.2018.00105/full 1. 目标:通过眼球运动判断用户的性格 2. 方法:    1)使用眼动仪收集被试者在生活中的眼球运动   ...

2018-08-03 18:46:10 501

原创 【数据应用案例】atom2vec,通过无监督学习的方式复现元素周期表

案例来源:@量子位 @CoupMF @新智元案例地址:https://mp.weixin.qq.com/s/fOOXBImDHEeweYTcMZ1cBg;https://cloud.tencent.com/developer/news/260987;https://xueqiu.com/3426965578/109607389 1. 目标:让模型学习现有的分子结构式,将同类型的原子归类...

2018-08-01 18:43:50 564

原创 【数据应用案例】担心在机场丢行李?这个日本AI能帮你到处找包

案例来源:@量子位案例地址:https://mp.weixin.qq.com/s/g3JePFenmgt9dRmMuECLDA 1. 场景1-找包:    1)CV识别包    2)追踪各监控中包的移动轨迹,预测包可能丢失的地点 2. 场景2-找人:    1)为了避免侵犯个人隐私,不采用人脸识别的方式是别人,而是根据头发、衣着、背包、身高、鞋子颜色等120个特征建...

2018-08-01 09:36:52 409

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除