大数据工程
文章平均质量分 71
learner_ctr
搜索推荐系统虽然能做的事情不多,但是一直存在着可以改进的地方
展开
-
机器之心中的“号内搜”到底用没用搜索算法?
博主是做搜索算法的,平时会研究、体验一些平台或者公司的搜索方面的东西,今天在使用机器之心的时候,没有像以前一样直接去看他们最新一期的文章,而是看到了里面的一个东西 ---- 搜索文章-号内搜,就体验了下这个东西。我主要想判断下里面到底是使用了什么样的搜索算法?一、当前情况记录当前里面一共有 805 篇文章,我搜的的“自然语言”这四个关键字,然后大约等了2~3秒,出来1529篇推荐,而......原创 2019-10-27 22:07:21 · 1517 阅读 · 0 评论 -
图像分类算法,要怎么解释到底是因为什么才判断为A类比、B类比?
论文题目:迈向基于概念的自动解释(2019.8)作者:Amirata Ghorbani∗James Zou-》斯坦福大学,James WexlerBeen Kim-》谷歌原文链接:https://arxiv.org/pdf/1902.03129.pdf摘要:随着越来越多的机器学习(ML)模型被部署并广泛用于制定重要决策,可解释性已成为研究的重要课题。 最当前的解释方法中的......原创 2019-11-03 00:19:54 · 2101 阅读 · 0 评论 -
传统机器学习模型要怎么来判断每个特征到底是怎么来预测的?
前面一篇文章推出了:图像分类算法,要怎么解释到底是因为什么才判断为A类比、B类比?这种是针对图像模型来进行模型细节分析。与图像相对的还有更加常见的文本数据训练出来的模型,比如推荐模型、搜索模型、风控模型等,这些数据学习出来的模型要怎么来判断到底哪个特征对某个分类最起作用?1:auc/acc/信息增益等(其中信息增益仅仅适用于决策树模型、逻辑回归模型、ftrl)拿auc来举例吧,往大范围了说......原创 2019-11-10 18:04:07 · 1615 阅读 · 1 评论 -
广告算法流量从1%增到到10%后效果变差该怎么办?线下提升好几个千分点,线上没提升怎么办?
在广告算法工作的工程师们,肯定会遇到这样一个情况,在自己实验流量上(1%),自己做了一些变动(比如加特征、调整模型结构、增加策略),然后效果(ecpm/arpu/ctr/cvr)就好了起来,然后把这个小流量放大后(比如放大到10%),这个变动就不起效果了,甚至会变差。这是广告行业最容易遇到的一个问题,也是解决起来很麻烦的一个问题,但是也有一些通用的尝试逻辑,下面作者就说说自己的愚见。一:首先统......原创 2019-11-22 00:13:01 · 513 阅读 · 0 评论 -
flink实时流与scala程序开发实用经验 - 十年磨两贱人
本文是作者在用 flink 开发实时流数据的时候,对 flink 的一些总结经验,其中会重点讲到 “数据倾斜” 的解决方案 + 源码文章结构:1:flink本地如何模拟topic的实时流2:flink在遇到数据倾斜的时候,应该怎么样写代码解决一、先模拟topic发送数据的例子1:在idea这个编译器上启动你的flink程序,这个程序里面最开始需要有个代码是设置你消费的数据从本地......原创 2019-11-29 21:53:58 · 1066 阅读 · 0 评论 -
ps分布式,如何让ps和worker之间同步停止
在写ps分布式代码中,有一个很关键的问题,就是worker一旦训练完毕后,ps需要等待所有worker都停止,然后所有的ps再停止,而且需要紧密相连,根据博主的实践,为大家提供两种可行的办法,读者可以适当的选择合适自己的方法1:第一个比较简单def main(argv=None): if FLAGS.job_name == 'ps': with tf.device......原创 2020-01-17 20:51:18 · 1075 阅读 · 0 评论 -
spark集群与scala程序开发实用经验
spark在很多公司中都有线上应用,多是用在处理数据上面,语法相较于hadoop更加简单,而且更易理解,集群也更易管理,但是还是有很多技巧可寻,掌握这些技巧对提升工作效率来说非常重要原创 2019-04-04 20:27:07 · 1832 阅读 · 1 评论 -
项目git开发流程
合理合适的利用git,会给自己以及团队带来很大的方便,相反,如果没有应用得当,就会让工作陷入整个的混乱之中原创 2019-04-19 17:10:26 · 6947 阅读 · 2 评论 -
实时系统搭建方案
实时系统对一个业务成熟的大公司来说是必不可少的,当离线特征做到一定程度后,效果就很难提升了,当离线模型做到一定程度后,效果也是一样,所以实时特征、实时模型(在线模型)都是后续的一个产物,对提升业务效果有着很大的作用...原创 2019-06-06 20:59:19 · 608 阅读 · 0 评论