开源大数据周刊-第87期

最新推荐文章于 2024-09-06 19:15:00 发布

weixin_33804990

最新推荐文章于 2024-09-06 19:15:00 发布

阅读量73

点赞数

文章标签：大数据数据结构与算法系统架构

原文链接：https://yq.aliyun.com/articles/594044

版权

资讯

SIGIR2018高分录用——阿里妈妈公开全新CVR预估模型

近期，阿里妈妈算法团队发表了一篇题为《Entire Space Multi-Task Model: An Effective Approach for Estimating Post-Click Conversion Rate》，公开了全新的CVR预估模型。该模型解决了传统CVR预估模型难以克服的样本选择偏差和训练数据过于稀疏的问题，同时开放了业界首个包含用户序贯行为的大规模数据集。

Apache Pulsar：实时数据处理中消息、计算和存储的统一

实时数据处理在各个行业和领域中已经变得越来越关键。但是在实时数据栈中，Messaging，Computing和Storage三个部分的分离，给方案的实现带来了高复杂性，低可维护性，低效率等问题。

谷歌推出Learn2Compress，可在移动端定制机器学习模型

在谷歌 I/O 大会上，谷歌公布了 ML Kit，旨在帮助移动开发者们获取机器学习能力。谷歌将于近期推出的一大 ML Kit 核心功能，正是由其研究团队开发出的 Learn2Compress 技术支持并实现的自动模型压缩服务。Learn2Compress 支持 TensorFlow Lite 中的在线深度学习模型定制功能，其可在移动设备上高效运行，帮助开发人员摆脱内存与速度优化等难题。。

技术

从Netflix的推荐系统架构中我们可以学习到什么

你是否常常被乱花渐欲迷人眼的推荐算法绕得如坠云中，觉得好像算法就是推荐系统的全部，哪怕就算不是全部，也肯定至少是个嫡生的长子。
然而，实际上工程实现才是推荐系统的骨架，如果没有很好的软件实现，算法不能落地产生效果，产品不能顺畅地服务用户，不能顺利地收集到用户的反馈，更不能让推荐系统往更好的方向进化。

图解JanusGraph内部数据存储结构

JanusGraph/Titan有如下关键设计：支持大规模图数据存储，Titan图数据库是建立在分布式集群上，数据存储容量和集群节点数量成正比；支持弹性和线性扩展，高可用，高容错；支持Gremlin图查询语言；支持利用Hadoop计算框架对图数据进行分析；支持外部索引：ElasticSearch、Solr、Lucene；支持多储存引擎：Cassandra、HBase、Berkeley DB和InMemory模式；基于Apache License 2.0

ZooKeeper真不是最终一致性的，而是顺序一致性

一种说法是ZooKeeper是最终一致性，因为由于多副本、以及保证大多数成功的Zab协议，当一个客户端进程写入一个新值，另外一个客户端进程不能保证马上就能读到这个值，但是能保证最终能读取到这个值。另外一种说法是ZooKeeper的Zab协议类似于Paxos协议，并且提供了强一致性。每当我听到这2种说法，我都想上去纠正一下，“不对，ZooKeeper是顺序一致性(Sequential consistency)”。

负载均衡的原理

本文所描述的，其实就是著名开源软件LVS的原理，上面讲的两种负载均衡的方式，就是LVS的NAT和DR。LVS是章文嵩博士在1998年5月成立的自由软件项目，现在已经是Linux内核的一部分。想想那时候我还在不亦乐乎地折腾个人网页，学会安装和使用Linux 没多久 , 服务器端开发也仅限于ASP，像LVS这种负载均衡的概念压根就没有听说过。

weixin_33804990

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
开源大数据周刊-第87期

资讯SIGIR2018高分录用——阿里妈妈公开全新CVR预估模型近期，阿里妈妈算法团队发表了一篇题为《Entire Space Multi-Task Model: An Effective Approach for Estimating Post-Click Conversion Rate》，公开了全新的CVR预估模型。该模型解决了传统CVR预估模型...
复制链接

扫一扫