2020年10月_hellozhxy

转载推荐算法工程师成长2：排序模块

开一个系列，主题是推荐算法工程师成长路径。目标是希望填补书本上的机器学习理论与业界推荐算法工程师知识体系上的gap，了解一些业界模块的通用玩法。目标群体是针对以下用户:有一些代码和机器学习基础，但是没有从业经验的在校学生刚刚入坑的算法工程师，可以对照一起探讨对推荐系统感兴趣的其他朋友欢迎关注一起探讨，也欢迎关注我的微信公众号: 峰池 (fengchitalk)。前两篇，我们分别讲了推荐算法所需要的一些工程基础，和在推荐算法的召回模块的一些通用解法：峰池：推荐算法工程师成长路径0——工程

2020-10-30 20:38:31 414

转载腾讯 VS 阿里 VS 携程消息中间件设计方案及思路

目标：可靠性（保证消息不丢失）、异步、解耦（无需同时在线、不需要知道对方是谁）。数据的存储级别：内存中的数据（断电丢数据）=》持久化磁盘（磁盘损坏）=》冗余备份（一致性问题）业界MQ设计方案如下：1.阿里Notify架构特点：Notify之间不互相通讯。支持水平扩展。客户端通过Config Server获得Notify地址列表。客户端自动感知Notify的增加或减少。发布者、消费者、Notify Server都支持集群。消息根据不同的安全级别选择存放到不同的地方（如

2020-10-29 16:11:53 224 1

转载 10种轻量级人脸检测算法大PK

几个月前，AIZOO曾经盘点过最强六大开源轻量级人脸检测项目分析 | 附打包下载，nihate同学将它丰富到10种算法，并用Python.对他们进行了汇总整理，以及效果的对比。Github链接：https://github.com/hpc203/10kinds-light-face-detector-align-recognition 可以阅读原文跳转。原文：https://blog.csdn.net/nihate/article/details/108798831最近在微信公众号 AIZO..

2020-10-28 09:51:53 5548

转载 Facebook经典CTR预估模型

这里是「王喆的机器学习笔记」的第九篇文章，今天我们重读一篇经典的CTR预估领域的论文，Facebook在2014发表的“Practical Lessons from Predicting Clicks on Ads at Facebook”。在这篇文章中，Facebook提出了经典的GBDT（Gradient Boosting Decision Trees）+LR(Logistics Regression)的CTR模型结构，可以说开启了特征工程模型化、自动化的新阶段。此外其在五年前就采用的online

2020-10-28 09:45:51 573

转载系统设计：Google三剑客

补充材料：三剑客：http://blog.csdn.net/koder2009/article/details/3964878http://blog.csdn.net/koder2009/article/details/3985329http://blog.csdn.net/koder2009/article/details/3991938http://blog.csdn.net/wangxiaoqin00007/article/details/7091686http://www.m

2020-10-28 09:39:59 545

转载精益软件过程中七大浪费的应对之道

精益生产原本是来自于制造业的一个理念，为丰田汽车首创。之后随着一代代丰田人的丰富和完善，逐渐成为丰田汽车商场制胜的一大法宝。之后随着精益生产的理念传到美国，逐渐的发展为一套完整的价值体系。与此同时，在软件工程领域，敏捷也逐渐发展成为一套完整的价值观和方法论的体系。直到有一天，这两者被同时摆在桌子上的时候，我们才发现，这两者虽然行业背景不同，关注点也不尽相同，给出的解决方法也不一致，但是在最基本的价值观上却可以做到相互融合。由此，精益生产的理念也被引入了软件工程领域，并逐渐形成Lean-Agile的项目管

2020-10-23 14:25:21 1562

转载 DCN-M：Google提出改进版DCN，用于大规模排序系统的特征交叉学习(附代码)

“本文结合DeepCTR-Torch中的代码实现，介绍了DCN的改进版——DCN-M。该模型能更有效地学习特征交叉，并通过低秩矩阵分解对参数矩阵进行降维，降低计算成本。受MOE结构启发，作者还在多个子空间中建模特征交叉。实验表明，传统的基于ReLU的神经网络在学习高阶特征交叉时效率较低；DCN-M能够在保证效率较高的同时，取得优于SOTA方法的效果。”本文介绍的论文是《DCN-M: Improved Deep & Cross Network for Feature Cross Learning.

2020-10-21 09:16:04 1803 2

转载京东订单系统高可用架构及演变过程

京东到家是达达集团旗下中国最大的本地即时零售平台之一，目标就是实现一个小时配送到家的业务。一直到 2019 年京东到家覆盖 700 个县区市，合作门店近 10 万家，服务数千万消费者。随着订单量的增长、业务复杂度的提升，订单系统也在不断演变进化，从早期一个订单业务模块到现在分布式可扩展的高并发、高性能、高可用订单系统。整个发展过程中，订单系统经历了几个明显的阶段，通过不同的技术优化方案解决业务上遇到的问题。下面我将为大家逐一介绍我们遇到了哪些问题及如何解决，主要分为以下三部分：京东到家系统架构

2020-10-20 21:07:31 4726

转载电商系统之订单系统

电商系统之订单系统1 概述订单系统作为电商系统的“纽带”贯穿了整个电商系统的关键流程。其他模块都是围绕订单系统进行构建的。订单系统的演变也是随着电商平台的业务变化而逐渐演变进化着，接下来就和大家一起来解析电商平台的“生命纽带”。订单系统的作用是：管理订单类型、订单状态，收集关于商品、优惠、用户、收货信息、支付信息等一系列的订单实时数据，进行库存更新、订单下发等一系列动作。订单系统业务的基本模型涉及用户、商品（库存）、订单、付款，订单基本流程是下订单——>减库存，这两...

2020-10-20 16:46:38 4390

转载动态网络表征学习在推荐领域的创新与实践

导读：在现实生活中，用户对于一件事物的关注度即关系图往往是会随着时间而改变的。按照静态图的建模方法将不能显示地建模用户在时序上的兴趣变化。动态网络表征学习不仅能学习到当前网络的结构信息，而且也能学习到网络在时间上的变化，但是目前主要还是针对动态同构网络，本文在此基础上提出了基于层次化注意力机制的动态图表征算法，是推荐底层算法模型上的一次突破。01背景介绍目前大多数 Graph Embedding 的方法如 node2vec、GCN、GraphSAGE 和 GAT 等主要是针对静态图模型的方法，也

2020-10-19 17:48:23 779

转载 100篇精选算法技术文章收藏

目前按照文章的主题大致分成了下面几个模块，每个模块内都是按照发表时间由近到远排列：排序&CXR预估召回匹配用户画像&特征工程推荐搜索综合计算广告大数据图算法 NLP&CV 求职面试由于微信的文章不方便经常更新，我把这份目录也同步在了github上，并且支持主题跳转。对于想要实时获得最新更新的同学，可以关注一下https://github.com/shenweichen/AlgoN

2020-10-19 09:42:01 595

转载解读电商搜索

“本文主要结合作者的一些电商算法经验，以手淘搜索为例展开，介绍产品和诉求层面以及如何使用搜索入口来做用户引导，后续文章会结合相关算法深入展开。”作者：姚凯飞，Club Factory 推荐算法负责人硕士毕业于上海交通大学，前阿里推荐算法工程师，多年电商及视频推荐经验，目前在出海电商Club Factory负责推荐算法工作。出品：DataFunTalk一. 概述一个产品的搜索功能，是用户快速触达所需信息的通道，起到了引导用户走向的重要作用；优秀的产品必然有成熟、体验良好的搜索功能。..

2020-10-13 20:06:55 3961 1

转载分类模型与排序模型在推荐系统中的异同分析

出品社区：DataFunTalk 前言推荐系统是驱动内容分发的引擎，而个性化则是推荐系统的核心思想。分类模型和排序模型是业界常用的两种个性化建模方式。本文探讨两种方法的异同点，总结如下：分类模型回答的是用户喜不喜欢这个物品，而排序模型回答的用户更喜欢哪一个；在对事件发生的假设上，分类模型认为个样本之间相互独立且服从相同的分布，排序模型认为同组内部的样本是有关联关系和可以相互比较的；从Bayesian 的观点来看，分类模型刻画的是<user,ite...

2020-10-13 17:10:26 612

转载美团外卖离线数仓建设实践

导读：美团外卖数据仓库主要是收集各种用户终端业务、行为数据，通过统一口径加工处理，通过多种数据服务支撑主题报表、数据分析等多种方式的应用。数据组作为数据基础部门，支持用户端、商家端、销售、广告、算法等各个团队的数据需求。本文主要介绍美团外卖离线数仓的历史发展历程，在发展过程中碰到的痛点问题，以及针对痛点做的一系列优化解决方案。01 业务介绍首先介绍下美团外卖的业务场景，核心交易链路为：用户可以通过美团的各种用户终端（包括美团外卖的 APP 或者美团 APP、QQ/ 微信等）下单，然后商家接单

2020-10-13 17:02:26 1199

转载 InnoDB索引原理详解

摘要：　　本篇介绍下Mysql的InnoDB索引相关知识，从各种树到索引原理到存储的细节。　　InnoDB是Mysql的默认存储引擎(Mysql5.5.5之前是MyISAM，文档)。本着高效学习的目的，本篇以介绍InnoDB为主，少量涉及MyISAM作为对比。　　这篇文章是我在学习过程中总结完成的，内容主要来自书本和博客(参考文献会给出)，过程中加入了一些自己的理解，描述不准确的地方烦请指出。　　1 各种树形结构　　本来不打算从二叉搜索树开始，因为网上已经有太多相关文章，但是考虑到清晰的

2020-10-13 09:49:33 524

转载为什么使用了索引，查询还是慢？

经常有同学问我，我的一个SQL语句使用了索引，为什么还是会进入到慢查询之中呢？今天我们就从这个问题开始来聊一聊索引和慢查询。另外插入一个题外话，个人认为团队要合理的使用ORM，可以参考 ORM的权衡和抉择。合理利用的是ORM在面向对象和写操作方面的优势，避免联合查询上可能产生的坑(当然如果你的Linq查询能力很强另当别论)，因为ORM屏蔽了太多的DB底层的知识内容，对程序员不是件好事，对性能有极致追求，但是ORM理解不透彻的团队更加要谨慎。案例剖析　言归正传，为了实验，我创建了如下表：..

2020-10-12 09:59:11 395

转载图解 ElasticSearch 搜索原理

摘要先自上而下，后自底向上的介绍ElasticSearch的底层工作原理，试图回答以下问题：为什么我的搜索 *foo-bar*无法匹配foo-bar？为什么增加更多的文件会压缩索引（Index）？为什么ElasticSearch占用很多内存？版本elasticsearch版本: elasticsearch-2.2.0内容图解ElasticSearch云上的集群集群里的盒子云里面的每个白色正方形的盒子代表一个节点——Node。...

2020-10-10 09:54:19 341

转载图网络中的社群及社群发现算法

导读：本文来自作者的学习笔记。主要讲解Graph中社群的概念，然后介绍了一种简单的社群发现算法Louvain Algorithm，最后提供可重叠的社群发现，提出BigCLAM算法，用来识别节点从属关系。01Granovetter's theory马克·格兰诺维特（Mark Granovetter，1943年10月20日－），美国社会学家，斯坦福大学教授。格兰诺维特是论文被引用最多的学者之一，根据 Web of Science 的数据，社会学论文被引数排名第一和第三的文章皆出自格兰诺维特之手。格兰

2020-10-10 09:12:21 4083

转载深度剖析 synchronized

线程安全是并发编程中关注的重点，应该注意到的是，造成线程安全问题的主要原因有两点，一是存在共享数据(也称临界资源)，二是存在多条线程共同操作共享数据。因此为了解决这个问题，Java 引入了互斥锁的概念，对共享数据变量在访问前需要获取锁，然后才能对其进行修改，修改完后再释放锁，没有获取到锁的线程只能等待，直到当前线程处理完毕释放该锁。这样能够保证在同一时刻只有一个线程能够对共享数据进行操作，保证了多线程下的线程安全。在 Java 中，关键字 synchronized 可以保证在同一个时刻，只有一个线程可以执.

2020-10-10 09:11:01 329

转载 MOBIUS：百度凤巢新一代广告召回系统

导读：本文主要介绍了百度搜索广告系统 ( 凤巢 ) 的新一代多目标召回系统架构，相比于经典召回排序两段架构，能在保证召回相关性的同时引入诸如CPM等排序层的优化目标，从而提升整体系统的效率。01创新点1. 在召回层保证相关性的同时引入了CPM等业务指标作为召回的依据。2. 将以往的CTR预估模型融合到召回层中，提出一种全新的多目标商业召回系统架构。02论文背景在大部分公司的商业广告系统架构中，都会采用经典的“漏斗”结构，即召回——粗排——精排——重排序等模块，在现有的召回模块中，

2020-10-10 09:09:32 1326

转载 Redis 6.0 如何实现大幅度的性能提升？

导读: Redis可以轻松支撑100k+ QPS，离不开基于Reactor模型的I/O Multiplexing，In-memory操作，以及单线程执行命令避免竞态消耗。尽管性能已经能满足大多数应用场景，但是如何继续在迭代中继续优化，以及在多核时代利用上多线程的优势，也是大家关注的重点。我们知道性能优化在系统资源层面可以从I/O以及CPU上入手，对于Redis而言，其功能不过度依赖CPU计算能力，即不是CPU密集型的应用，而In-memory的操作也绕开了通常会拖慢性能的磁盘I/O，所以在Redis 6..

2020-10-10 09:07:25 1120

hellozhxy的博客