自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

转载 ubuntu16.04 安装docker-ce,解决libltdl7版本过低的问题

遇到的问题: 按照docker官方安装教程,执行到:sudo apt-get install docker-ce 安装失败,出现如下错误: The following packages have unmet dependencies: docker-ce : Depends: libltd...

2020-05-28 19:17:15 9 0

转载 推荐系统 embedding 技术实践总结

当前主流的推荐系统中,embedding 无处不在,从一定意义上可以说,把 embedding 做好了,整个推荐系统的一个关键难题就攻克了。因此,本文总结了移动腾讯网推荐系统中的 embedding 技术实践,力图达到娱人娱己的目的。 什么是 embedding embedding 其实就是一...

2020-05-28 17:31:41 90 0

转载 分布式一致性算法-Paxos、Raft、ZAB、Gossip

为什么需要一致性 数据不能存在单个节点(主机)上,否则可能出现单点故障。 多个节点(主机)需要保证具有相同的数据。 一致性算法就是为了解决上面两个问题。 一致性算法的定义 一致性就是数据保持一致,在分布式系统中,可以理解为多个节点中数据的值是一致的。 一致性的分类 强一致性 说明:保...

2020-05-27 14:44:34 53 0

转载 Elasticsearch实现原理分析

介绍 本文是分析Elasticsearch系列文章中的一篇,是一个译文。共有三个部分,每部分讲解部分Elasticsearch的实现原理。 在翻译的过程中,也需要查看对应部分的源码,来加深对实现原理的理解。但这里并没有对源码进行分析,源码的分析放到后面的系列文章进行介绍。 本文介绍了Elasti...

2020-05-27 13:49:43 17 0

转载 腾讯Elasticsearch海量规模背后的内核优化剖析

背景 Elasticsearch 在腾讯内部广泛应用于日志实时分析、结构化数据分析、全文检索等场景,目前单集群规模达到千级节点、万亿级吞吐,同时腾讯联合 Elastic 公司在腾讯云上提供了内核增强版 ES 云服务。海量规模、丰富的应用场景推动着腾讯对原生 ES 进行持续的高可用、高性能、低成本...

2020-05-26 19:57:38 16 0

转载 商业化广告策略随笔

导读:随着互联网的高速发展,在线广告的市场规模水涨船高,成为互联网主流的变现模式之一,也催生了一批广告巨头,如国外的Google、Facebook,国内的字节跳动、阿里、百度、腾讯,广告在整个营收中占据着重要的位置。本文将从广告动态化、目标转化出价、数据管理平台 ( DMP )、广告的拍卖内核、机...

2020-05-25 19:14:15 33 0

转载 爱奇艺深度语义表示学习的探索与实践

导读:基于学术界和工业界经验,爱奇艺设计和探索出了一套适用于爱奇艺多种业务场景的深度语义表示学习框架。在推荐、搜索、直播等多个业务中的召回、排序、去重、多样性、语义匹配、聚类等场景上线,提高视频推荐的丰富性和多样性,改善用户观看和搜索体验。本文将介绍爱奇艺深度语义表示框架的核心设计思路和实践心得。...

2020-05-25 15:54:44 39 0

转载 商业化广告策略解读

导读:随着互联网的高速发展,在线广告的市场规模水涨船高,成为互联网主流的变现模式之一,也催生了一批广告巨头,如国外的Google、Facebook,国内的字节跳动、阿里、百度、腾讯,广告在整个营收中占据着重要的位置。 前文中,我们介绍了广告动态化、目标转化出价、数据管理平台 ( DMP )、广告...

2020-05-25 11:14:09 20 0

转载 召回算法实践总结

近两年来,在移动腾讯网落地了许多召回算法,绝大多数对业务指标带来了不小的提升,趁着假期闲宅无事,泡壶好茶,倚窗听雨,顺便做点总结。一方面希望得到大神们的指点,另一方面也希望帮助到刚好有需要的同学,如果能起到抛砖引玉的作用更是荣幸之至。 召回在推荐系统中的地位 由于我个人主要是做召回算法的,首先...

2020-05-19 16:43:40 88 0

原创 数字孪生

数字孪生(*Digital twin*)指可用于各种目的物理资产(物理孪生,physical twin)、过程、人员、场所、系统和设备的数字副本。 简介 数字孪生(Digital twin)指可用于各种目的物理资产(物理孪生,physical twin)、过程、人员、场所、系统和设备的数字...

2020-05-18 19:11:50 73 0

转载 数据中台

原文地址:https://miaowenting.site/2020/03/24/%E5%85%B3%E4%BA%8E%E6%95%B0%E6%8D%AE%E4%B8%AD%E5%8F%B0%E7%9A%84%E6%80%9D%E8%80%83%E4%B8%8E%E6%80%BB%E7%BB%93...

2020-05-14 17:32:18 120 0

转载 Elasticsearch SQL介绍及实例

Elasticsearch 是一个全文搜索引擎,具有您期望的所有优点,例如相关性评分,词干,同义词等。而且,由于它是具有水平可扩展的分布式文档存储,因此它可以处理数十亿行数据,而不会费劲。针对Elasticsearch专业人员来说,大多数人喜欢使用DSL来进行搜索,但是对于一些不是那么专业的人员来...

2020-05-14 14:57:07 71 0

转载 广告出价--如何使用PID控制广告投放成本

文章来源:AlphaSue https://zhuanlan.zhihu.com/p/139244173 背景 任何一个广告投放体系在商业化的过程中必须考虑的两个因素就是,投放成本、投放量. 只有投放成本低于整个商业链条中可接受的成本,这个商业模式才能够成立,而投放量决定了这个模式能够有多大的...

2020-05-14 13:23:33 113 0

原创 kubernetes常用对象

1. Master 集群的控制节点,负责整个集群的管理和控制,kubernetes的所有的命令基本都是发给Master,由它来负责具体的执行过程。 1.1. Master的组件 kube-apiserver:资源增删改查的入口 kube-controller-manager:资源对象的大总...

2020-05-12 16:58:06 58 0

原创 kubernetes问题排查

1. 查看系统Event事件 kubectl describe pod <PodName> --namespace=<NAMESPACE> 该命令可以显示Pod创建时的配置定义、状态等信息和最近的Event事件,事件信息可用于排错。例如当Pod状态为Pending,...

2020-05-12 15:42:39 44 0

原创 kubectl命令

kubectl的命令语法 kubectl [command] [TYPE] [NAME] [flags] 其中command,TYPE,NAME,和flags分别是: command: 指定要在一个或多个资源进行操作,例如create,get,describe,delete。 ...

2020-05-12 15:37:00 123 0

原创 ZooKeeper总结

什么是ZooKeeper? ZooKeeper 是一个开源的分布式协调服务。它是一个为分布式应用提供一致性服务的软件,分布式应用程序可以基于 Zookeeper 实现诸如数据发布/订阅、负载均衡、命名服务、分布式协调/通知、集群管理、Master 选举、分布式锁和分布式队列等功能。 ZooKe...

2020-05-09 14:09:35 58 0

转载 掌握 Kafka

Apache Kafka 是一个快速、可扩展的、高吞吐的、可容错的分布式“发布-订阅”消息系统, 使用 Scala 与 Java 语言编写,能够将消息从一个端点传递到另一个端点。较之传统的消息中间件(例如 ActiveMQ、RabbitMQ),Kafka 具有高吞吐量、内置分区、支持消息副本和高容...

2020-05-08 15:57:51 38 0

转载 图推荐算法在E&E问题上的应用

分享嘉宾:庄正中资深数据挖掘工程师 编辑整理:陈家辉 内容来源:先荐推荐系统学院 出品平台:DataFunTalk 注:转载请在后台留言“转载”。 导读:本次分享将围绕以图为基础衍生的一类推荐算法原理和应用,以及 E&E 问题 ( 如何应对新用户和新内容 ) 的一些处理方法。...

2020-05-07 19:51:38 133 0

转载 ES亿级数据检索优化,三秒返回突破性能瓶颈

作者丨mikevictor 来源丨www.cnblogs.com/mikevictor07/p/10006553.html 一、前言 数据平台已迭代了三个版本,从刚开始遇到很多常见的难题,到终于有片段时间整理一些已完善的文档,在此分享以供需要的朋友参考,少走些弯路。此文篇幅会偏重于E...

2020-05-07 19:47:26 94 0

转载 高性能短链设计

今天,我们来谈谈如何设计一个高性能短链系统,短链系统设计看起来很简单,但每个点都能展开很多知识点,也是在面试中非常适合考察侯选人的一道设计题,本文将会结合我们生产上稳定运行两年之久的高性能短链系统给大家简单介绍下设计这套系统所涉及的一些思路,希望对大家能有一些帮助。 本文将会从以下几个方面来讲解...

2020-05-07 15:25:40 41 0

转载 TCP

TCP 基本认识 TCP 连接建立 TCP 连接断开 Socket 编程 PS:本次文章不涉及 TCP 流量控制、拥塞控制、可靠性传输等方面知识,这些留在下篇哈! 正文 一、TCP 基本认识 瞧瞧 TCP 头格式 我们先来看看 TCP 头的格式,标注颜色的表示与本文关联比较...

2020-04-28 19:39:23 89 0

转载 机器学习中的特征选择

特征选择是很重要的 有这么一句话在业界广泛流传:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。那特征工程到底是什么呢?顾名思义,其本质是一项工程活动,目的是最大限度地从原始数据中提取特征以供算法和模型使用。 推荐和广告系统中特征选择同样重要,虽然深度学习能在一定程度...

2020-04-27 19:25:03 195 0

原创 G1调优常用参数

-XX:MaxGCPauseMillis:暂停时间,默认值200ms。这是一个软性目标,G1会尽量达成,如果达不成,会逐渐做自我调整。对于Young GC来说,会逐渐减少Eden区个数,减少Eden空间那么Young GC的处理时间就会相应减少;对于Mixed GC,G1会调整每次Choose C...

2020-04-27 15:10:31 150 0

转载 多图详解Nginx

本文将围绕如下几个部分进行讲解: Nginx 简介及特点 Nginx 应用场景 Nginx 框架模型介绍 Nginx 内部流程介绍 Nginx 自定义模块开发介绍 Nginx 核心时间点模块介绍 Nginx 分流模块介绍 ...

2020-04-27 14:58:29 48 0

转载 阿里文娱搜索算法实践与思考

导读:视频搜索是涉及信息检索,自然语言处理( NLP ),机器学习以及计算机视觉 ( CV ) 等多领域的综合应用场景,随着深度学习在这些领域的长足进展以及用户对视频生产和消费的广泛需求,视频搜索技术的发展在学术和工业界都取得了飞速的发展,本文将以优酷为例,分享视频搜索的算法实践,首先介绍优酷搜索...

2020-04-27 13:57:55 209 0

转载 因果推断在阿里文娱用户增长中的应用

导读:如何实现产品的用户增长?显然,这是各家移动互联网应用的头等大事,也是悬在各家业务负责人头上的"天问"。在移动互联网进入下半场的大趋势下,过去粗放式的买量、厂商合作等模式越来越会受到掣肘,将更加依赖精细化的用户增长策略和产品用户体验的细致打磨;经典的 AARRR 模式会逐步...

2020-04-27 11:14:39 184 0

转载 谷歌最新双塔DNN召回模型——应用于YouTube大规模视频推荐场景

“谷歌基于双塔DNN框架提出一个大规模最近邻召回系统,为降低采样偏差带来的影响,文章对batch softmax的损失函数进行了改进,同时从工程的角度介绍了大规模双塔DNN召回模型的训练、部署、应用等细节” 文章来源:https://zhuanlan.zhihu.com/p/128988454点...

2020-04-26 17:31:40 280 0

转载 缓存穿透、缓存击穿和缓存雪崩

我们使用缓存的主要目是提升查询速度和保护数据库等稀缺资源不被占满。 而缓存最常见的问题是缓存穿透、击穿和雪崩,在高并发下这三种情况都会有大量请求落到数据库,导致数据库资源占满,引起数据库故障。今天我主要分享一下layering-cache缓存框架在这个三个问题上的实践方案。 概念 ...

2020-04-24 13:50:06 46 0

原创 layering-cache

layering-cache layering-cache是一个支持分布式环境的多级缓存框架,使用方式和spring-cache类似,主要目的是在使用注解的时候支持配置过期时间。 layering-cache其实是一个两级缓存,一级缓存使用Caffeine作为本地缓存,二级缓存使用redis作...

2020-04-24 13:46:25 58 0

转载 只有正样本和无标签样本时如何构建分类器

Building Text Classifiers Using Positive and Unlabeled Examples Bing Liu, Yang Dai, Xiaoli Li, Wee Sun Lee, Philip S. Yu University of Illinois at ...

2020-04-22 14:33:18 167 0

转载 蚂蚁金服大规模分布式事务实践和开源历程

本文整理自蚂蚁金服技术专家、分布式事务 Seata 发起者之一张森(花名:绍辉)在 GIAC 全球互联网架构大会的分享。10几年的经验,今天全部公开和开源。 一、自研分布式事务解决数据一致性问题 1.1 分布式事务问题产生原因 1.1.1 数据库的水平拆分 蚂蚁金服的业务数据库起初是单库...

2020-04-21 10:46:03 106 0

转载 搭建会员权益体系

序言:会员权益体系的设计是用户运营的一部分。简单来说,会员权益就是将已有会员分出等级,并利用已有资源来对其进行分配。有了完整的会员权益体系,才能把已有用户牢牢把握住。不过磨刀不误砍柴工,在着手搭建会员权益之前,有些问题想清楚后再做不迟。 在上篇文章《会员积分消耗中的三大问题,你都避开了吗?》...

2020-04-20 15:07:36 144 0

原创 kubectl命令

kubectl 详细命令用法可以参考官网: https://kubernetes.io/docs/reference/generated/kubectl/kubectl-commands kubectl 常用的命令总结 只显示默认命名空间的pods kubectl get pods 显示所有...

2020-04-14 14:47:38 135 0

转载 Apache Kylin VS Apache Doris

作者: 康凯森 日期: 2018-04-17 分类:OLAP 1 系统架构 1.1 What is Kylin 1.2 What is Doris 2 数据模型 2.1 Kylin的聚合模型 2.2 Doris的聚合模型 2.3 Kylin Cuboid VS Dor...

2020-04-12 20:02:37 81 0

转载 Apache Doris : 一个开源 MPP 数据库的架构与实践

分享提纲: Doris 背景介绍 适用场景 & 案例介绍 Doris 整体架构 Doris 关键技术 Doris 背景介绍 介绍 Doris 的整体架构,以及 Doris 的一些特性。 一、Doris Doris 是分布式、面向交互式查询的分布...

2020-04-11 21:21:44 107 0

转载 Redis面试题

Redis(Remote Dictionary Server) 是一个使用 C 语言编写的,开源的(BSD许可)高性能非关系型(NoSQL)的键值对数据库。 Redis 可以存储键和五种不同类型的值之间的映射。键的类型只能为字符串,值支持五种数据类型:字符串、列表、集合、散列表、有序集合。 与...

2020-04-07 15:41:12 109 0

转载 深度学习在省钱快报推荐排序中的应用与实践

文章作者:省钱快报算法团队 编辑整理:Hoh Xil 内容来源:作者授权 出品平台:DataFun 注:欢迎转载,转载请在留言区留言。 导读:省钱快报是一家中小型综合类电商APP,近2年平台规模有了较大增长,AI在平台业务发展中发挥了巨大作用。本文以推荐场景优化在省钱快报的发展为脉络...

2020-04-03 17:20:11 208 0

转载 深入理解XGBoost:分布式实现

文章来源:公众号【Coggle数据科学】 写在前面 本文将重点介绍XGBoost基于Spark平台Scala版本的实现,带领大家逐步完成特征提取、变换和选择、XGBoost模型训练、Pipelines、模型选择。 XGBoost简单回顾 XGBoost(Extreme Gradient B...

2020-04-03 11:21:47 112 0

翻译 Private Data Manipulation in Optimal Sponsored Search Auction

引言 搜索广告拍卖(sponsored search auction)是搜索引擎向广告主销售搜索结果页上的广告位的一种拍卖活动。用户每搜索一个关键词,网页的顶部和侧面就可以显示一些广告。广告每被点击一次,相应的广告主就需要向搜索引擎支付一笔费用。通常,广告位不止一个,不同位置的广告被用户点击的概...

2020-03-30 14:40:40 123 0

提示
确定要删除当前文章?
取消 删除