大数据
乔治大哥
脚踏实地,仰望星空。
展开
-
听一听蚂蚁金服机器学习算法中台周俊谈共享智能技术实践:如何降低数据共享的难度?
人工智能目前存在的难题是鱼与熊掌不可兼得,也就是隐私性跟可用性难以兼顾。如果想要 AI 系统发挥作用,就可能需要牺牲隐私。但是,在大量真实场景中,如果做不到同时兼顾隐私和可用性,会导致很多 AI 落地的困境。随着对数据安全和重视和隐私保护法案的出台,曾经粗放式的数据共享受到挑战,各个数据拥有者重新回到数据孤岛的状态。同时,互联网公司也更加难以收集和利用用户的隐私数据,数据孤岛反而成为了常...原创 2020-03-24 21:28:02 · 1532 阅读 · 0 评论 -
腾讯TEG团队打造轻量级数据可视化工具——小马BI【强烈推荐大数据行业学习】
推荐一个BI工具——小马BI在职场中有一项共识是:数据驱动业务价值。业务在产品、运营、开发、技术支持、销售等环节都有着大量的数据需求, 市面上也出现了很多 BI 可视化工具,但如果能同时具备以下特性,则可以称为一款优秀的 BI 工具: 简易接入数据 拖拽式生成图表 快速计算数据 定期发送周报 支持移动端+PC 端 不用钱 结合以上特点...原创 2020-03-23 21:57:14 · 5325 阅读 · 2 评论 -
阿里云科学家丁险峰:万物互联的价值在哪里?
导读踏入5G时代,物联网即将飞速发展,并构建一个全新的数字孪生世界。我国目前正在经历制造业的转型,工业物联网是物联网技术未来主要的发展方向之一。那么,物联网领域正在诞生哪些前沿技术?5G、IPV6、区块链、时空信息、数字孪生体等AIoT前沿技术有哪些应用前景?对于以上问题,阿里云首席智联网科学家、感知与认知专家丁险峰与大家进行了分享和解答。丁险峰拥有20年的物联网与人工智能领域的经验...转载 2020-03-18 21:32:05 · 776 阅读 · 0 评论 -
从vivo 大规模特征存储实践中学点经验
原创黄伟锋本文旨在介绍 vivo 内部的特征存储实践、演进以及未来展望,抛砖引玉,吸引更多优秀的想法。一、需求分析AI 技术在 vivo 内部应用越来越广泛,其中特征数据扮演着至关重要的角色,用于离线训练、在线预估等场景,我们需要设计一个系统解决各种特征数据可靠高效存储的问题。1. 特征数据特点(1)Value 大特征数据一般包含非常多的字段,导...转载 2020-03-18 21:30:09 · 519 阅读 · 0 评论 -
网络安全公司奇安信集团是如何基于 Flink 构建 CEP 引擎实时检测网络攻击【未来不可忽视的网络安全】
或许提到奇安信,大家听多了,bat,或许不太关注,那么使用过码云,也就是我们国内的github的同志,或许就有点印象来了。一个仓库的统计下面的一个连接,就是奇安信代码卫士!随着互联网的高速发展,网络安全越发重要。其余的就不多说了,我们看正题:摘要:奇安信集团作为一家网络安全公司是如何基于 Flink 构建 CEP 引擎实时检测网络攻击?其中面临的挑战以及宝贵的实践经验有哪些?本...原创 2020-03-15 21:37:22 · 2948 阅读 · 0 评论 -
听腾讯 TEG 大佬谈腾讯万亿级 Elasticsearch 技术解密
作者:johngqjiang,腾讯 TEG 云架构平台部研发工程师Elasticsearch(ES)作为开源首选的分布式搜索分析引擎,通过一套系统轻松满足用户的日志实时分析、全文检索、结构化数据分析等多种需求,大幅降低大数据时代挖掘数据价值的成本。腾讯在公司内部丰富的场景中大规模使用 ES,同时联合 Elastic 公司在腾讯云上提供内核增强版的 ES 云服务,大规模、丰富多样的的使用场景推动...原创 2020-03-14 21:55:10 · 1971 阅读 · 0 评论 -
KTV歌曲推荐-深入浅出协同过滤
前言推荐算法有很多,最基础的就是协同过滤,前段时间对KTV数据比较感兴趣,大家去唱歌也只是唱熟悉的歌,那是不是有办法给大家一些建议拓展一下唱歌的宽度呢。KTV推荐可能要考虑很多因素,比如唱歌者的音域,年龄,地区,喜好,等等。第一版算法暂时只从item base的角度出发去给用户推荐。由于是个人兴趣,所以没有模型反馈迭代的过程,有兴趣的可以自己实现。协同过滤算法协同过滤又叫行为相似召回,...转载 2020-03-13 17:38:27 · 415 阅读 · 0 评论 -
介绍一下Druild,并从Twitter大数据团队分析如何应用 Druid 分析 ZB 级实时数据?
或许很多同学都还没有用过Druid,那么我们先简单介绍一下Druid,然后由浅入深的进行分析!DruildDruid 是一个用于大数据实时查询和分析的高容错、高性能开源分布式系统,旨在快速处理大规模的数据,并能够实现快速查询和分析。尤其是当发生代码部署、机器故障以及其他产品系统遇到宕机等情况时,Druid 仍能够保持 100% 正常运行。官网地址:https://druid.apache.o...原创 2020-03-13 17:20:14 · 1344 阅读 · 0 评论 -
bilibili Saber 实时计算平台架构与实践【Apache Flink 替换 Spark Stream的架构与实践】
摘要:本文由bilibili大数据实时平台负责人郑志升分享,基于对 bilibili 实时计算的痛点分析,详细介绍了 bilibili Saber 实时计算平台架构与实践。本次分享主要围绕以下四个方面:一、实时计算的痛点二、Saber的平台演进三、结合AI的案例实践四、未来的发展与思考一、实时计算的痛点1.痛点各个业务部门进行业务...转载 2020-03-10 21:34:48 · 657 阅读 · 0 评论 -
数据埋点太难!知乎的做法有何可借鉴之处?
导读:埋点作为商业智能(BI)和人工智能(AI)体系中重要的一环,是公司提升产品工程质量、实施 AB Testing、个性化推荐服务重要的数据来源。在传统的纯 Web 和 Native 开发的产品中,埋点从技术的角度来说未必多深奥,但从业务的角度来说要做到埋点设计规范、流程高效和保证质量却是很难。本文重点介绍一下知乎客户端的埋点模型、流程和平台技术。客户端埋点为什么难?Web 端的...转载 2020-03-09 22:33:50 · 600 阅读 · 0 评论 -
Delta Lake——数据湖的可靠性
分享一位大神关于 Delta Lake 的演讲内容。这位是 Apache Spark 的 committer 和 PMC 成员,也是 Spark SQL 的最初创建者,目前领导 Databricks 团队,设计和构建 Structured Streaming 和 Databricks Delta,技术涉及分布式系统、大规模结构化存储和查询优化等方面。这位大神就是 Michael Armbrus...转载 2020-03-09 22:16:08 · 572 阅读 · 0 评论 -
Kafka集群在马蜂窝大数据平台的优化与应用扩展
导读Kafka 是当下热门的消息队列中间件,它可以实时地处理海量数据,具备高吞吐、低延时等特性及可靠的消息异步传递机制,可以很好地解决不同系统间数据的交流和传递问题。Kafka 在马蜂窝也有非常广泛的应用,为很多核心的业务提供支撑。本文将围绕 Kafka 在马蜂窝大数据平台的应用实践,介绍相关业务场景、在 Kafka 应用的不同阶段我们遇到了哪些问题以及如何解决、之后还有哪些计划等。...转载 2020-03-07 21:06:17 · 264 阅读 · 1 评论 -
今天说说OPPO——OPPO 实时数仓揭秘:从顶层设计实现离线与实时的平滑迁移
摘要:单日总数据处理量超 10 万亿,峰值大概超过每秒 3 亿,OPPO 大数据平台研发负责人张俊揭秘 OPPO 基于 Apache Flink 构建实时数仓的实践,内容分为以下四个方面: 建设背景 顶层设计 落地实践 未来展望 重要:公众号后台回复关键字「0303OPPO」,即可获取作者现场分享的完整版 PPT。一、建设背景...转载 2020-03-04 21:14:41 · 659 阅读 · 0 评论 -
贾扬清:如何看待人工智能方向的重要问题?【相辅相成不可或缺的两位“大数据和AI”】
导读:今天的内容由阿里CIO学院攻“疫”技术公益培训贾扬清专场整理而来。直播中贾扬清向大家分享了人工智能的工程和产品实践,首先介绍了什么是人工智能以及人工智能的应用;然后和大家一起探讨了人工智能系统中的重要问题,如算法创新背后的算力突破、云上平台能提供的价值;最后给大家剖析了大数据和人工智能之间的关系,作为一个企业应该如何拥抱AI以及智能化年底企业布局的重点。一、人工智能算法...转载 2020-03-04 21:13:02 · 958 阅读 · 0 评论 -
都说现在的主流技术是Flink,那么让我们看看FLink在网易是如何实战的?
摘要:本文由网易 Java 技术专家吴良波分享,主要内容为 Apache Flink 在网易的实践,文章提纲如下: 业务与规模演进 Flink 平台化 案例分析 未来发展与思考 一、业务与规模演进网易流计算演进在很久以前,网易内部基本上都是使用 Storm 来处理实时的计算任务,比较主要的使用场景是实时邮件反垃圾,广告,新闻推...转载 2020-03-01 21:33:29 · 623 阅读 · 0 评论 -
带你了解Google搜索引擎的竞价排名是怎样实现的?
导读:在搜索引擎的搜索结果页面上一般有两类内容:一类是根据PageRank等算法得到的与你搜索的关键字有直接关联的源生链接,另一类是广告商付了费的广告链接。每次你在搜索引擎上搜索一个关键字时,搜索引擎在背后都实时地运行了一场拍卖,通过这场拍卖来决定哪些广告商的链接能够被显示出来,这些链接以什么次序排列,以及向每个广告商收取多少钱。那么这样的系统背后的模型是什么?是怎样设计的?本...转载 2020-03-01 21:25:45 · 2399 阅读 · 0 评论 -
无论BAT还是ZJM,他们数据分析的套路——【经典的6大类分析方法】
正文开始前言基于硬件成本的不断降低、内存计算的不断成熟和企业业务管理系统应用的不断深入,流程驱动管理逐渐满足不了企业日新月异的发展需求,数据驱动管理越来越得到企业的青睐。企业需要能承载海量数据的高性能数据中心,无论企业应用了什么样的业务管理系统,真正帮助企业经营者做出决策的是数据。六大类分析方法概要说明要使各种结构化的、非结构化的、海量的数据实现标准化、信息化,能够提供...转载 2020-02-29 21:23:29 · 566 阅读 · 0 评论 -
数据中台离数据资产“价值变现”还有多远?
大数据、数据治理、数据湖、数据中台……连绵不绝的数据技术和热词(Buzzword)让企业信息化部门疲于跟踪、构建和维护新的数据管理系统。都说“数据是石油”,是企业核心资产之一,那么有了这些数据管理系统,数据资产就成功实现“价值变现”(value realization)了吗?显然不是!石油与数据的价值变现产业链(value chain)继续以石油做类比,如图1所示,石油从勘探到...转载 2020-02-29 21:17:57 · 1105 阅读 · 0 评论 -
基于 Flink 的超大规模在线实时反欺诈系统的建设与实践
在大数据时代,金融科技公司通常借助消费数据来综合评估用户的信用和还款能力。这个过程中,某些中介机构会搜集大量的号并进行“养号”工作,即在一年周期里让这些号形成正常的消费、通讯记录,目的是将这些号“培养”得非常健康,然后卖给有欺诈意向的用户。这类用户通过网上信息提交审核,骗到贷款后就“销声匿迹”了。那么,如何更快速地预防或甄别可能的欺诈行为?如何从超大规模、高并发、多维度的数据中实现在线实时反欺...转载 2020-02-29 21:16:03 · 1052 阅读 · 0 评论 -
干货 | 携程Hadoop跨机房架构实践
作者简介昱康,携程架构师,对分布式计算和存储、调度、查询引擎、在线离线混部、高并发等方面有浓厚兴趣。本文将分享携程Hadoop跨机房架构实践,包含Hadoop在携程的发展情况,整个跨机房项目的背景,我们跨机房的架构选型思路和落地实践,相关的改造和对未来的展望,希望给大家一些启迪。一、Hadoop在携程的落地及发展情况携程Hadoop是从2014年引进的,基本上每年较前一...转载 2020-02-27 21:47:01 · 701 阅读 · 0 评论 -
阿里文娱测试开发专家谈《算法基石:实时数据质量如何保障?》
优酷视频搜索是文娱分发场最核心的入口之一,数据源多、业务逻辑复杂,尤其实时系统的质量保障是一个巨大挑战。如何保障数据质量,如何衡量数据变化对业务的影响?本文会做详细解答。一、现状分析搜索数据流程如下图所示,从内容生产到生成索引经历了复杂的数据处理流程,中间表多达千余张,实时数据消费即消失,难以追踪和复现。从上图可以看出,整个系统以实时流模式为数据流通主体,业务层面按实体类型打平,入...转载 2020-02-26 21:30:39 · 391 阅读 · 0 评论 -
字节跳动自研万亿级图数据库 & 图计算实践 【太高级了,不是圈里的人,有简明见解的吗?】
1. 图状结构数据广泛存在字节跳动的所有产品的大部分业务数据,几乎都可以归入到以下三种: 用户信息、用户和用户的关系(关注、好友等); 内容(视频、文章、广告等); 用户和内容的联系(点赞、评论、转发、点击广告等)。 这三种数据关联在一起,形成图状(Graph)结构数据。为了满足 social graph 的在线增删改查场景,字节跳动自研了分布式图存储系统...转载 2020-02-26 21:27:01 · 3211 阅读 · 2 评论 -
阿里云EMR技术专家 “健身” 浅析Hive/Spark SQL读文件时的输入任务划分
Hive以及Spark SQL等大数据计算引擎为我们操作存储在HDFS上结构化数据提供了易于上手的SQL接口,大大降低了ETL等操作的门槛,也因此在实际生产中有着广泛的应用。SQL是非过程化语言,我们写SQL的时候并不能控制具体的执行过程,它们依赖执行引擎决定。而Hive和Spark SQL作为Map-Reduce模型的分布式执行引擎,其执行过程首先就涉及到如何将输入数据切分成一个个任务,分配给不...转载 2020-02-24 21:21:11 · 600 阅读 · 0 评论 -
携程机票数据仓库建设之路
一、前言随着大数据技术的飞速发展,海量数据存储和计算的解决方案层出不穷,生产环境和大数据环境的交互日益密切。数据仓库作为海量数据落地和扭转的重要载体,承担着数据从生产环境到大数据环境、经由大数据环境计算处理回馈生产应用或支持决策的重要角色。数据仓库的主题覆盖度、性能、易用性、可扩展性及数据质量都是衡量数据仓库解决方案好坏的重要指标。携程机票部门数据仓库也在不断...原创 2020-02-20 21:46:46 · 694 阅读 · 0 评论 -
拼车日滴滴派单的那些事
0.目录1. 背景2. 滴滴分单架构概述 分单模式 滴滴分单架构 3. 拼车日带来的挑战 拼车原生属性 拼成出发预约模式 服务化架构 4. 稳定性保障之路 架构优化 拼成出发预约模式 - 临近指派 过滤逻辑优化 - 架构与性能的折衷 超时重试配置化 预案建设...转载 2020-02-19 16:42:13 · 742 阅读 · 0 评论 -
eBay | 实践Hadoop任务的性能翻倍之路
摘要:eBay的CAL(Central Application Logging)系统负责收集eBay各种应用程序的日志数据,并且通过Hadoop MapReduce job生成日志报告,应用程序开发人员与运维人员通过报告可获得以下内容: API调用响应时间的百分位值 服务调用关系 数据库操作 eBay每天产生PB量级的CAL日志,其数据量每天都在增加。对于日益增长的数...原创 2020-02-15 20:27:05 · 506 阅读 · 0 评论 -
监控指标10K+!携程实时智能检测平台实践
摘要:本文将介绍携程实时智能异常检测平台——Prophet。到目前为止,Prophet 基本覆盖了携程所有业务线,监控指标的数量达到 10K+,覆盖了携程所有订单、支付等重要的业务指标。Prophet 将时间序列的数据作为数据输入,以监控平台作为接入对象,以智能告警实现异常的告警功能,并基于 Flink 实时计算引擎来实现异常的实时预警,提供一站式异常检测解决方案。本次分享主要分为四个方面:...转载 2020-02-14 20:22:07 · 751 阅读 · 0 评论 -
京东JDHBase异地多活实践
JDHBase在京东集团作为线上kv存储,承担了大量在线业务,11.11、6.18 均经历了每天万亿级读写访问请求,目前规模达到7000+节点,存储容量达到了90PB。场景涉及商品订单、评价、用户画像、个性推荐、金融风控、物流、监控等700+业务。JDHBase上承载了大量核心业务,遍布全球多个Data Center。为了保障业务稳定不间断运行,我们构建了JDHBase集群的异...原创 2020-02-14 20:14:51 · 745 阅读 · 0 评论 -
阿里巴巴计算平台资深技术专家“一浪”对大数据领域近几年的技术趋势和变化的看法【强烈推荐数据岗细细品!】
计算和存储分离是近几年大数据架构领域颇受关注的一个技术风向。在对刚刚过去的 2019 天猫双 11 技术进行总结时,阿里巴巴 CTO 行癫也特别提到了阿里在计算存储分离上的进展。大数据最初兴起之时,主流网络带宽只有 100Mb,通过网络远程访问数据实在太慢了。为了解决数据快速访问的问题,Google 创造性地提出了计算和存储耦合的架构,而 Hadoop 延续了这个架构,风光一时无两。但十年过去之后...原创 2020-02-13 21:41:37 · 779 阅读 · 2 评论 -
字节跳动EB级HDFS的七年演进与实践
作为目前字节跳动内部存储量及集群规模最大的分布式存储系统,HDFS 一直伴随着字节跳动关键业务的飞速扩张而快速发展。本文会从 HDFS 发展历程入手,介绍发展路径上的重大挑战及解决方案。HDFS简介因为 HDFS 这样一个系统已经存在了非常长的时间,应用的场景已经非常成熟了,所以这部分我们会比较简单地介绍。HDFS 全名 Hadoop Distributed File...转载 2020-02-12 11:36:22 · 1157 阅读 · 0 评论 -
从阿里生态演进中,菜鸟的数据中台怎么飞起来?
不知道大家对数据中台这块了解多少,今年数据中台这个概念又火起来了,大家可能会想要了解一下这个东西是什么。比如,菜鸟的数据中台是什么?菜鸟数据中台的整个技术演进?阿里也在前段时间的云栖大会上发布了阿里数据中台,那阿里数据中台和菜鸟数据中台有什么关系,有什么区别?还有菜鸟是怎么做数据中台的,怎么去考核数据中台,等等这些问题。今天我的分享就是围绕着以上问题。整体会分成三块来讲,一个是概述篇,对...转载 2020-02-10 15:33:45 · 1126 阅读 · 0 评论 -
疫情面前,中国医院需要什么样的数据中台?
中国互联网的今天,市值总和接近10万亿人民币,头部阿里巴巴、腾讯各有4000多亿美元市值。一方面市值熠熠,一方面互联网成为数据应用技术的发源地,数据中台也在其中萌芽。腾讯汤道生说,“中台能力以前就有,只不过它们大多服务于内部业务,在产业互联网时代才开始逐渐对外开放这些技术积累。”京东黎科峰也坦言“公司在一轮又一轮组织架构调整之后,将数据中台提升到了重视的新高度。”这一切只是聚光灯下数据中台的冰山一...转载 2020-02-09 20:22:08 · 772 阅读 · 0 评论 -
数据吞吐量高达800亿条!实时计算在贝壳找房的应用实践
摘要:本文由贝壳找房实时计算负责人刘力云分享,主要内容为Apache Flink在贝壳找房业务中的应用,分为以下三方面: 业务规模与演进 Hermes 实时计算平台介绍 未来发展与规划 业务规模及演进下图为贝壳找房的业务场景示意图。最上层为贝壳找房公司最为主体的四大业务:二手房交易、新房交易、租赁业务及装修业务。四大业务运营将产生图示中...转载 2020-02-05 20:28:48 · 744 阅读 · 0 评论 -
近二十年大数据行业怎么样?解决了什么?经历了什么?
导读:2001-2020,21世纪的前20年已接近尾声,大数据从无到有,从火爆到被质疑。本文带你了解这20年里,大数据解决了哪些问题、面临着哪些挑战?作者:阿尔伯特·比费特(Albert Bifet)、理查德·戈华达(Richard Gavaldà)、杰弗里·福尔摩斯(Geoffrey Holmes)、伯恩哈德·普法林格(Bernhard Pfahringer)译者:陈瑶、姚毓夏...原创 2020-01-21 21:43:35 · 1131 阅读 · 0 评论 -
大数据架构如何做到流批一体?【对于Flink等流批一体的概念做了很好的澄清!】
导读:大数据与现有的科技手段结合,对大多数产业而言都能产生巨大的经济及社会价值。这也是当下许多企业,在大数据上深耕的原因。大数据分析场景需要解决哪些技术挑战?目前,有哪些主流大数据架构模式及其发展?今天,我们都会一一解读,并介绍如何结合云上存储、计算组件,实现更优的通用大数据架构模式,以及该模式可以涵盖的典型数据处理场景。大数据处理的挑战现在已经有越来越多的行业和技术领域...原创 2020-01-20 21:56:04 · 2080 阅读 · 0 评论 -
网易数据中台建设实践
数据中台是什么?从 Hadoop 集群的开发运维,到构建大数据平台,再到数据中台建设,这是很多大型互联网公司大数据的建设历程。到底什么是数据中台,数据中台跟我们之前一直说的大数据平台有什么区别,我想可以通过一个例子来说明。如果我们把数据中台看作是一个汽车工厂,那大数据平台就是工厂中的设备,Hadoop 集群则是工厂运作所必须的水、电、煤。Hadoop 提供的是大数据生产所必须的计算和存储资...原创 2020-01-17 20:45:27 · 873 阅读 · 0 评论 -
唯品会 1000+ 台 Hadoop 集群优化经验
性能挑战01HDFS 是一个分布式系统,只要有足够的资源,可以扩容上千个节点支持100PB以上的集群。我们发现Hadoop集群升级(2.5.0-cdh5.3.2-->2.6.0-cdh5.13.1)以后,NameNode RPC(remote procedure call)queue time在持续的在间隔一周左右性能恶化,在极端环境下出现一个RPC查询需要等待好几分钟的情况,...原创 2020-01-12 21:20:26 · 516 阅读 · 0 评论 -
eBay实践Hadoop MapReduce 任务的性能翻倍之路
摘要:eBay的CAL(Central Application Logging)系统负责收集eBay各种应用程序的日志数据,并且通过Hadoop MapReduce job生成日志报告,应用程序开发人员与运维人员通过报告可获得以下内容: API调用响应时间的百分位值 服务调用关系 数据库操作 eBay每天产生PB量级的CAL日志,其数据量每天都在增加。对于日益增长的数...原创 2019-12-28 21:03:56 · 306 阅读 · 0 评论 -
数据仓库系列:如何优雅地规划数仓体系
0x00 前言数仓规划是数仓建设的蓝图,涵盖从需求分析开始到最终的数仓评估验收整个环境;数仓规划之所以重要,是因为它是描述了数据流动的概念性框架,为元数据管理奠定了基础,对数据加工过程的理解、数仓建设的交流分享、数据的使用和问题排查、数仓健康度的评估都提供了极大的帮助。需要强调的是本节是从宏观上描述数仓的框架,具体到数据模型的细节对比、存储选型和管理、接入数据源管理等数仓建设的周边在本节不...原创 2019-12-25 21:08:55 · 809 阅读 · 0 评论 -
到底什么是数据中台?数据中台包含什么?
数据中台最早是阿里提出的,但真正火起来是 2018 年,我们能感受到行业文章谈论数据中台的越来越多。大量的互联网、非互联网公司都开始建设数据中台。为什么很多公司开始建设数据中台?尽管数据中台的文章很多,但是一千人眼里有一千个数据中台,到底什么是数据中台?数据中台包含什么?2017 年开始,当网易严选有了一定量的数据,我们就开始规划建设我们的数据中台,目前我们已经完成了数据中台体...原创 2019-12-20 21:03:29 · 3782 阅读 · 0 评论