- 博客(29)
- 收藏
- 关注
原创 专注dApp高效执行和高并发的下一代公有链
Dora网络从三个方面来解决区块链目前性能不足的问题:纵向扩容,横向扩容和分层共识算法(DVBC),从而达到商业应用级别的TPS;并且兼容EVM,以便于现有dApp的快速移植。原文&下载https://www.slidestalk.com/s/dora_2018_1120_ppt82991...
2019-01-28 18:48:06 165
原创 数据仓库
数据仓库是一个面向主题的、集成的、随时间变化的、非易失的数据集合,用于支持管理者的决策过程。集成:将多个分散的数据源统一成一致的、无歧义的数据格式后放置到数据仓库中,解决命名冲突、计量单位不一致等问题;随时间变化:数据仓库中的数据反映了某一历史时间点的数据快照;非易失:一旦进入数据仓库中,数据就不应该再有改变。数据仓库中的粒度是指数据的细节或汇总程度,细节程度越高,粒度级别越低。数据仓库...
2019-01-28 18:43:13 151
原创 Go在区块链的发展和演进
Go语言发展至今已经过去十年多了,是目前最流行的新兴语言,云计算领域的首选语言,而且目前随着区块链的流行,Go再次成为了这个领域的第一语言,以太坊,IBM的fabric等重量级的区块链项目都是基于Go开发。原文&下载https://www.slidestalk.com/s/Go_at_Development_and_Evolution_of_Block_Cha...
2019-01-28 18:38:23 190
原创 GraphLab: A New Framework For Parallel Machine Learning
原文&下载https://www.slidestalk.com/s/graphlab19587
2019-01-28 18:34:35 343
原创 微软亚洲研究院27篇论文入选AAAI 2019
人工智能领域的国际顶级会议AAAI 2019将于1月27日至2月1日在美国夏威夷举行。根据已经公布的论文录取结果,今年的大会录取率创历史新低,投稿数量高达7745篇,录取的数量仅有16%左右。但在被录取的论文中,来自微软亚洲研究院的却有27篇之多,包括了机器学习、自然语言处理(NLP)、计算机视觉和图形学等多个领域。本文将详细介绍这三个领域中来自微软亚洲研究院的那些硬核论文。机器学习非自回归机...
2019-01-28 18:30:27 662
原创 Large-Scale Data Processing with MapReduce
介绍了MapReduce的诞生的背景,基本原理,算法思想,以及如何用于文本挖掘,管理关系型数据,如何进行图计算及常用图计算的实现伪代码(Dijkstra’s / BFS / PageRank),最后谈到了大数据之上的存储HDFS/HBASE以及Hive和Pig。虽然不是最新的流行趋势,但是已经把大数据领域最基本的问题讲清楚了。原文&下载https://www....
2019-01-25 18:04:01 132
原创 分布式计算平台介绍
分布式计算系统平台是将一系列用计算机网络相连接通信的,独立计算的模式和组件,集成到一个统一的平台,展现给用户的是一个完整的独立计算平台。本文介绍分布式计算平台的基本概念和不同计算模式,并对当前最为流行的Apache Spark / Hadoop原理做深入分享。原文&下载https://www.slidestalk.com/s/distributed_platf...
2019-01-25 17:59:33 3053
原创 Kyligence公开课-Apache Superset设计与SQL查询
本次公开课邀请了 Kyligence 公司的 Python 全栈工程师赵勇杰为我们讲解Apache Superset。课程通过讲解 Superset 代码,使您可以快速了解 Superset 的系统设计,其中包含:Superset 系统架构、Superset 代码结构讲解、可视化查询到 SQL 生成过程。原文&下载https://www.slidestalk....
2019-01-24 19:03:38 248
原创 Introduction to Spark
Spark’s goal was to generalize MapReduce to support new applications within the same engineTwo additions:Fast data sharingGeneral DAGs (directed acyclic graphs)Best of both worlds: easy to program...
2019-01-24 19:00:23 135
原创 大规模日志数据企业级分布式平台架构面临的问题与挑战
本次分享大规模日志数据企业级分布式平台架构面临的问题与挑战,架构之争和演进之路,当前架构的关键技术,未来架构优化思考。原文&下载https://www.slidestalk.com/s/Enterprise_Distributed_Platform_Architecture...
2019-01-24 18:56:30 155
原创 A View of Cloud Computing
Our goal in this article is to reduce that confusion by clarifying terms, providing simple figures to quantify comparisons between of cloud and conventional computing, and identifying the top technica...
2019-01-24 18:49:52 694
原创 How to Design a Good API and Why it Matters
为什么API设计很重要?API可能是一个公司/一个产品最重要的资产,你的客户可能会因为它好用,开始学习,付费购买并使用它们,并让客户们觉得离开你的API是需要付出巨大代价的,好的API设计会轻易俘获客户的心。当然API也可能会成为一个公司最大的债务,拙略的API设计可能会让你疲于应付你的用户支持。请记住,公共API一旦定义,就会一直被使用,你只有一次机会,那就是在最开始的时候把它定义设计好。如何设...
2019-01-24 18:46:41 197
原创 ABRiS: Avro bridge for Apache Spark
ABRiS是来非洲的金融服务供应商,他们利用Apache Spark作为核心的数据处理引擎,本篇会讲解他们在Spark以及Spark生态中的工作贡献。原文&下载https://www.slidestalk.com/s/abris_avro_bridge_for_apache_spark_1548134566963...
2019-01-23 19:28:43 164
原创 The Data Ecosystem 2.0
Alluxio创始人&CEO李浩源博士在2018 BDTC大会上的主题演讲。介绍大数据和AI时代计算存储架构的演进,以及Alluxio在生态系统中的位置。想要了解更多Alluxio,访问官网alluxio.org原文&下载https://www.slidestalk.com/s/Alluxio_BDTC2018_Keynote...
2019-01-23 19:26:09 215
原创 Go在区块链的发展和演进
Go语言发展至今已经过去十年多了,是目前最流行的新兴语言,云计算领域的首选语言,而且目前随着区块链的流行,Go再次成为了这个领域的第一语言,以太坊,IBM的fabric等重量级的区块链项目都是基于Go开发。原文&下载篇https://www.slidestalk.com/s/Go_at_Development_and_Evolution_of_Block_Cha...
2019-01-23 19:23:11 207
原创 桑文锋《数据化建设的时代机遇》
一家企业落地数据驱动包括三个层面:第一层是高层建立数据驱动意识; 第二层是公司的整体业务流程的改造,并将数据驱动引入;第三层是真正的落地层面。原文&下载https://www.slidestalk.com/s/74258...
2019-01-23 19:17:40 153
原创 Spark Structured Streaming
With the ubiquity of real-time data, organizations need streaming systems that are scalable, easy to use, and easy to integrate into business applications. Structured Streaming is a new high-level str...
2019-01-23 19:15:19 180
原创 小红书社区技术
本次分享,郭一主要介绍了小红书社区的数据技术。首先介绍了小红书的产品和社区个性化的推荐需要的关键技术。然后对社区的数据技术分别从接入层,业务层,数据服务层和数据仓库层进行了概述。然后讲述了一个利用流计算引擎Flink给线上推荐提供用户行为实时的多维度聚合的业务实例。最后对小红书下一年的数据架构发展进行的展望。原文&下载https://www.slidestalk...
2019-01-22 19:24:07 2898
原创 PayPal merchant ecosystem using Apache Spark, Hive, Druid,
As one of the few closed-loop payment platforms, PayPal is uniquely positioned to provide merchants with insights aimed to identify opportunities to help grow and manage their business. PayPal process...
2019-01-22 19:20:10 121
原创 Vectorized Execution Explained
向量化是随着列存数据库一起成熟的新查询执行模型,诸如Hive,Vertica,Vectorwise,Clickhouse等都使用了该技术。向量化也是 TiDB 正在进行的优化之一。本次分享将从为何进行向量化,块执行,SIMD和晚期物化等多个方面阐述向量化引擎的设计和实现。原文&下载https://www.slidestalk.com/s/Vectorized_E...
2019-01-22 19:17:42 292
原创 标签体系应用及设计思路
标签画像是精准营销、产品应用的中间层基础,可以实现的业务价值包含基于用户群体的生命周期管理、高价值客户深入开发、交叉营销,也可以输出用于个性化推送、个性化推荐以及个性化实时营销,同时也是数据分析和用户分析的属性源,具备非常强的应用价值。标签体系的建设,核心是从应用场景和商业目的出发,基于对业务形态和策略的理解之上,从业务需求反推标签及体系设计,同时也强调了标签的管理和可持续维护的重要性,并分享了某...
2019-01-22 19:14:03 3501
原创 【干货】数据库论文专题
今天分享一份关于数据库的论文资料专题,对数据库方面进行了很深的研究。此专题共71篇文档或论文,基本囊括了关于日常数据库搭建,维护,测试,优化,CPU,OLAP,并发分析与编译等方面的问题。https://www.slidestalk.com/x/227/database/...
2019-01-21 19:26:12 735
原创 企业级数据库POLARDB介绍&优化分享
PolarDB优化分享:PolarDB主要有五大核心优势:兼容性PolarDB兼容了当下最主流的、开发者最喜欢用的MySQL和PostgreSQL两种数据库生态,这意味着MySQL和PostgreSQL的老用户,在一行代码不用改的前提下,可以把业务从原来的开源数据库迁移到阿里云的企业数据库平台上。性能好对比MySQL有6倍性能提升及相对于商业数据库实现大幅度降低成本。拿Sysbench跑B...
2019-01-21 19:19:41 1215
原创 MLflow v0.8.1具有更快的实验UI和增强的Python模型
MLflow v0.8.1本周发布。它引入了几个UI增强功能,包括数千次运行的更快加载时间,以及在使用许多指标和参数进行导航运行时提高响应速度。此外,它扩展了对作为Apache Spark UDF评估Python模型的支持,并自动将模型依赖性捕获为Conda环境。现在可以在[PyPI]和在线文档中使用,您可以pip install mlflow按照MLflow快速入门指南中的说明安装此新版本 。...
2019-01-21 16:36:02 577
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人