- 博客(448)
- 资源 (16)
- 收藏
- 关注
转载 Presto 来自Facebook的开源分布式查询引擎
PrestoDB 来自Facebook的开源分布式查询引擎Presto是一个分布式SQL查询引擎, 它被设计为用来专门进行高速、实时的数据分析。它支持标准的ANSI SQL,包括复杂查询、聚合(aggregation)、连接(join)和窗口函数(window functions)。下图中展现了简化的Presto系统架构。客户端(client)将SQL查询发送到Presto的协调员 (
2017-03-31 20:42:44 6657
转载 理解垃圾回收算法
来自Atomic Object公司的Ken Fox为了解释各种垃圾回收算法,开发了一个小工具,用于对各种垃圾回收算法进行可视化演示。这个工具通过动画的形式展示了垃圾回收算法的执行过程,让人非常直观地了解这些复杂算法背后的原理。这篇文章最早由Ken Fox于2014年9月3号发表在Atomic Spin博客上,以下译文已获得源网站的翻译授权。原文链接“Visualizing Garbage
2017-03-31 20:27:26 6194
转载 Apache Kylin在唯品会大数据的应用, ROLAP解决方案
背景介绍引子:随着传统基于RDBMS的EDW往大数据的演进的过程中,Batch可处理的数据量越来越大,时间越来越快,但是Ad-hoc的响应速度却始终是大数据的瓶颈。在2015年 唯品会的数据分析碰到了以下两个瓶颈:第一是数据准备的流程长,第二是缺少合适数据提取和分析工具。首先,从数据准备流程来看,常见的流程是业务人员提出需求,BI同事定角度、找数据, 如果数据不完善,还得继
2017-03-31 19:16:26 7467
转载 Spark定制班第4课:Spark Streaming的Exactly-One的事务处理和不重复输出彻底掌握
本期内容1 Exactly Once2 输出不重复1 Exactly Once 事务: 银行转帐为例,A用户转笔账给B用户,如果B用户没收到账,或者收到多笔账,都是破坏事务的一致性。事务处理就是,能够处理且只会处理一次,即A只转一次,B只收一次。 从事务视角解密SparkStreaming架构: S
2017-03-30 18:17:17 6238
转载 Spark定制班第3课:通过案例对SparkStreaming 透彻理解三板斧之三:解密SparkStreaming运行机制和架构进阶之Job和容错
本期内容1 Spark Streaming Job 架构和运行机制2 Spark Streaming Job 容错架构和运行机制1 Spark Streaming Job 架构和运行机制 理解Spark Streaming的Job的整个架构和运行机制对于精通Spark Streaming是至关重要的。 一 首先我们运行以下的程序,然后通过
2017-03-30 15:46:25 6263
转载 Spark定制班第2课:通过案例对Spark Streaming透彻理解三板斧之二:解密Spark Streaming运行机制和架构
本期内容:1 解密Spark Streaming运行机制2 解密Spark Streaming架构1 解密Spark Streaming运行机制 我们看看上节课仍没有停下来的Spark Streaming程序运行留下的信息。 这个程序仍然在不断地循环运行。即使没有接收到新数据,日志中也不断循环显示着JobScheduler、B
2017-03-30 15:20:15 6280
转载 Spark定制班第1课:通过案例对Spark Streaming透彻理解三板斧之一:解密Spark Streaming另类实验及Spark Streaming本质解析
从今天起,我们踏上了新的Spark学习旅途。我们的目标是要像Spark官方机构那样有能力去定制Spark。 我们最开始将从Spark Streaming入手。 为何从Spark Streaming切入Spark定制?Spark的子框架已有若干,为何选择Spark Streaming?让我们细细道来。 Spark最开始只有Spark Cor
2017-03-30 14:59:22 6698
转载 Spark的位置优先: TaskSetManager 的有效 Locality Levels
based on spark-1.5.1 standalone mode在Spark Application Web UI的 Stages tag 上,我们可以看到这个的表格,描述的是某个 stage 的 tasks 的一些信息,其中 Locality Level 一栏的值可以有 PROCESS_LOCAL、NODE_LOCAL、NO_PREF、RACK_LOCAL、ANY 几个值。这
2017-03-30 14:43:59 7964 2
转载 Kafka High Availability (下)
原创文章,转载请务必将下面这段话置于文章开头处。(已授权InfoQ中文站发布)本文转发自Jason’s Blog,原文链接 http://www.jasongj.com/2015/06/08/KafkaColumn3摘要 本文在上篇文章基础上,更加深入讲解了Kafka的HA机制,主要阐述了HA相关各种场景,如Broker failover,Controller failo
2017-03-29 18:46:55 6046
转载 Kafka High Availability (上)
Kafka在0.8以前的版本中,并不提供High Availablity机制,一旦一个或多个Broker宕机,则宕机期间其上所有Partition都无法继续提供服务。若该Broker永远不能再恢复,亦或磁盘故障,则其上数据将丢失。而Kafka的设计目标之一即是提供数据持久化,同时对于分布式系统来说,尤其当集群规模上升到一定程度后,一台或者多台机器宕机的可能性大大提高,对Failover要求非常高。
2017-03-29 18:42:14 6314
转载 apache kafka配置中request.required.acks含义
Kafka producer的ack有3中机制,初始化producer时的producerconfig可以通过配置request.required.acks不同的值来实现。0:这意味着生产者producer不等待来自broker同步完成的确认继续发送下一条(批)消息。此选项提供最低的延迟但最弱的耐久性保证(当服务器发生故障时某些数据会丢失,如leader已死,但producer并不知情
2017-03-29 10:31:13 10850
转载 Spark-Streaming获取kafka数据的两种方式-Receiver与Direct的方式
Spark-Streaming获取kafka数据的两种方式-Receiver与Direct的方式,可以从代码中简单理解成Receiver方式是通过zookeeper来连接kafka队列,Direct方式是直接连接到kafka的节点上获取数据了。一、基于Receiver的方式这种方式使用Receiver来获取数据。Receiver是使用Kafka的高层次Consumer API来实现
2017-03-18 23:46:23 6523
转载 Spark-Streaming与Spark-Sql整合实现实时股票排行---通过kafka列队数据
Spark-Streaming与Spark-Sql整合实现实时股票排行---通过kafka列队数据,前端数据通过 kafka队列传递,外层还有flume的实时收集。1、mvn构建工程,指定好依赖的库,这里用的是spark1.4.1[html] view plain copyproject xmlns="http://mav
2017-03-18 23:45:00 6661
转载 Spark机器学习数据流水线
关键点:了解机器学习数据流水线有关内容。怎么用Apache Spark机器学习包来实现机器学习数据流水线。数据价值链处理的步骤。Spark机器学习流水线模块和API。文字分类和广告检测用例。在之前的“用Apache Spark做大数据处理”系列文章中,我们学习了Apache Spark框架,介绍了Spark和它用作大数据处理的不同库(第一部分),Spark
2017-03-14 16:27:00 11174 3
原创 阿里巴巴大规模电商推荐系统应用经验分享
视频+ppt地址 : http://www.infoq.com/cn/presentations/sharing-recommendation-system-application-experience
2017-03-13 18:46:06 7141
转载 如何从零构建实时的个性化推荐系统?
【作者简介:刈刀(程君杰),曾就职于阿里巴巴移动事业部,数据技术专家。主要负责业务数据分析挖掘系统架构和设计,包括大规模数据采集、分析处理、数据挖掘、数据可视化、高性能数据服务等。】前言在移动互联网迅速发展的今天,信息量爆发性增长,人们获取信息的途径越来越多,如何从大量的信息中获取我们想要的内容,成为了推荐系统研究的重点。 随着大数据产业的不断壮大,推荐系统在企业也越来越重要,从亚马逊
2017-03-13 18:28:34 14163 1
转载 如何从零构建实时的个性化推荐系统?
现在网上到处都有推荐。亚马逊等主流电子商务网站根据它们的页面属性以各种形式向用户推荐产品。Mint.com之类的财务规划网站为用户提供很多 建议,比如向用户推荐他们可能想要办理的信用卡,可以提供更好利率的银行。谷歌根据用户搜索历史记录的信息优化搜索结果,找到相关性更高的结果。这些知名公司使用推荐提供情境化的、有相关性的用户体验,以提高转化率和用户满意度。这些建议原来
2017-03-13 17:55:14 10016
转载 实时推荐系统的3种方式
推荐系统介绍自从1992年施乐的科学家为了解决信息负载的问题,第一次提出协同过滤算法,个性化推荐已经经过了二十几年的发展。1998年,林登和 他的同事申请了“item-to-item”协同过滤技术的专利,经过多年的实践,亚马逊宣称销售的推荐占比可以占到整个销售GMV(Gross Merchandise Volume,即年度成交总额)的30%以上。随后Netflix举办的推荐算法优化竞赛
2017-03-13 17:53:23 7600
转载 kiji 快速理解
作者:刘旭晖 Raymond 转载请注明出处Email:colorant at 163.comBLOG:http://blog.csdn.net/colorant/更多云计算相关项目快速理解文档 http://blog.csdn.NET/colorant/article/details/8255910==是什么 == 目标Scope(解
2017-03-13 16:26:59 6301
转载 基于Spark MLlib平台的协同过滤算法---电影推荐系统
又好一阵子没有写文章了,阿弥陀佛...最近项目中要做理财推荐,所以,回过头来回顾一下协同过滤算法在推荐系统中的应用。 说到推荐系统,大家可能立马会想到协同过滤算法。本文基于Spark MLlib平台实现一个向用户推荐电影的简单应用。其中,主要包括三部分内容:协同过滤算法概述基于模型的协同过滤应用---电影推荐实时推荐架构分析
2017-03-09 23:25:32 7112
转载 Scala详解---------快速入门Scala
我无可救药地成为了Scala的超级粉丝。在我使用Scala开发项目以及编写框架后,它就仿佛凝聚成为一个巨大的黑洞,吸引力使我不得不飞向它,以至于开始背离Java。固然Java 8为Java阵营增添了一丝亮色,却是望眼欲穿,千呼万唤始出来。而Scala程序员,却早就在享受lambda、高阶函数、trait、隐式转换等带来的福利了。Java像是一头史前巨兽,它在OO的方向上几乎走到了极致,硬将
2017-03-07 22:49:56 7892
转载 详细探究Spark的shuffle实现和hadoop mapreduce shuffle原理
Background在MapReduce框架中,shuffle是连接Map和Reduce之间的桥梁,Map的输出要用到Reduce中必须经过shuffle这个环节,shuffle的性能高低直接影响了整个程序的性能和吞吐量。Spark作为MapReduce框架的一种实现,自然也实现了shuffle的逻辑,本文就深入研究Spark的shuffle是如何实现的,有什么优缺点,与Hadoop Ma
2017-02-24 15:01:57 6647
转载 Spark学习笔记之-Spark on yarn(External Shuffle Service)
Spark系统在运行含shuffle过程的应用时,Executor进程除了运行task,还要负责写shuffle 数据,给其他Executor提供shuffle数据。 当Executor进程任务过重,导致GC而不能为其 他Executor提供shuffle数据时,会影响任务运行。 这里实际上是利用External Shuffle Service 来提升性能,Extern
2017-02-23 18:14:30 9521
原创 spark on yarn 基本用法
两种模式:cluster modeclient mode启动shell:bin/spark-shell --master yarn-clientbin/spark-shell --master yarn-cluster - 不支持例子:提交Spark Job方式:./bin/spark-submit --class org.apache.spark.examples.SparkP...
2017-02-21 16:07:08 7836
原创 storm 1.0新特性
参考: 官方文档:https://storm.apache.org/releases/1.0.0/ 性能提升:与先前的版本相比,处理速度增加, 延迟减少.性能提升10倍以上,延迟减少60%。Storm 1.0的性能最高提升了16倍,在大多数情况下预计都会有3倍的性能提升。性能的重大改善来自下面的更改: 在SpoutOutputCollector.emi
2017-02-16 11:05:43 8292
转载 mac idea 快捷键大全
Mac键盘符号和修饰键说明⌘ Command⇧ Shift⌥ Option⌃ Control↩︎ Return/Enter⌫ Delete⌦ 向前删除键(Fn+Delete)↑ 上箭头↓ 下箭头← 左箭头→ 右箭头⇞ Page Up(Fn+↑)⇟ Page Down(Fn+↓)Home Fn + ←End Fn + →⇥ 右制表符(Tab键)⇤ 左制表符(Shift+Tab)⎋ Escap
2017-02-10 12:06:00 6505
转载 十大Intellij IDEA快捷键
Intellij IDEA中有很多快捷键让人爱不释手,stackoverflow上也有一些有趣的讨论。每个人都有自己的最爱,想排出个理想的榜单还真是困难。以前也整理过Intellij的快捷键,这次就按照我日常开发时的使用频率,简单分类列一下我最喜欢的十大快捷-神-键吧。1 智能提示Intellij首当其冲的当然就是Intelligence智能!基本的代码提示用Ctrl+Space,
2017-02-07 19:06:11 8382
原创 广告买量支付方式 cpa cpc cps cpt
一、分类CPM(按展示付费)CPM:英文全称Cost Per ThousandImpression。CPM是一种展示付费广告,只要展示了广告主的广告内容,广告主就为此付费。这种广告的效果不是很好,但是却能给有一定流量的网站、博客带来稳定的收入。只做CPM广告的联盟不是很多,像太极联盟就有CPM广告。CPT(按时长付费)CPT:英文全称Cost Per Time。 CPT是一种以
2017-01-19 12:11:20 13740
转载 梯度下降法详解
回归(regression)、梯度下降(gradient descent)发表于332 天前 ⁄ 技术, 科研 ⁄ 评论数 3 ⁄ 被围观 1152 次+本文由LeftNotEasy所有,发布于http://leftnoteasy.cnblogs.com。如果转载,请注明出处,在未经作者同意下将本文用于商业用途,将追究其法律责任。前言:上次写过一篇关于贝叶斯概率论的数学
2017-01-18 23:15:02 6873
原创 希腊语 - 希腊字母表对应的意思 - 数据挖掘必备
1 Α α alpha a:lf 阿尔法2 Β β beta bet 贝塔3 Γ γ gamma ga:m 伽马4 Δ δ delta delt 德尔塔5 Ε ε epsilon ep`silon 伊普西龙6 Ζ ζ zeta zat 截塔7 Η η eta eit 艾塔8 Θ θ theta θit 西塔9 Ι ι iota aiot 约塔10 Κ κ kappa kap 卡帕
2017-01-17 17:52:10 10935
转载 one hot coding -机器学习
机器学习 数据预处理之独热编码(One-Hot Encoding)问题由来在很多机器学习任务中,特征并不总是连续值,而有可能是分类值。例如,考虑一下的三个特征:["male", "female"]["from Europe", "from US", "from Asia"]["uses Firefox", "uses Chrome", "us
2017-01-14 16:39:05 6583
转载 python基于dlib的人脸识别+标记
python基于dlib的face landmarkspython使用dlib进行人脸检测与人脸关键点标记Dlib简介:首先给大家介绍一下DlibDlib是一个跨平台的C++公共库,除了线程支持,网络支持,提供测试以及大量工具等等优点,Dlib还是一个强大的机器学习的C++库,包含了许多机器学习常用的算法。同时支持大量的数值算法如矩阵、大整数、随机数运算等等。
2017-01-13 16:20:45 23150 3
转载 Flume-ng 高级功能
看看flume的高级功能:1 flume channel selectors如果没有特殊说明,则默认是replicating模式。 还有Multiplexing、Custom模式可以选择。1 Replicating Channel Selector需要设置以下的属性:selector.type 默认值是replicating,用来设
2016-12-15 15:44:07 7443
转载 shell截取文件名和文件目录
很多时候在使用Linux的shell时,我们都需要对文件名或目录名进行处理,通常的操作是由路径中提取出文件名,从路径中提取出目录名,提取文件后缀名等等。例如,从路径/dir1/dir2/file.txt中提取也文件名file.txt,提取出目录/dir1/dir2,提取出文件后缀txt等。下面介绍两种常用的方法来进行相关的操作。一、使用${}1、${var##*/}
2016-12-01 18:57:46 17474
转载 对flume1.6改造,添加Taildir功能
使用更改后的TaildirSource,可以递归地监听配置目录的动态变化的文件。需求描述使用了SpoolDirectorySource可以配置一个监听目录,会监听该目录下所有的文件,但是如果配置目录下面嵌套了子目录,则无法监听,通过修改源码,我们可以递归地对配置目录的所有子目录的所有文件进行监听,见上一篇文章 Flume的Spooling Directory Source支持Sub
2016-11-30 12:08:36 8198
转载 Mac上安装Protocol Buffers
1.下载文件 (http://code.google.com/p/protobuf/ )并解压到本地文件夹。2.确认安装过GCC(可以在终端下输入gcc - -version 测试).如果电脑上没有安装过GCC的话,你在下面步骤中会看到提示"$PATH路径中没有C编译器"(原话不记得怎么写的了,就是这个意思)。通常做开发的MAC上都装过Xcode,很多人都说装过Xcode默认都有GCC,但我
2016-11-13 12:11:38 6115
转载 hive行专列,列转行
1. 假设我们在hive中有两张表,其中一张表是存用户基本信息,另一张表是存用户的地址信息等,表数据假设如下:user_basic_info:idname1a2b3c4duser_address;nameaddressaadd1aa
2016-11-10 11:55:56 8220
转载 Markdown语法
Markdown 语法说明 (简体中文版) / (点击查看快速入门)概述宗旨兼容 HTML特殊字符自动转换区块元素段落和换行标题区块引用列表代码区块分隔线区段元素链接强调代码图片其它反斜杠自动链接感谢概述宗旨Markdown 的目标是实
2016-09-29 14:01:39 6252
原创 es/Elasticsearch文档,超全,超好用
非常不错链接:http://es.xiaoleilu.com/010_Intro/00_README.html
2016-09-09 17:59:13 8018
转载 elasticsearch 与 hive集成
ElasticSearch是一个基于Lucene构建的开源,分布式,RESTful搜索引擎。设计用于云计算中,能够达到实时搜索,稳定,可靠,快速,安装使用方便。hive是一个基于hdfs的数据仓库,方便使用者可以通过一种类sql(HiveQL)的语言对hdfs上面的打数据进行访问,通过elasticsearch与hive的结合来实现对hdfs上面的数据实时访问的效果。
2016-08-25 11:54:06 7788
SonarLint-3.5-for-intellj-idea-亲测好使.zip
2019-08-09
C#语言c/结构酒店管理系统_幽灵工作室提供
2013-05-12
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人