大数据/分布式
文章平均质量分 57
yichudu
code anything
展开
-
程序部署的时代演变
只是个人笔记.虚拟化一台主机(host)只部署一个程序成本太高, 那么直接部署多个程序会有哪些问题?需要隔离机制.虚拟机在容器技术之前,业界的网红是虚拟机。虚拟机技术的代表,是VMWare和OpenStack。容器更轻量.镜像容器仓库微服务RESTful API.分布式k8s云Xaas云原生Cloud Native.参考Docker和k8s的区别与介绍...原创 2021-10-21 11:24:40 · 163 阅读 · 0 评论 -
HDFS 常用命令
HDFS 是在os的文件系统之上抽象出来的又一个文件系统.权限在命令行前加上 HADOOP_USER_NAME=admin 可临时提升执行权限.命令hdfs dfs 等价于 hadoop fs.常用操作查看 hdfs dfs -ls -R hdfs://a/b 递归地查看目录下的文件与子目录创建 hdfs dfs -mkdir -p hdfs://a/...原创 2018-03-20 19:01:17 · 1251 阅读 · 0 评论 -
Hadoop 向 Mapper/Reducer worker中分发信息
Mapper/Reducer 任务有时是需要依赖一些信息的, 对不同类型, 大小的信息, 有不同的分发策略可以选择.1.一些简单的配置通过 Configuration 来传递参数, 在main函数中调用set方法设置参数, 在mapper中通过上下文context来获取当前作业的配置, 并获取参数.2.main函数中产生的对象这个对象可以是main函数中构造的一棵树, 一个 HashMap<stri原创 2017-10-10 09:39:38 · 388 阅读 · 0 评论 -
云服务厂商的大数据及AI产品
1.alibaba cloud1.1 产品介绍max-compute 官网介绍 MaxCompute(原ODPS)是一项大数据计算服务,它能提供快速、完全托管的PB级数据仓库解决方案,使您可以经济并高效的分析处理海量数据。1.2 备注odps是类似于hadoop生态的东西, 但它的计算层叫飞天内核(Apsara Core), 是阿里巴巴自己研发的,下面列出一些组件对比. 组件 odp原创 2017-07-02 12:44:58 · 584 阅读 · 0 评论 -
tair 淘宝的分布式key/value存储系统
类redis,项目地址:http://tair.taobao.org/ 或 http://code.taobao.org/p/tair/wiki/index/ 。与redis类比,摘自互联网。redis集群中,想借用缓存资源必须得指明redis服务器地址去要。这就增加了程序的维护复杂度。因为redis服务器很可能是需要频繁变动的。所以人家淘宝就想啊,为什么不能像操作分布原创 2016-09-04 10:58:19 · 637 阅读 · 0 评论 -
Kafka(分布式发布订阅消息系统)
http://kafka.apache.org/目前越来越多的开源分布式处理系统如Apache Storm、Spark都支持与Kafka集成。组件Broker['brəʊkə] n.经纪人Kafka集群包含一个或多个服务器,这种服务器被称为broker。Topic每条发布到Kafka集群的消息都有一个类别,这个类别被称为Topic。PartitionPari原创 2015-04-17 16:31:44 · 3877 阅读 · 0 评论 -
Hadoop 简介
Map-Reduce,映射-归约。是并行处理大数据的编程框架。两个核心函数为map和reduce。map函数:接受一个键值对(key-value pair),产生一组中间键值对,这样就起到了大任务分割为多个小任务的过程。MapReduce框架会将map函数产生的中间键值对里键相同的值传递给一个reduce函数。reduce函数:接受一个键和与该键对应的若干个值,将这组值进行原创 2014-10-13 13:42:19 · 1293 阅读 · 0 评论 -
Zookeeper(分布式应用程序协调服务)
组件领导者。负责投票的发起和决议,更新系统状态。追随者。 用于接收客户端请求并向客户端返回结果;在选举过程中参与投票。客户端。请求发起方。工作原理Zookeeper的核心是原子广播,这个机制保证了各个Server之间的同步。实现这个机制的协议叫做Zab协议。Zab协议有两种模式,它们分别是恢复模式(选主)和广播模式(同步)。当服务启动或者在领导者崩溃后,Zab就进入了恢原创 2015-04-17 15:09:21 · 1516 阅读 · 0 评论 -
storm 常用类
获得 org.apache.storm storm-core 0.9.5常用类backtype.storm.topology.TopologyBuilder用来建立topology。SpoutDeclarer backtype.storm.topology.TopologyBuilder.setSpout(String id, IRichSpout spout, N原创 2015-06-10 14:18:23 · 2333 阅读 · 0 评论 -
hive (基于hadoop的数据仓库)
1.简介hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能。与传统关系数据库相比的优势是:能够处理海量数据。劣势是:它只提供查询功能,不能增、删、改。涉及到分布式计算的任务分发,查询时间在分钟级,不能当实时工具用。运行机理:将sql语句转换为MapReduce任务,让Hadoop处理。2.查询语句hiv原创 2016-01-21 13:36:34 · 1536 阅读 · 0 评论 -
Esper epl语句详解
EPL,Event Process Language,事件处理语言。类似于SQL,描述了esper要分析的内容。统计窗口以下为常用窗口。win:length(size)//攒够size条数据后触发UpdateListener()函数。滑动窗口,攒满之后新来一个移除一个,并触发。win:length_batch(size) //攒够size条数据后触发,并清空队列。再攒满了再触发。原创 2015-07-16 16:11:07 · 4434 阅读 · 0 评论 -
esper(复杂事件处理引擎)简介
Esper是一个复杂事件处理引擎,用于对同一类型的多个对象进行统计分析。要统计的多个事件(一个事件通常对应着一个对象)会存储在一个队列中,这里叫它EQueue。EPLEPL,Event Process Language,事件处理语言。类似于SQL,描述了esper要分析的内容。统计窗口为.win:length_batch(n)时,每攒够n个事件统计一次,统计过后队列EQueue清空原创 2015-06-01 14:55:13 · 7353 阅读 · 1 评论 -
Storm (实时分布式大数据处理系统) 简介
相比Hadoop的批处理,Storm的特点就是实时性。组件Storm集群主要由一个主节点和一群工作节点(worker node)组成,通过 Zookeeper进行协调。主节点主节点通常运行一个后台程序 —— Nimbus,用于响应分布在集群中的节点,分配任务和监测故障。这个很类似于Hadoop中的Job Tracker。工作节点工作节点同样会运行一个后台程序原创 2015-04-17 17:28:02 · 2043 阅读 · 0 评论 -
Esper epl语句实验
基础代码见下,下文列举的实验都是在此程序基础上修改。//窗口:.win:time_batch//事件:mappackage test;import java.util.HashMap;import java.util.Map;import java.util.concurrent.TimeUnit;import com.espertech.esper.clien原创 2015-07-17 09:45:02 · 1340 阅读 · 0 评论 -
esper 常用类
com.espertech.esper.client.EPServiceProvider这是一个接口,用于提供EPRuntime和EPAdministrator。EPServiceProvider com.espertech.esper.client.EPServiceProviderManager.getDefaultProvider()返回默认的EPServiceProvider。原创 2015-07-08 14:38:07 · 1185 阅读 · 0 评论