- 博客(59)
- 资源 (1)
- 收藏
- 关注
转载 用Docker作为PaaS的替代方案是否完美无缺
随着数字技术的普及,越来越多的企业面临着海量数据。虽然企业都希望用大数据掘金,然而数字化能力的缺失也使企业极易淹没在这片无边无际的数据海洋里。互联网使得数据的流动和共享成为了可能,云计算技术的发展使数据分析向更加全面的方向迈进。作为云计算的三种服务形式之一,PaaS似乎一直不温不火,裹足不前。Docker的出现似乎又带来了一种新的选择,而且对于开发者来说更加灵活、便捷、易用。既然用户可
2017-06-29 12:06:14
1235
转载 MapReduce1.0和MapReduce2.0
Hadoop:The Definitive Guid 总结 Chapter 6 MapReduce的工作原理 1.剖析MapReduce作业运行机制1).经典MapReduce--MapReduce1.0整个过程有有4个独立的实体客户端:提交MapReduceJobTracker:协调作业的运行TaskTracker:运行作业划分后的任务HDFS:用
2017-06-29 11:48:04
4364
转载 基础架构即服务(infrastructure as a service,IaaS)
英文原文:https://www.ibm.com/developerworks/cloud/library/cl-cloudservices1iaas/index.html 本文介绍三个云类别中的第一个:基础架构即服务(infrastructure as a service,IaaS)。IaaS 的一些关键概念包括:云爆发(cloudbursting)多租户计算(multi-te
2017-06-29 11:11:11
11074
转载 Zookeeper与Paxos
Zookeeper是一个开源的分布式协调服务,其设计目标是将那些复杂的且容易出错的分布式一致性服务封装起来,构成一个高效可靠的原语集,并以一些列简单的接口提供给用户使用。其是一个典型的分布式数据一致性的解决方案,分布式应用程序可以基于它实现诸如数据发布/发布、负载均衡、命名服务、分布式协调/通知、集群管理、Master选举、分布式锁和分布式队列等功能。其可以保证如下分布式一致性特性。 ① 顺
2017-06-28 18:03:23
228
转载 Yarn 资源隔离
资源调度和资源隔离是YARN作为一个资源管理系统,最重要和最基础的两个功能。资源调度由ResourceManager完成,而资源隔离由各个NodeManager实现,在文章“Hadoop YARN中内存和CPU两种资源的调度和隔离”中,我已经介绍了YARN的内存和CPU的资源隔离,本文将介绍YARN在资源隔离方面的一些进展。当谈及到资源时,我们通常指内存,CPU和IO三种资源。
2017-06-23 11:20:25
616
原创 spark streaming 写hdfs问题
spark streaming 里面在做 foreach 操作时要注意数据与节点与进程「jvm」之间的关系;「这一点往往大家比较容易混淆」我总结了一下,供大家参考dstream.foreachRDD { rdd => do something.....// 在driver内执行 rdd.foreach { recordsinworker =>
2017-06-07 14:06:09
4031
原创 VUE开发环境搭建(mac版)
1.安装node.jshttp://nodejs.cn/download/ 选择mac版下载后安装即可安装后 terminal 终端打开执行node -v 检查是否安装成功2.配置阿里npm镜像npm install -g cnpm –registry=https://registry.npm.taobao.org3.安装VUEcnpm ins
2017-03-27 19:28:58
2907
转载 一个文本文件,找出前10个经常出现的词,但这次文件比较长,说是上亿行或十亿行,总之无法一次读入内存
Top K 算法详解应用场景: 搜索引擎会通过日志文件把用户每次检索使用的所有检索串都记录下来,每个查询串的长度为1-255字节。 假设目前有一千万个记录(这些查询串的重复度比较高,虽然总数是1千万,但如果除去重复后,不超过3百万个。一个查询串的重复度越高,说明查询它的用户越多,也就是越热门。),请你统计最热门的10个查询串,要求使用的内存不能超过1G。
2016-12-12 10:43:11
1970
原创 Maven 技巧
Maven 技巧 mvn install:install-file -Dfile=/Users/leone/Downloads/maven-replacer-plugin-1.4.0.jar -DgroupId=com.google.code.maven-replacer-plugin -DartifactId=replacer -Dversion=1.
2016-11-08 15:05:06
305
转载 hive优化mapreduce
一、 控制hive任务中的map数: 1. 通常情况下,作业会通过input的目录产生一个或者多个map任务。 主要的决定因素有: input的文件总个数,input的文件大小,集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到,该参数不能自定义修改);2. 举例: a) 假设input目录下有
2016-10-28 15:39:30
737
转载 用 Python 脚本实现对 Linux 服务器的监控
目前 Linux 下有一些使用 Python 语言编写的 Linux 系统监控工具 比如 inotify-sync(文件系统安全监控软件)、 glances(资源监控工具)在实际工作中,Linux 系统管理员可以根据自己使用的服务器的具体情况编写一下简单实用的脚本实现对 Linux 服务器的监控。 本文介绍一下使用 Python 脚本实现对 Linux 服务器 CPU 内存 网络的监控脚本的编
2016-08-29 11:15:28
897
原创 Spark snappy
Spark Snappy 问题In my experience, if you cd into the /sparkDir/conf and rename the spark-env.sh.template to spark-env.sh, and then set the JAVA_OPTSand hadoop_DIR, it works.You will also have to edit th
2016-07-22 11:57:16
1601
原创 HDFS权限问题
HDFS支持权限控制,但支持较弱。HDFS的设计是基于POSIX模型的,支持按用户、用户组、其他用户的读写执行控制权限。在linux命令行下,可以使用下面的命令修改文件的权限、文件所有者,文件所属组: hadoop fs –chmod (修改文件所有者,文件所属组,其他用户的读、写、执行权限) haddop fs –chown (修改文件所有者) hadoop fs –chgrp
2016-07-19 14:56:39
1953
转载 Kafka - SQL 引擎分享
问题导读:1.在Kafka中使用SQL的流程是什么?2.怎样配置Kafka,使得在Kafka中使用SQL?3.在Kafka中使用SQL有哪些注意事项?1.概述 大多数情况下,我们使用 Kafka 只是作为消息处理。在有些情况下,我们需要多次读取 Kafka 集群中的数据。当然,我们可以通过调用 Kafka 的 API 来完成,但是针对不同的业务需求
2016-07-15 15:05:52
1380
转载 区块链技术原理
区块链技术原理我尽量不涉及太多细节,把区块链大概的工作原理用尽可能简单的语言描述一下,相信你能很快对区块链有所了解。以比特币的区块链为例,你可以把区块链想象成一个比特币的公共账本,这个账本:1.存放在互联网的各个比特币节点上,每个节点都有一份完整的备份2.里面记录着自比特币诞生以来的所有比特币转账交易3.账本是分区块存储的,每一块包含一部分交易记录。每一个区块都会记录着前一
2016-07-15 14:59:42
2680
转载 Lambda架构实现数据实时更新
当前股票市场的交易者可以了解丰富的股票交易信息。从金融新闻到传统的报纸和杂志再到博客和社交媒体,汇聚着海量的数据,远比股票交易者想关注的股票信息要大得多,这就需要为股票交易者提供信息的有效过滤。这里将开发一个新闻服务给股票证券投资交易者使用,并为股票交易者提供个性化新闻。这个新闻服务就叫“自动获取金融新闻”,输入各个数据源的金融新闻,也同时输入用户实时股票交易信息。不管何时,在股票交易者所
2016-07-15 14:52:50
949
原创 datanode节点下线/删除/退役 Decommission Datanode
节点退役 Decommission DatanodeDecommission Datanode就是把Datanode从HDFS集群中移除掉。 Datanode是存储实际数据的,因此在Decommission Datanode的时候需要把Datanode上的数据迁移到别的机器上。下线的时候Datanode会有以下操作,1:计算块信息 2:删除块 3:copy块 4:校验块信息操作步骤 1:在Nam
2016-07-12 11:18:49
8164
原创 Hadoop2.6.0 Snappy 压缩安装与配置
先说点题外话,我们集群主要使用hive,Impala,spark sql等来处理数据,介于hdfs里面的数据没有压缩占用空间太大所以我们要对其进行压缩snappy比较适中snappy 原生被hive等支持首先看一下你的集群是否支持/安装了snappyhadoop checknative -a6/07/08 14:20:48 INFO bzip2.Bzip2Factory: Successfull
2016-07-08 14:28:19
3596
原创 Yarn参数优化(Fair Scheduler版本)
YARN自从hadoop2.0之后, 我们可以使用apache yarn 来对集群资源进行管理。yarn把可以把资源(内存,CPU)以Container的方式进行划分隔离。YARN会管理集群中所有机器的可用计算资源. 基于这些资源YARN会调度应用(比如MapReduce)发来的资源请求, 然后YARN会通过分配Container来给每个应用提供处理能力, Container(容器)是YARN中处理
2016-06-07 17:08:58
12699
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅