大数据 hadoop 和 spark
文章平均质量分 95
今晚打酱油8
这个作者很懒,什么都没留下…
展开
-
Hadoop与分布式数据处理 Spark VS Hadoop有哪些异同点?
http://blog.csdn.net/lishehe/article/details/43967493Spark是一个开源的通用并行分布式计算框架,由加州大学伯克利分校的AMP实验室开发,支持内存计算、多迭代批量处理、即席查询、流处理和图计算等多种范式。Spark内存计算框架适合各种迭代算法和交互式数据分析,能够提升大数据处理的实时性和准确性,现已逐渐获得很多企业的支持,如阿里巴巴、百转载 2015-03-31 00:29:17 · 742 阅读 · 0 评论 -
Presto 来自Facebook的开源分布式查询引擎
PRESTO文档转载 2016-12-08 22:02:21 · 658 阅读 · 0 评论 -
Sqoop教程(一) Sqoop数据迁移工具
http://blog.csdn.net/yuan_xw/article/details/51553451Sqoop教程(一) Sqoop数据迁移工具 1 Sqoop介绍Sqoop是一个用来将Hadoop和关系型数据库中的数据相互转移的工具,可以将一个关系型数据库(例如:MySQL、Oracle、Postgres等)中的数据导进到Hadoop的H转载 2017-01-09 21:57:52 · 1063 阅读 · 0 评论 -
Apache nifi 实例
Apache nifi 实例的一些实例,1. mysql_to_mysql2. mysql_to_hdfs3. mysql_to_esdemo导出模版xml , demo_all.xml , 通过下面的upload Template 导入模版, 然后自己添加模版就可以在本机看到了 801728b8-0159-1000-1429-a0原创 2017-01-10 19:14:32 · 6079 阅读 · 1 评论 -
windows远程调试hadoop权限问题
为了开发方便想要直接在windows下开发,遇到了访问权限的问题。于是搜索了下解决方案,大约有两种1 不检查用户权限 修改conf/core-site.xml,不检查权限 将 dfs.permissions属性修改为false这种办法过于粗暴,仅仅开发环境可以使用。说以需要采用别的方法。2 修改用户权限这种方法文雅了很多,而且更加安全。我们观察Hadoop hdfs中的文件发现转载 2017-02-08 09:58:36 · 386 阅读 · 0 评论 -
windows7+eclipse+hadoop2.5.2环境配置
http://www.cnblogs.com/huligong1234/p/4137133.html一.hadoop集群环境配置 参考我的前一篇文章(ubuntu + hadoop2.5.2分布式环境配置 http://www.cnblogs.com/huligong1234/p/4136331.html) 但本人配置时还修改了如下内容(由于你的环境和我的可能不一致,可转载 2017-02-08 10:19:44 · 486 阅读 · 0 评论 -
MapReduce 的一些算法思路
原文 http://novoland.github.io/工作/2014/09/04/MapReduce Algorithms.htmMapReduce Algorithms1. MapReduce 工作原理2. 常见算法的 MapReduce 实现2.1 count / distinct问题描述解决优化distinct2.2转载 2017-02-08 17:09:22 · 1462 阅读 · 0 评论 -
hadoop - mapreduce, yarn, combiner组件 笔记
1. 原理图◆执行步骤: 1. map任务处理1.1读取输入文件内容,解析成key、value对。对输入文件的每一行,解析成key、value对。每一个键值对调用一次map函数。1.2写自己的逻辑,对输入的key、value处理,转换成新的key、value输出。2.reduce任务处理2.1在reduce之前,有一个shuffle的过程对多个map任务的输出进原创 2016-09-19 01:15:49 · 636 阅读 · 0 评论 -
ES-Hadoop 相关文章
ES-Hadoop学习笔记-初识http://blog.csdn.net/fighting_one_piece/article/details/51765383原创 2017-01-23 22:31:51 · 373 阅读 · 0 评论 -
大数据的处理方法
大数据的处理方法http://blog.csdn.net/gogokongyin/article/details/51303868大数据的处理方法http://blog.csdn.net/gogokongyin/article/details/51212221处理海量数据问题,无非就是:分而治之/hash映射 + hash转载 2017-01-23 23:40:58 · 2149 阅读 · 0 评论 -
Hadoop的HA机制, 以及 分布式hadoop集群的搭建 笔记
http://blog.csdn.net/pangjiuzala/article/details/50187665目录(?)[-]HA集群HA机制单点故障集群容量和集群性能NameNode是HDFS集群的单点故障,每一个集群只有一个NameNode,如果这个机器或进程不可用,整个集群就无法使用,直到重启Na原创 2016-10-04 18:11:35 · 1048 阅读 · 0 评论 -
greenplum安装详细过程
http://www.cnblogs.com/liuyungao/p/5689588.html今天又帮其他项目装了一遍GP,加上之前的两次,这是第三次了,虽然每次都有记录,但这次安装还是发现漏写了一些步骤,在此详细记录一下,需要的童鞋可以借鉴。1、准备 这里准备了4台服务器,1台做master,1台做standby,4台都做存储,为了保密真实的IP地址和主机名都换成“转载 2016-10-31 17:30:21 · 1668 阅读 · 0 评论 -
hadoop hive 笔记
1. hive 安装:Hive只在一个节点上安装即可1.上传tar包2.解压 tar -zxvf hive-0.9.0.tar.gz -C /cloud/3.配置mysql metastore(切换到root用户) 配置HIVE_HOME环境变量 rpm -qa | grep mysql rpm -e mysql-libs-5.1.66-2.el6_3.i686 --node原创 2016-10-07 19:50:57 · 671 阅读 · 0 评论 -
一张图告诉你是需要SQL还是Hadoop
转载 2015-07-28 16:54:46 · 478 阅读 · 0 评论 -
Hadoop家族包含的子项目及其主要功能
Hadoop CommonHadoop体系最底层的一个模块,为Hadoop各子项目提供各种工具,如:配置文件和日志操作等。AvroAvro是doug cutting主持的RPC项目,有点类似Google的protobuf和Facebook的thrift。avro用来做以后hadoop的RPC,使hadoop的RPC模块通信速度更快、数据结构更紧凑。ChukwaC原创 2015-07-30 00:41:35 · 2262 阅读 · 0 评论 -
hadoop伪分布式配置及遇到的问题
http://blog.csdn.net/aklixiaoyao/article/details/7196552一、运行wordcount例子在hadoop上新建目录,然后用put程序将linux中的文件input1.txt和input2.txt输入到hadoop文件系统中的/tmp/input/中 hadoopfs -mkdir /tmp/input转载 2015-08-02 02:35:15 · 795 阅读 · 0 评论 -
Hadoop学习笔记—3.Hadoop RPC机制的使用
接口与接口实现:LoginServiceInterface.java 文件 接口实现package com.kevin.service;public class LoginServiceImpl implements LoginServiceInterface{@Overridepublic String login(String username, String password) {ret转载 2016-09-17 21:48:20 · 628 阅读 · 0 评论 -
hadoop2.4.1伪分布式安装,hdfs命令行操作学习笔记
1. 原理示意图原创 2016-09-16 09:46:55 · 705 阅读 · 0 评论 -
Hadoop之——数据类型
转载请注明出处:http://blog.csdn.net/l1028386804/article/details/46039055一. Hadoop内置的数据类型BooleanWritable:标准布尔型数值ByteWritable:单字节数值DoubleWritable:双字节数值FloatWritable:浮点数IntWritable:整型数LongWritable:长整型转载 2016-09-19 01:07:26 · 530 阅读 · 0 评论 -
异常解决:util.NativeCodeLoader: Unable to load native-hadoop library for your platform,
http://blog.csdn.net/young_kim1/article/details/50324345刚装好hadoop的时候,每次输入命令运行都会出现:WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform… using builtin-java转载 2016-10-13 19:17:06 · 597 阅读 · 0 评论 -
Hadoop——自定义数据类型,实现WritableComparable, 并且 分组,排序
http://blog.csdn.net/u014432433/article/details/511040261. 在进行mapreduce编程时key键往往用于分组或排序,当我们在进行这些操作时Hadoop内置的key键数据类型不能满足需求时,或针对用例优化自定义数据类型可能执行的更好。因此可以通过实现org.apache.hadoop.io.WritableComparable接原创 2016-09-26 23:50:38 · 5034 阅读 · 0 评论 -
hadoop - hbase 笔记
1. 伪分布式安装修改/etc/profile文件。#vi/etc/profile增加exportHBASE_HOME=/home/hbase修改exportPATH=$JAVA_HOME/bin:$PATH:$HADOOP_HOME/bin:$HBASE_HOME/bin保存退出#source/etc/profile修改$HBASE_HOME/conf/hbase-转载 2016-10-12 01:53:53 · 330 阅读 · 0 评论 -
MapReduce:详解Shuffle过程
http://langyu.iteye.com/blog/992916/** * author : 冶秀刚 * mail : dennyy99@gmail.com */ Shuffle过程是MapReduce的核心,也被称为奇迹发生的地方。要想理解MapReduce, Shuffle是必须要了解的。我看过很多相关的资料,但每次看完都云里雾转载 2017-02-13 18:13:47 · 307 阅读 · 0 评论