博客专栏  >  综合   >  大数据技术

大数据技术

本专栏主要介绍hadoop、spark等大数据平台应用开发技术

关注
0 已关注
28篇博文
  • spark集群从HDFS中读取数据并计算

    一、             对于安装有spark的集群的节点要做好时间同步问题,因为节点的心跳机制需要系统时间。 解决办法一: 通过securecrt同时向多个tab窗口发送相同的时间调整命令 a....

    2017-07-27 21:54
    713
  • spark集群的搭建

    一、准备 1.两台centOS安装好JDK1.7 2.将spark-1.6.1-bin-hadoop2.6.tgz上传到其中一台CentOS 二、安装 2.1、在根目录下,新建bigdata目录,并将...

    2017-07-20 23:02
    228
  • 如何在eclipse中使用maven

    1.解压eclipse(已经集成了maven插件) 2.new -->project--->maven--->maven project 3.下一步,如图:(别忘记勾上两个勾) 4.如图: ...

    2017-03-21 22:17
    145
  • hadoop上传文件报错

    报错原因:could only be replicated to 0 nodes instead of minReplication (=1).  There are 2 datanod 1.首先检查...

    2017-04-18 14:55
    93
  • wordcount程序卡住了

    问题,内置wordcount程序运行到INFO mapreduce.Job: Running job: job_1492509956955_0001卡住了,很长时间不动: 17/04/18 18:00...

    2017-04-18 18:54
    209
  • sqoop数据导入的常见问题及小结

    本文首先是讲述sqoop的如何进行数据的导入和导出及其注意点,然后列举了sqoop和mysql在数据导入导出过程中的一些常见错误。

    2017-04-23 19:05
    103
  • hbase集群部分节点HRegionServer启动后自动关闭的问题

    我有四个HRegionServer节点。发现输入./start-hbase.sh后,只启动了两个节点,而且后来两个节点又挂掉了。 查看日志: more hbase-root-regionserve...

    2017-04-30 16:47
    241
  • hadoop的第一个程序WordCount

    伪代码分析: 执行步骤:  1. map任务处理 1.1读取输入文件内容,解析成key、value对。对输入文件的每一行,解析成key、value对。每一个键值对调用一次map函数。 ...

    2017-03-09 21:31
    118
  • hadoop之Partitioner编程

    Mapreduce默认的partitioner是HashPartitioner。除了这个mapreduce还提供了3种partitioner。Partitioner是partitioner的基类,如果...

    2017-03-25 22:20
    99
  • hadoop之求和和自定义排序编程

    排序MR默认是按key2进行排序的,如果想自定义排序规则,被排序的对象要实现WritableComparable接口,在compareTo方法中实现排序规则,然后将这个对象当做k2,即可完成排序。 ...

    2017-03-26 21:05
    231
  • hadoop之Combiners编程

    每一个map可能会产生大量的输出,combiner的作用就是在map端对输出先做一次合并,以减少传输到reducer的数据量。 combiner最基本是实现本地key的归并,combiner具有类似...

    2017-03-27 21:39
    249
  • Shuffle小结

    如图mapreduce的shuffle和排序: Map task: 1.每个map有一个环形内存缓冲区,用于存储任务的输出。默认大小100MB(io.sort.mb属性),一旦达到阀值0....

    2017-03-28 21:44
    145
  • hadoop之倒排索引

    倒排索引基础知识可以参博客:http://blog.csdn.net/hguisu/article/details/7962350。 需求: a.txt内容: hello tom hello jerr...

    2017-04-06 22:23
    121
  • zookeeper的搭建

    zookeeper的默认配置文件为zookeeper/conf/zoo_sample.cfg,需要将其修改为zoo.cfg。其中各配置项的含义,解释如下: 1.tickTime:CS通信心跳时间 ...

    2017-04-11 18:44
    142
  • hadoop分布式搭建(+zookeeper,6台机器)

    前期准备(这里使用的centOS6,hadoop2.2.0【这是64位的hadoop2.2.0的安装包和源码包下载地址:http://download.csdn.net/detail/vinsuan1...

    2017-04-13 11:18
    194
  • hbase初识

    HBase – Hadoop Database,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。HBase利用Hado...

    2017-04-30 16:55
    262
  • hbase的搭建

    hbase的伪分布式(单结点): 1.修改hbase-env.sh  将java的路径修改一下。 2.修改hbase-site.xml ,将数据库文件保存到本地文件系统。         ...

    2017-04-30 16:49
    123
  • HBase shell小结

    进入hbase命令行 ./hbase shell 显示hbase中的表 list 创建user表,包含info、data两个列族 create 'user', 'info1', 'data1'...

    2017-04-30 16:56
    106
  • HBase Java API 使用示例

    在使用HBase Java API 之前,大家首先要了解HBase Java API类,可参考博客:http://www.cnblogs.com/ggjucheng/p/3380267.html ...

    2017-05-02 19:54
    177
  • hive简介与安装

    Hive 是建立在 Hadoop  上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL ),这是一种可以存储、查询和分析存储在 Hadoop  中的大规模数据的机制。Hi...

    2017-05-04 22:58
    134

img博客搬家
img撰写博客
img专家申请
img意见反馈
img返回顶部