hadoop
春日部动感超人
这个作者很懒,什么都没留下…
展开
-
MapReduce
最近跟风在学hadoop,原因很简单,只是想装个B而已。但是装B路途总是充满着坑,在这里记录一路的装B历程。之前一直在看买的视频,看来看去,总感觉很特么简单,hadoop里的HDFS与MapReduce很好理解,但是动手实践起来,就是各种坑。一个入门级的MapReduce包括一个Map,一个Reduce Map主要用来清洗数据,根据具体的业务,指定key,每个key对应着相应的value,然后用P原创 2015-10-13 23:48:41 · 384 阅读 · 0 评论 -
flume 抽取图片文件数据写入到HDFS
flume 是一个日志处理的工具,其擅长处理文本数据。不过在有些使用场景,比如采集服务器上的很多小的图片数据时,也可以派上用场。 话不多说,直接上flume-conf配置信息:# ==== start ====agent.sources = spooldirsourceagent.channels = memoryChannelagent.sinks = hdfssink# For each原创 2017-11-30 11:43:54 · 3603 阅读 · 1 评论 -
Kafka Sink
flume 1.7.0 的kafka sink 能够将数据推送到Kafka消息队列,支持的kafka版本等于或者大于 V0.9.XX配置文件如下:# Licensed to the Apache Software Foundation (ASF) under one# or more contributor license agreements. See the NOTICE file# di原创 2017-08-01 16:06:25 · 3361 阅读 · 0 评论 -
Greenplum pg_hba.conf entry for host "192.168.2.111", user "gpadmin", database "template1", SSL off
Greenplum 客户端连接报错 SSL off报错详情:pg_hba.conf entry for host “192.168.2.111”, user “gpadmin”, database “template1”, SSL off解决方案:找到master安装目录下的 pg_hba.conf 文件,目录如下: /home/gpadmin/gpdata/gpmaster/gpseg-1 【原创 2017-05-20 19:16:15 · 7167 阅读 · 0 评论 -
使用sqoop时,Ensure that you have called .close() on any active streaming result sets before attempting
Warning: /opt/cloudera/parcels/CDH-5.5.1-1.cdh5.5.1.p0.11/bin/../lib/sqoop/../accumulo does not exist! Accumulo imports will fail.Please set $ACCUMULO_HOME to the root of your Accumulo installation.1原创 2016-08-17 13:52:45 · 2461 阅读 · 0 评论 -
CDH 5.5.1安装oozie的坑
我安装时,遇到的最大的坑,就是mysql数据库驱动包的问题,将驱动包拷贝到安装oozie服务的/var/lib/oozie 目录下,即可!原创 2016-08-17 09:38:12 · 2635 阅读 · 0 评论 -
递归打印出HDFS上的所有文件夹
package com.hadoop.hdfs;import java.io.FileNotFoundException;import java.io.IOException;import java.net.URI;import java.net.URISyntaxException;import org.apache.hadoop.conf.Configuration;impor原创 2015-12-23 22:33:06 · 1495 阅读 · 0 评论 -
Hadoop中的FileSystem学习
要获取hdfs上的文件信息,有两种方法:通过JDK的java.net.URL 通过java.net.URL对象来打开一个欲从中读取数据的流(stream),在使用中这种方法时,需要为URL对象指定URLStreamHandlerFactory(),这样URL才能识别出hdfs://开头的标识。 这个方法在每个JVM中只能调用一次,所以它通常会被放在一个static block中执行原创 2015-12-19 14:59:04 · 493 阅读 · 0 评论 -
hadoop源码学习 InputFormat抽象类
hadoop最cool的就是MapReduce了,那么当运行一个MapReduce作业的时候,你有没有想过内部是如何实现的?存储在HDFS上的数据到底是特么的怎样被读取的?HelloWord级别的worldcount程序,是对文本文件一行一行的读的,为此我们需要对我们的文本进行处理,让其老老实实的一行一行的排着队。但是在生产环境中,各种格式的数据文件,恐怕一行一行的排队就满足不了我们的要求了。比如需原创 2015-12-28 22:06:27 · 534 阅读 · 0 评论 -
Centos 7.3 编译opencv3.3.1
1, 配置IPPICV1,手动下载 ippicv_2017u3_lnx_intel64_general_20170822.tgz2,修改opencv里相关配置文件打开终端,输入gedit /home/lc/opencv_source/opencv/3rdparty/ippicv/ippicv.cmake #记得lc换成自己的用户名将47行的"https://raw.githubu...原创 2018-07-31 17:02:19 · 452 阅读 · 0 评论