Hadoop笔记
文章平均质量分 51
杨过悔
这个作者很懒,什么都没留下…
展开
-
spark 使用hive metastore
有3,4个月没接触hadoop和spark了,有些生疏,实习时用的是nodejs+python,今天休假,在新电脑跑跑大数据(真不敢相信我以前使用赛扬双核内存4G + 核显跑几个虚拟机来运行hadoop和spark的,跑个任务或者编译android源码有时等得蛋疼...)虽然这些步骤常用好记,不过时间一长-没有-就又得查看doc,所以好记性不如烂笔头1.开启hdfsst原创 2016-10-12 09:55:48 · 5675 阅读 · 1 评论 -
Hive Schema Tool
http://www.cloudera.com/documentation/enterprise/5-4-x/topics/cdh_ig_hive_schema_tool.html转载 2016-04-13 16:37:58 · 4467 阅读 · 0 评论 -
hadoop集群配置之hive1.2.0安装部署(远程mysql)
http://my.oschina.net/shyloveliyi/blog/418796 hadoop的版本是2.6.0根据hive的源数据不同分为三种模式 1、内嵌模式,使用自带的derby 2、本地独立模式,本地mysql库 3、远程模式,远程mysql库这里主要将第三种模式#假设hadoop2.6.0已经正常启动首先下载转载 2016-04-13 12:13:32 · 1054 阅读 · 0 评论 -
MapReduce - Hadoop Implementation
MapReduce is a framework that is used for writing applications to process huge volumes of data on large clusters of commodity hardware in a reliable manner. This chapter takes you through the operatio转载 2016-02-27 16:16:12 · 581 阅读 · 0 评论 -
Hbase 布隆过滤器BloomFilter介绍
http://blog.csdn.net/opensure/article/details/46453681 1、主要功能提高随机读的性能2、存储开销bloom filter的数据存在StoreFile的meta中,一旦写入无法更新,因为StoreFile是不可变的。Bloomfilter是一个列族(cf)级别的配置属性,如果你在表中设置了Bloomfilter,那么H转载 2016-04-05 10:18:13 · 578 阅读 · 0 评论 -
inputFormat,RecordRead的理解和定制
先看看InputFormat接口和public interface InputFormat { InputSplit[] getSplits(JobConf var1, int var2) throws IOException; RecordReader getRecordReader(InputSplit var1, JobConf var2, Reporter va原创 2016-04-04 12:01:39 · 981 阅读 · 0 评论 -
pig语法学习 FOREACH GENERATE group AS
http://blog.csdn.net/jameshadoop/article/details/22621889深入浅出,转一个转载必须注明出处:http://www.codelast.com/转载地址本文可以让刚接触pig的人对一些基础概念有个初步的了解。本文大概是互联网上第一篇公开发表的且涵盖大量实际例子的Apache Pig中转载 2016-04-01 16:03:57 · 3715 阅读 · 0 评论 -
Warning: $HADOOP_HOME is deprecated. hadoop1.0.4解决方法
/.bash_profile里增加环境变量: export HADOOP_HOME_WARN_SUPPRESS=1注:修改完.bash_profile后需要执行source操作使其生效原创 2015-09-24 11:18:30 · 296 阅读 · 0 评论 -
ubuntu早期版本克隆后没有eth0
移动/删除rules文件重启后Ubuntu会创建新的rules文件。 网络配置是自动获取IP,无需做其他修改。sudo mv /etc/udev/rules.d/70-persistent-net.rules /etc/udev/rules.d/70-persistent-net.rules.old原创 2015-09-23 22:32:35 · 575 阅读 · 0 评论 -
Hadoop+HBase+ZooKeeper三者关系与安装配置
http://blog.sina.com.cn/s/blog_5c5d5cdf0101dvgq.html转载 2016-04-13 20:48:22 · 6355 阅读 · 0 评论 -
ZooKeeper系列之二:Zookeeper常用命令 .
http://blog.csdn.net/xiaolang85/article/details/13021339转载 2016-04-13 21:06:45 · 429 阅读 · 0 评论 -
rabbitmq配置集群和镜像队列
http://blog.csdn.net/jljf_hh/article/details/17381425 首先先安装rabbitmq,然后在继续往下看文章标题:《rabbitmq单机安装小记》文章地址:http://www.bbtang.info/591.html 还需要修改host文件1127.0.0.1 rabbitmq1 loca转载 2016-04-22 08:10:23 · 570 阅读 · 0 评论 -
rabbitmq 添加远程访问功能
http://blog.haohtml.com/archives/15249 刚刚安装过的rabbitmq 消息队列,并启用了插件管理功能,3.3.1版中,处于安全的考虑,guest这个默认的用户只能通过http://localhost:15672 来登录,其他的IP无法直接使用这个账号。 这对于服务器上没有安装桌面的情况是无法管理维护的,除非通过在前面添加一层代理向外提供服务,这个又转载 2016-04-21 19:49:56 · 10405 阅读 · 0 评论 -
.NoHostAvailableException: All host(s) tried for query failed (no host was tried)
主要原因:cassandra-driver-core版本与cassandra不兼容原创 2016-05-05 15:49:25 · 5353 阅读 · 0 评论 -
使用路易社的数据进行聚类测试
mahout是直接使用hadoop集群的,参数比较多,具体可以参考书籍或DOC,这里记录初略的使用 一.# 文本向量化(以路易社的数据为例)mahout org.apache.lucene.benchmark.utils.ExtractReuters ./reuters-sgm ./reuters-outhadoop fs -put ./reuters-out /test/re原创 2016-05-12 12:31:54 · 960 阅读 · 0 评论 -
深入分析Parquet列式存储格式
http://www.infoq.com/cn/articles/in-depth-analysis-of-parquet-column-storage-format Parquet是面向分析型业务的列式存储格式,由Twitter和Cloudera合作开发,2015年5月从Apache的孵化器里毕业成为Apache顶级项目,最新的版本是1.8.0。 列式存储 列式存储转载 2016-04-17 17:51:46 · 379 阅读 · 0 评论 -
使用自带 cluster-reuters.sh 聚类使用
#!/bin/bash## Licensed to the Apache Software Foundation (ASF) under one or more# contributor license agreements. See the NOTICE file distributed with# this work for additional information re原创 2016-05-11 09:47:55 · 3037 阅读 · 0 评论 -
Storm错误集
http://blog.sina.com.cn/s/blog_62bb28cc0101j4h6.html 1、出现不能序列化的错误:java.io.NotSerializableException: backtype.storm.spout.Schematism Storm使用的kyro进行序列化,如果出现不能序列化的错误: (1) 文件确实没有实现序列化转载 2016-04-13 21:50:51 · 1396 阅读 · 0 评论 -
搭建storm集群(apache-storm-0.9.5.tar.gz) .
http://blog.csdn.net/wulantian/article/details/46894727 2016攒课第二期之你听课我买单,快来攒你想听的课! 架构免费公开课报名 2016年7月微软MVP申请开始了! 搭建storm集群(apache-storm-0.9.5.tar.gz)2015-07-15转载 2016-04-13 21:34:32 · 659 阅读 · 0 评论 -
zookeeper Error contacting service. It is probably not running错误
只有当至少启动了三个节点之后,该命令才会产生结果。否则会显示:zookeeper Error contacting service. It is probably not running错误最好是奇数个zookeeper原创 2015-09-22 17:11:22 · 1170 阅读 · 0 评论 -
ubuntu下sudo apt-get update Sources 404 Not Found [IP: 91.189.92.200 80]解决办法
http://blog.csdn.net/chaihuasong/article/details/17009641最近在ubuntu 10.04下面装了一个虚拟机,在虚拟机里面又装了11.04的ubuntu,装好后用apt get install 出现Unable to locate packag错误,上网上查了下,说是要sudo apt-get update 就可以了,但是本地执行sudo转载 2015-09-21 15:58:54 · 3369 阅读 · 0 评论 -
好记心不如烂笔头,ssh登录 The authenticity of host 192.168.0.xxx can't be established. 的问题
http://blog.csdn.net/kimsoft/article/details/5865418 用ssh登录一个机器(换过ip地址),提示输入yes后,屏幕不断出现y,只有按ctrl + c结束 错误是:The authenticity of host 192.168.0.xxx can't be established. 以前和同事碰到过这个问题,解决了,没有记转载 2015-09-22 01:01:39 · 4444 阅读 · 0 评论 -
Hbase更新数据
1.更新的思路找到需要更新的值{通过table名加上字段找到} package org.common;import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.hbase.HBaseConfiguration;import o原创 2015-09-27 20:09:58 · 3037 阅读 · 0 评论 -
Hbase1.1.2创建table
整个创建过程主要由HBaseAdmin起关键作用 package com.hbase;import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.hbase.HBaseConfiguration;import org.apache原创 2015-09-27 16:23:36 · 779 阅读 · 0 评论 -
Hbase1.1.2 list所有的table
package org.common;import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.hbase.HBaseConfiguration;import org.apache.hadoop.hbase.HTableDescriptor;原创 2015-09-27 16:30:47 · 1493 阅读 · 0 评论 -
access denied ("java.net.SocketPermission" "localhost:1527" "listen,resolve")
在开启derby服务出现该错误1.在$JAVA_HOME/jre/lib/security/java.policy添加permission java.net.SocketPermission "localhost:1527", "listen,accept,connect,resolve"; 2.再次启动derby原创 2015-09-28 14:06:58 · 4008 阅读 · 1 评论 -
Caused by: java.lang.SecurityException: sealing violation: package org.apache.derby...
主要是由于加载类名重复,例如derby与hive都提供了derby.jar的jdbc驱动,具体可以通过sysinfo测试 所以找到两个一样的类被CLASSPATH加载了,直接去除hive所在的路径的derby即可(最好先备份一个)原创 2015-09-28 14:04:21 · 3294 阅读 · 0 评论 -
Hbase用户权限
1.通过grant命令赋予权限grant [ [ []]5个权限 R - represents read privilege.W - represents write privilege.X - represents execute privilege.C - represents create privilege.A - represents admin原创 2015-09-28 00:43:08 · 9721 阅读 · 1 评论 -
HBase的一些常用admin函数
1.判断table是否存在boolean bool = admin.tableExists("emp");2.删除tableadmin.deleteTable("emp12");admin.deleteTable("emp12");3.添加字段admin.addColumn("employee", new HColumnDescriptor("columnDescrip原创 2015-09-27 16:54:45 · 1409 阅读 · 0 评论 -
Hbase读取数据
通过Get获取指定的的字段package org.common;import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.hbase.HBaseConfiguration;import org.apache.hadoop.hb原创 2015-09-27 20:29:11 · 571 阅读 · 0 评论 -
Hbase中比例扩展与横向扩展的问题
Hbase的集群是建立在Hadoop的基础之上的,比例增长只能通过添加更多的机器,所以他是应用在横向增长上的!原创 2015-09-28 01:01:33 · 2265 阅读 · 0 评论 -
Hbase与BDBMS对比的主要缺点
1.没有认证许可机制2.索引只能建立在key字段中3.当只有一个Hmaster节点时,会有失败的风险原创 2015-09-28 00:54:58 · 668 阅读 · 0 评论 -
hadoop 2.6 完全分布式安装过程及记录 (详细版)
1.首先是编译hadoop2.6 当然也可以安装二进制版本的,不过用别人编译的二进制有时是容易出问题的,因为每个二进制文件是依赖于你的linux下的lib的,lib好找,问题在于版本的兼容问题!所以你不想出现这种差错就好好自己编译吧!特别是hadoop的native(本地库),例如官方是提供32位的,并不提供64,基本就是这个原因 编译完后,安装hadoop,由于hadoop是使用ss原创 2015-09-22 12:03:59 · 1643 阅读 · 0 评论 -
hadoop 2.6.0单节点-伪分布式模式安装
http://www.aboutyun.com/thread-10554-1-1.html 1、系统信息[root@lsn-linux ~]# cat /etc/issueCentOS release 6.3 (Final)Kernel \r on an \m[root@lsn-linux ~]# uname -aLinux lsn-linux 2.6.32-279转载 2015-09-20 12:00:45 · 573 阅读 · 0 评论 -
hbase-1.0.1的master页面无法打开
在0.98.x之后master的web查看地址修改了 翻了官方doc,找到 4.Browse to the Web UI. Web UI Port ChangesWeb UI Port ChangesIn HBase newer than 0.98.x, the HTTP ports used by the HBase Web UI changed from 600原创 2015-09-21 01:20:34 · 1703 阅读 · 0 评论 -
Hbase错误ERROR: org.apache.hadoop.hbase.PleaseHoldException: Master is initializing
查看logjava.net.ConnectException: Call From ubuntu/127.0.1.1 to ubuntu:9000 failed on connection exception: java.net.ConnectException: Connection 显然是无法连接上hadoop,当是奇怪的是hadoop fs -ls /hbase 却有hbase的原创 2015-09-21 00:30:17 · 5953 阅读 · 0 评论 -
错误Failed to execute goal org.apache.maven.plugins:maven-compiler-plugin:2.5.1
如果log是Java heap space 就是Maven的编译可用内存太小 解决export MAVEN_OPTS="-Xms256m -Xmx512m -Djava.awt.headless=true"原创 2015-09-19 09:06:55 · 1862 阅读 · 0 评论 -
32位ubuntu14.04手动编译hadoop2.6.0
http://blog.csdn.net/ggz631047367/article/details/42460589下载官方编译好的包安装老是报错:Unable to load native-hadoop library for your platform用file命令查看发现官方包里的libhadoop.so.1.0.0文件竟然是64位的。假设应该安装了jdk,教程:http://b转载 2015-09-19 07:59:05 · 411 阅读 · 0 评论 -
错误Unable to load native-hadoop library for your platform...
出现这种问题,第一时间最好google,最好不好百度(浪费时间)官方解析http://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-common/NativeLibraries.html 确定${HADOOP_HOME}/lib/native的libhadoop.so.1.0.0是否是符合你的平台file原创 2015-09-19 11:24:02 · 2246 阅读 · 0 评论 -
hive与derby的安装
下载derby解压cd db-derby-10.10.1.1-bincp ./derbyclient.jar ~/hive-current/lib/cp ./derbytools.jar ~/hive-current/lib/配置hivederby默认是没有用户名、密码 javax.jdo.option.ConnectionURLjdbc:derby://s00原创 2015-09-28 15:33:57 · 1611 阅读 · 1 评论