Hadoop
文章平均质量分 89
Gandalf_lee
互联网大厂从事数据挖掘,机器学习相关技术工作。
展开
-
hadoop eclipse 插件 安装
注:以下指南均在ubuntu下,如果你是win+cygywin模式,可能有差别(没研究不多说),仅供参考,如有误人之处还望指正 别看区区一个插件,还真是复杂,光是版本问题就捣鼓了好长时间,网上也没有成熟的案例都在讨论+询问,我这现在捣鼓明白了,跟大家分享一下:1. 保证eclipse是3.3版本。eclipse 要用3.3.*版本(Yahoo指定版本),因为其转载 2013-06-10 09:30:06 · 804 阅读 · 0 评论 -
【甘道夫】拷贝文件到多台服务器的Shell脚本
在多机集群环境中,经常面临修改配置文件后拷贝到多台服务器的情况,传统的执行scp比较麻烦,所以写了以下shell脚本,可以将指定文件拷贝到多台机器。使用方法请参见HELP部分代码。原创 2014-05-09 09:27:19 · 1149 阅读 · 0 评论 -
【甘道夫】通过Mahout构建贝叶斯文本分类器案例详解
背景&目标:1、sport.tar 是体育类的文章,一共有10个类别; 用这些原始材料构造一个体育类的文本分类器,并测试对比bayes和cbayes的效果; 记录分类器的构造过程和测试结果。2、user-sport.tar 是用户浏览的文章,每个文件夹对应一个用户; 利用上题构造的文本分类器,计算每个用户浏览各类文章的占比; 记录计算过程和结果。原创 2014-05-09 10:12:48 · 4599 阅读 · 14 评论 -
【甘道夫】win7环境下eclipse连接hadoop1.2.1报错简单解决:重编译FileUtil.java
Win7环境下通过eclipse连接hadoop1.2.1集群时,会遇到如下报错:Exception in thread "main" java.io.IOException: Failed to set permissions of path: \tmp\hadoop-Administrator\mapred\staging\Administrator-519341271\.stagin原创 2014-05-09 09:41:56 · 1161 阅读 · 1 评论 -
Hadoop2.2.0启动异常 - Incompatible clusterIDs
今天启动Hadoop2.2.0集群后,发现datanode进程没启动,查看日志发现如下报错:2014-05-15 14:46:50,788 FATAL org.apache.hadoop.hdfs.server.datanode.DataNode: Initialization failed for block pool Block pool BP-2020521428-192.1原创 2014-05-15 15:34:10 · 1420 阅读 · 2 评论 -
【甘道夫】通过Mahout构建推荐系统--通过IDRescorer扩展评分规则
通过Mahout构建推荐系统时,如果我们需要加入某些过滤规则(比如:item的创建时间在一年以内),则需要用到IDRescorer接口,该接口源码如下:package org.apache.mahout.cf.taste.recommender;/** * * A {@link Rescorer} which operates on {@code long原创 2014-05-09 09:53:58 · 1344 阅读 · 0 评论 -
【甘道夫】MapReduce实现矩阵乘法--实现代码
MapReduce实现矩阵乘法--实现代码原创 2014-05-15 19:08:14 · 2595 阅读 · 1 评论 -
【甘道夫】Mapreduce实现矩阵乘法的算法思路
大数据计算中经常会遇到矩阵乘法计算问题,所以Mapreduce实现矩阵乘法是重要的基础知识,下文我尽量用通俗的语言描述该算法。 1.首先回顾矩阵乘法基础 矩阵A和B可以相乘的前提是,A的列数和B的行数相同,因为乘法结果的矩阵C中每一个元素Cij,是A的第i行和B的第j列做点积运算的结果,参见下图:原创 2014-05-09 09:38:13 · 2629 阅读 · 3 评论 -
【甘道夫】Hadoop培训讲义
本人原创的Hadoop培训讲义,包括1.0,2.0相关核心理论知识,适合希望快速入门的同学阅读,不包括2.3.0版本以后知识。原创 2014-06-10 11:16:50 · 1286 阅读 · 0 评论 -
【甘道夫】Sqoop1.99.3基础操作--导入Oracle的数据到HDFS
Sqoop1.99.3基础操作--导入Oracle的数据到HDFS原创 2014-06-27 14:58:52 · 3005 阅读 · 4 评论 -
通过Sqoop实现Mysql / Oracle 与HDFS / Hbase互导数据
下文将重点说明通过Sqoop实现Mysql与HDFS互导数据,Mysql与Hbase,Oracle与Hbase的互导最后给出命令。一、Mysql与HDFS互导数据环境:宿主机器操作系统为Win7,Mysql安装在宿主机上,宿主机地址为192.168.66.963台虚拟机操作系统为Ubuntu-12.04.1-32位三台虚拟机已成功安装hadoop,并实现免密钥互访,配hosts原创 2013-06-10 09:59:12 · 8826 阅读 · 0 评论 -
【甘道夫】Sqoop1.4.4 实现将 Oracle10g 中的增量数据导入 Hive0.13.1 ,并更新Hive中的主表
需求将Oracle中的业务基础表增量数据导入Hive中,与当前的全量表合并为最新的全量表。设计涉及的三张表:全量表:保存了截止上一次同步时间的全量基础数据表增量表:增量临时表更新后的全量表:更新后的全量数据表步骤:通过Sqoop将Oracle中的表导入Hive,模拟全量表和增量表通过Hive将“全量原创 2014-08-21 19:14:08 · 4085 阅读 · 1 评论 -
【甘道夫】实现Hive数据同步更新的shell脚本
引言:上一篇文章《【甘道夫】Sqoop1.4.4 实现将 Oracle10g 中的增量数据导入 Hive0.13.1 ,并更新Hive中的主表》http://blog.csdn.net/u010967382/article/details/38735381 描述了增量更新Hive表的原理和Sqoop,Hive命令,本文基于上一篇文章的内容实现了shell脚本的编写,稍加修改就可用于实际工程原创 2014-08-25 18:20:33 · 2626 阅读 · 0 评论 -
【甘道夫】Sqoop1.4.4原生增量导入特性探秘
原始思路要想实现增量导入,完全可以不使用Sqoop的原生增量特性,仅使用shell脚本生成一个以当前时间为基准的固定时间范围,然后拼接Sqoop命令语句即可。原生增量导入特性简介Sqoop提供了原生增量导入的特性,包含以下三个关键参数:ArgumentDescription--check-column (col原创 2014-08-27 18:33:44 · 2890 阅读 · 1 评论 -
Hadoop 2.0.0-cdh4.5.0安装
Hadoop2.0.0-cdh4.5.0部署文档1. 环境Hadoop 2.0.0-cdh4.5.0java version "1.7.0_45"Ubuntu 12.04.3 LTS (GNU/Linux3.8.0-29-generic x86_64) VMware虚拟机3台:192.168.0.8 master192.168.0.9 s原创 2014-01-17 10:42:39 · 2166 阅读 · 0 评论 -
如何理解Hadoop-Hbase原理与应用小结
1 我们常说HBase是“数据即日志”的数据库,它是怎样修改和删除数据的?和Oracle这类传统的RDBMS有什么区别? 答:首先Hbase中的一个“元素”是由行键、列族名、限定符、时间戳唯一标识的并且行键作为数据行在表里的唯一标识,我们只有通过行键来访问列族别无他法。修改数据:我们先找到要修改的行键把新的数据记录追加到对应的列族中并打上一个新时间戳代表最新版本。转载 2013-06-10 11:17:17 · 875 阅读 · 0 评论 -
CAP理论
1.CAP概述CAP理论是由EricBrewer教授提出的,在设计和部署分布式应用的时候,存在三个核心的系统需求,这个三个需求之间存在一定的特殊关系。三个需求如下:C: Consistency 一致性A: Availability 可用性P:Partition Tolerance分区容错性CAP理论的核心是:一个分布式系统不可能同时很好的满足一致性,可用性和转载 2013-06-10 11:13:22 · 893 阅读 · 0 评论 -
hadoop常用命令
启动Hadoop进入HADOOP_HOME目录。执行sh bin/start-all.sh关闭Hadoop进入HADOOP_HOME目录。执行sh bin/stop-all.sh 1、查看指定目录下内容hadoop dfs –ls [文件目录]eg: hadoop dfs –ls /user/wangkai.pt2、打开某个已存在文件转载 2013-06-10 09:30:32 · 725 阅读 · 0 评论 -
Hadoop Pig学习笔记:各种SQL在PIG中实现
本博客属原创文章,转载请注明出处:http://guoyunsky.iteye.com/blog/1317084 欢迎加入Hadoop超级群: 180941958 我这里以Mysql 5.1.x为例,Pig的版本是0.8 同时我将数据放在了两个文件,存放在/tmp/data_file_1和/tmp/data_file_2中.文件内容如下:转载 2013-06-10 09:34:26 · 731 阅读 · 0 评论 -
Ubuntu12 部署 Hadoop 全流程总结
环境:VMware® Workstation 8.0.4 build-744019ubuntu-12.04-desktop-i386.isojdk-7u7-linux-i586.gzhadoop-0.20.203.0rc1.tar.gz第一步:搭建虚拟机基础环境至少需要3台虚拟机才能模拟hadoop的真实运行场景:原创 2013-06-10 09:28:31 · 1085 阅读 · 0 评论 -
ubuntu12下hadoop集群免登陆配置
第一步:所有节点分别生成密钥对所有节点都要做:命令行中,用cd命令回到当前用户根目录,然后执行ssh-keygen -t rsa密钥成功生成后是存储在根目录下的.ssh隐藏目录下,直接用 cd .ssh 就能进入,然后用ls命令就能看到id_rsa id_rsa.pub第二步:拷贝生成authorized_keys所有节点都要做:将id_rsa.pub拷贝原创 2013-06-10 09:50:09 · 829 阅读 · 0 评论 -
与云计算相关的google论文链接以及Hadoop开源网站
1、The Anatomy of a Large-Scale Hypertextual Web Search Enginehttp://infolab.stanford.edu/~backrub/google.htmlhttp://cs.ucsb.edu/~chong/250C/google.pdf2、The Google File Systemhttp://l原创 2013-06-09 21:21:27 · 874 阅读 · 0 评论 -
hadoop集群部署常见问题
hadoop执行stop-all.sh的时候总是出现 “no namenode to stop” 这个原因其实是因为在执行stop-all.sh时,找不到pid文件了。 在 HADOOP_HOME/conf/ hadoop-env.sh 里面,修改配置如下: export HADOOP_PID_DIR=/home/hadoop/pids转载 2013-06-10 09:26:40 · 4195 阅读 · 0 评论 -
hadoop中datanode无法启动
摘要:该文档解决了多次格式化文件系统后,datanode无法启动的问题一、问题描述 当我多次格式化文件系统时,如 grid@masternode:~/hadoop$ bin/hadoop namenode -format 会出现datanode无法启动,查看slave节点的日志,发现包含如下信息:2012-09原创 2013-06-10 09:27:11 · 4862 阅读 · 0 评论 -
MapReduce模板程序
该程序功能:将如下数据13599999999 100861389999999912013944444444 1380013800013722222222 1380013800018800000000 12013722222222 1008618944444444 10086处理为类似:10086 13599999999|13722222222|189444原创 2013-06-10 09:35:41 · 765 阅读 · 0 评论 -
hive安装手册完整版
一、环境描述Mysql版本:mysql-installer-community-5.5.27.1 32位Mysql for Windows 7 32位:我把mysql数据库安装在了自己win7的笔记本上,这样的好处就是减少了虚拟机 master slave的开销和使用空间还可以多利用一台机器的资源,如果你的虚拟机资源很紧张的话也可以这样部署。Linux ISO:转载 2013-06-10 09:36:21 · 1720 阅读 · 0 评论 -
配置eclipse的hadoop插件时无法连接hdfs的解决办法
如果直接将下载hadoop-eclipse-plugin-0.20.203.0.jar复制到eclipse的插件目录中,在连接DFS时会出现错误,提示信息为: "error: failure to login",弹出的错误提示框内容为"An internal error occurred during: "Connecting to DFS hadoop". org/apache/common原创 2013-06-10 09:51:03 · 2964 阅读 · 0 评论 -
hadoop数据类型,编程作为参考
Hadoop内置的数据类型BooleanWritable:标准布尔型数值ByteWritable:单字节数值DoubleWritable:双字节数值FloatWritable:浮点数IntWritable:整型数LongWritable:长整型数Text:使用UTF8格式存储的文本NullWritable:当中的key或value为空时使用转载 2013-06-10 09:51:39 · 817 阅读 · 0 评论 -
HBase完全分布式安装
假设Hadoop已经成功安装。实验环境如下:Ubuntu 12hadoop-0.20.203.0hbase-0.90.5三台主机:192.168.66.91 masternode192.168.66.92 slavenode1192.168.66.93 slavenode2Ubuntu用户名gridhadoop安装目录:/home/grid/hado原创 2013-06-10 09:32:11 · 998 阅读 · 0 评论 -
【甘道夫】Ubuntu集群配置免认证登陆
引言这是几年前写的文章,但一直以来该问题被重复问到,所以我决定将它重新搬上屏幕。正文三个节点:masternode slavenode1 slavenode2第一步:所有节点分别生成密钥对所有节点都要做:命令行中,在当前用户根目录执行ssh-keygen -t rsa密钥成功生成后是存储在当前用户根目录下的.ss原创 2014-10-24 23:38:10 · 1598 阅读 · 0 评论