hadoop
郝文龙
qq : 1146784017
展开
-
Hadoop伪分布式环境搭建
一、所需软件VMware +SUSE Linux10(32/64) +hadoop2.6.5(64) +ssh+jdk1.6.45二、安装步棸虚拟机的安装本文省略 1.首先通过ssh连接虚拟机安装JDK 并配置环境变量 exportJAVA_HOME=/usr/java/jdk1.6.0_45exportPATH=$PATH:$JAVA_HOME/binex原创 2017-05-11 18:44:22 · 380 阅读 · 0 评论 -
Hadoop生态组件之Hive环境搭建--第十讲(hive实战-java连接hive)
1.确认虚拟机防火墙已经关闭2.启动hive 2.1 shell模式 切换到bin下 ./hive启动 2.2 hive JDBC服务 ./hive --service hiveserver2 & 2.3测试jdbc连接是否可用 切换到bin下 ./beeline 然后输入 ...原创 2018-03-23 15:13:39 · 338 阅读 · 0 评论 -
Hadoop生态组件之Hbase--第八讲(java操作Hbase)
1.启动hadoop和hbase2.关闭linux防火墙3.java操作3.1.导入/root/training/hbase-1.0.2/lib中所有的jar包到项目中3.2 代码package com.lanqiao;import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apac...原创 2018-03-04 23:00:45 · 280 阅读 · 0 评论 -
Hadoop生态组件之Hbase--第八讲(shell操作Hbase)
1.启动hadoop和hbase2.关闭linux防火墙3.shell操作hbase shell 命令进入命令行客户端3.1 创建一个名为test的表其中包含一个列族 data3.2验证是否创建成功3.3.添加3条记录put 表名,行健,列名,值3.4.查询一条记录get 表名 行健3.5.查询所有记录san 表名3.6.删除表,首先禁用然后删除...原创 2018-03-04 19:44:01 · 192 阅读 · 0 评论 -
Hadoop生态组件之Hive环境搭建--第九讲(hive实战)
本文转载自 : http://blog.csdn.net/u013063153/article/details/54313217本文数据来自于搜狗实验室:用户查询日志下载路径 http://www.sogou.com/labs/resource/q.php1、Hive操作演示1.1 内部表1.1.1 创建表并加载数据第一步 启动HDFS、YARN和Hive,启动完毕后创建Hive数据库hive...转载 2018-03-09 15:28:40 · 245 阅读 · 0 评论 -
Hadoop生态组件之Hive环境搭建--第九讲
hadoop2.4.1 + apache-hive-1.2.1-bin.tar.gz1. 内嵌模式将元数据保存在本地内嵌的 Derby 数据库中,这是使用 Hive 最简单的方式。但是这种方式缺点也比较明显,因为一个内嵌的 Derby 数据库每次只能访问一个数据文件,这也就意味着它不支持多会话连接。2. 本地模式这种模式是将元数据保存在本地独立的数据库中(一般是 MySQL),这用就可以支持多会话...原创 2018-02-06 19:31:10 · 252 阅读 · 0 评论 -
Hadoop生态组件之Hbase--第八讲
本文采用 hbase-1.0.2-bin.tar.gz + hadoop2.4.11.上传hbase-1.0.2-bin.tar.gz 到/root/training目录2.解压文件到当前目录3.设置环境变量 vi ~/.bash_profileexport HBASE_HOME=/root/training/hbase-1.0.2export PATH=$PATH:$原创 2018-02-06 16:04:10 · 300 阅读 · 0 评论 -
Hadoop生态组件之Spark--第七讲
1、什么是Spark Spark是一个针对大规模数据处理的快速通用引擎。 类似MapReduce,都进行数据的处理2、Spark的特点:(1)基于Scala语言、Spark基于内存的计算(2)快:基于内存(3)易用:支持Scala、Java、Python(4)兼容性:完全兼容Hadoop3、Spark体系结构:主从结构(1)主节点:M原创 2018-02-05 17:39:36 · 518 阅读 · 0 评论 -
搭建Hadoop的环境-第三讲
准备实验的环境:1、安装Linux、JDK2、配置主机名、免密码登录 参考博客:http://blog.csdn.net/a639735331/article/details/792298263、约定:安装目录:/root/training安装:1、解压 : tar -zxvf hadoop-2.4.1.tar.gz -C /root/training/2、设置原创 2018-01-08 22:56:21 · 348 阅读 · 0 评论 -
hadoop遇到的问题
问题1:dataNode或者nameNode 没有启动解决:可以删除hadoop临时目录, 重新格式化hadoop :hdfs namenode -format 重启hadoop问题2:WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform… usi原创 2018-02-02 14:25:57 · 437 阅读 · 1 评论 -
开发WordCount程序-第六讲
依赖jar:/root/training/hadoop-2.4.1/share/hadoop/common/lib/root/training/hadoop-2.4.1/share/hadoop/common//root/training/hadoop-2.4.1/share/hadoop/mapreduce/lib/root/training/hadoop-2.4.1/sha原创 2018-01-08 23:15:33 · 239 阅读 · 0 评论 -
MapReduce入门-第五讲
第一节:回顾:MapReduce的编程模型第二节:WordCount的流程分析1、伪分布环境运行WordCount hadoop jar hadoop-mapreduce-examples-2.4.1.jar wordcount /data/input/data.txt /data/output/wc日志:17/08/05 01:12:24 INFO mapre原创 2018-01-08 23:03:56 · 193 阅读 · 0 评论 -
HDFS的基本操作-第四讲
第一节:HDFS的相关命令-mkdir 在HDFS创建目录 hdfs dfs -mkdir /data-ls 查看当前目录 hdfs dfs -ls /-ls -R 查看目录与子目录-put 上传一个文件 hdfs dfs -put data.txt /dat原创 2018-01-08 23:00:09 · 494 阅读 · 0 评论 -
Hadoop的背景起源--第二讲
Hadoop的背景起源一: GFS: Google File System一、什么是大数据,本质?(1)数据的存储:分布式文件系统(分布式存储)-----> HDFS: Hadoop Distributed File System(2)数据的计算:分布式计算二、如何解决大数据的存储?----> 分布式文件系统(HDFS,来源于GFS)举例:网盘(1) GFS: 没有硬盘原创 2018-01-08 22:35:31 · 1101 阅读 · 0 评论 -
大数据基础入门-第一讲
第一节:为什么要学习大数据1、目的:很好工作2、对比:Java开发和大数据开发第二节:什么是大数据?举例:1、商品推荐: 问题:(1)大量的订单如何存储? (2)大量的订单如何计算?2、天气预报: 问题:(1)大量的天气数据如何存储?(2)大量的天气数据如何计算?什么是大数据,本质?(1)数据的存储:分布式文件系统(分布式存储) (2)数原创 2018-01-08 22:33:13 · 413 阅读 · 0 评论 -
JAVA 操作hadoop分布式文件系统
JAVA 操作hadoop分布式文件系统原创 2017-05-18 19:50:11 · 339 阅读 · 0 评论 -
Hadoop生态组件之Hive环境搭建--第九讲(本地模式mysql)
hadoop2.4.1 + apache-hive-1.2.1-bin.tar.gz1. 内嵌模式将元数据保存在本地内嵌的 Derby 数据库中,这是使用 Hive 最简单的方式。但是这种方式缺点也比较明显,因为一个内嵌的 Derby 数据库每次只能访问一个数据文件,这也就意味着它不支持多会话连接。2. 本地模式这种模式是将元数据保存在本地独立的数据库中(一般是 MySQL),这用就可以支持多会话...原创 2018-04-05 18:38:06 · 223 阅读 · 0 评论