Hadoop入门
文章平均质量分 79
大数据Hadoop技术入门
oifengo
爬梯之路
展开
-
Hadoop入门(10)--分布式缓存DistributedCache
DistributedCache的原理执行MapReduce时,可能Mapper之间之间需要共享一些信息,若信息量 不大,可以将起从HDFS加载到内存中,这就是Hadoop的分布式缓存机制实例 统计在清单中的单词的次数1 将单词清单加载到缓存中 2 输入第一行 和单词清单中的单词进行逐个对比 3 对比后将对比的结果进行输出 如何使用DistributedCache...原创 2018-07-31 02:15:28 · 1070 阅读 · 1 评论 -
Hive安装
前提 Hadoop环境可以参考:Hadoop分布式安装Hive 安装步骤和安装hadoop一致,可以上面的博客链接ubuntu@master1:/soft$ sudo cat /etc/environment JAVA_HOME=/soft/jdkHADOOP_HOME=/soft/hadoopHIVE_HOME=/soft/hivePATH="/usr/local/sbin:/...原创 2019-03-17 12:35:24 · 157 阅读 · 0 评论 -
Spark入门2
回顾Spark是一个内存计算框架在MR基础上做一个扩展RDD resilient distributed datasettransformation:变换 lazy map() filteraction 动作 count first take(n)rdd.persist() 持久化rdd. cache() == rdd.persist();SparkContext : 到Spa...原创 2019-02-18 14:14:16 · 318 阅读 · 0 评论 -
Linux常用命令(上)
简单命令显示linux系统的当前时间date以2012/03/23的方式显示日期date +%y/%m/%d* 列出当前月份的月历*cal显示整年的月历cal 2018显示2018年3月的月历cal 3 2018使用计算器计算bc使用计算器计算1/3,结果保留2位小数scale = 2 1/3显示当前目录下...原创 2018-09-12 15:52:24 · 7482 阅读 · 0 评论 -
Redis入门简介
NoSQlNot Only SQL非关系型数据库为什么需要NoSQl高并发读写 High perfoemance海量数据高效存储和访问 Huge Storage高可扩展性和高可用性 High Scalability && High Availability主流NoSQlNoSQl四大分类键值对(key-value)列存储文档数据库图形数据库N...原创 2019-03-12 22:11:29 · 113 阅读 · 0 评论 -
Spark Core 操作
创建一个SparkContext对象初始化Spark Spark程序必须做的第一件事是创建一个SparkContext对象,该对象告诉Spark如何访问集群。要创建SparkContext,您首先需要构建一个包含有关应用程序信息的SparkConf对象。每个JVM只有一个SparkContext可能是活动的。 在创建新的SparkContext之前,必须先停止活动状态的SparkContext。...原创 2018-12-29 22:16:10 · 338 阅读 · 0 评论 -
Spark入门介绍
简介快如闪电的集群计算快速和通用的大规模数据处理技术再HDFS之上做数据处理,没有数据存储功能Speed执行mr作业程序在内存中比Hadoop快100倍,磁盘上快10倍Spark有着DAG(有向五环图)执行引擎,支持离散数据流和内存计算Easy of usejava scalapythonR提供80多种高级操作用于并行操作App,可以使用scala等脚本语言进行交互式...原创 2019-02-07 19:50:52 · 430 阅读 · 0 评论 -
大数据Linux基础(2-2)
嵌套语句if rm -r b ; then echo ok ; else echo error; fi查看内置变量的访问方式help exportif commands ; then commadns ;[elif commadns ; then commands ; ]...[else ecommand ;] fiLinux内置变量的访问方式$ ? //返回刚刚执行命令的结果,...原创 2019-02-28 09:25:09 · 235 阅读 · 0 评论 -
Spark入门1
SparkContext类名org.apache.spark.SparkContextSpark上下文对象,是Spark程序的主入口点,负责连接到Spark cluster可用创建RDD ,在集群上创建累加器和广播变量每个jvm只能激活一个SparkContext对象,创建新的SparkContext对象时,必须stop原对象MapReducemap :splitRDD ...原创 2019-02-11 22:28:58 · 224 阅读 · 0 评论 -
HBASE原理
行式存储与列式存储介绍存储特点行式存储维护大量 的索引存储成本比较高 不能做到线性扩展对于随机读取的效率比较高对事物支持好列式存储对数据进行压缩 每一列进行聚合 度每一列相似性属性进行压缩并行查询...原创 2019-03-29 11:59:11 · 205 阅读 · 0 评论 -
大数据Linux基础(1-2)
常用命令cd //ls //clear //xxx --help (-h) //查看帮助 ,Linux一般全拼用-- ,简写用-man xxx //查看帮助info xxx //查看帮助ls -al | more //管道符 空格键是翻页 //q退出 //.开头的文件 等于隐藏文件pingwhoami ...原创 2019-02-26 22:40:53 · 321 阅读 · 0 评论 -
Hadoop常用组件
文章目录基础组件HadoopHDFSYARNMapReduceZooKeeper其他常用组件HiveHBaseStormImpalaImpala与Hive的对比OozieKafkaSqoopFlumeSpark基础组件HadoopHDFSYARNMapReduceZooKeeper其他常用组件HiveHBaseStormImpalaImpala与Hive的对比Oozie...原创 2020-01-12 18:42:56 · 264 阅读 · 0 评论 -
Mapreduce 原理分析
MapReduce是一个基于 java 的并行分布式计算框架,使用它来编写的数据处理应用可以运行在大型的商用硬件集群上来处理大型数据集中的可并行化问题,数据处理可以发生在存储在文件系统(非结构化)或数据库(结构化)中的数据上。MapReduce 可以利用数据的位置,在存储的位置附近处理数据,以最大限度地减少通信开销。MapReduce 框架通过编组分布式服务器,并行运行各种任务,管理系统各部分...原创 2019-10-24 20:33:48 · 198 阅读 · 0 评论 -
存储技术现在的困境以及未来的发展
前言当前的存储技术虽然已经取得了巨大的发展,一块小小的U盘就已经能够存储128G,但是随着智能设备的发展,ipv4都已经不够用了.存储技术也已经越来越显得捉襟见肘.需求上来了,硬件跟不上也要解决呀硬件上需要有突破,软件上也需要有相应的跟进,目前的面对大数据的解决方案是通过分布式的存储技术来破除硬件上的限制,当然这样做也有助于对提升对数据计算能力本文将从现在大数据存储结构从获取到存储再到计算...原创 2019-05-05 09:58:15 · 5119 阅读 · 0 评论 -
Hive JDBC操作
启动1000端口的服务原创 2019-03-17 19:56:16 · 170 阅读 · 0 评论 -
Hadoop分布式安装
前期准备1安装虚拟机安装Ubuntu不同的启动模式ctrl alt + f6 //文本模式ctrl alt + f7 //桌面模式开机进入文本模式1 修改/etc/default/grub#开进进入图形 模式#GRUB_CMDLINE_LINUX_DEFAULT="quiet"#开进进入文本模式跟新使生效sudo update-grub重启sudo reb原创 2019-03-16 16:59:03 · 203 阅读 · 0 评论 -
Spark基于搜狗日志数据分析
针对搜狗实验室的语料数据-用户查询日志(网页搜索用户查询及点击记录)进行Spark数据分析。Data 简介搜索引擎查询日志库设计为包括约1个月(2008年6月)Sogou搜索引擎部分网页查询需求及用户点击情况的网页查询日志数据集合。为进行中文搜索引擎用户行为分析的研究者提供基准研究语料。格式说明:数据格式为访问时间\t用户ID\t[查询词]\t该URL在返回结果中的排名\t用户点击的顺序号\...原创 2019-01-06 17:42:55 · 2281 阅读 · 2 评论 -
IDEA安装配置到创建sbt
一:IDEA的安装与配置**1:安装 **1):选64位,其他略**二:直接OK **三:选择jdk四:IDEA中安装Scala File—Settings五安装好scala后重启IDEA六.新建工程选择scala,选择sbt。七:输入工程名称及选择项目路径选择JDK版本,sbt版本选择0.13.15,scala版本选择2.11.8 不然会出错。sbt是轻量级的mave...原创 2018-12-12 16:58:00 · 941 阅读 · 0 评论 -
Hive QL操作
Hive DDL操作1创建表CREATE TABLE page_view(viewTime INT,userid BIGINT,page_url STRING,ip STRING)ROW FORMAT DELIMITEDFIELDS TERMINATED BY ','STORED AS TEXTFILE;可以进入mysql查看show tables;select ...原创 2018-12-09 20:52:06 · 200 阅读 · 0 评论 -
Hive安装配置
安装环境配置将文件apache-hive-1.2.1-bin.tar.gz通过XFTP工具上传到其node1解压压缩包tar -zxvf apache-hive-1.2.1-bin.tar.gz将其移动到/usr下mv apache-hive-1.2.1-bin /usr/替换jline jar包hadoop中yarn/lib下原有jline jar包版本:jline-0.9....原创 2018-12-08 15:26:24 · 331 阅读 · 1 评论 -
HBase编程实例
准备知识1、Hbase采用Java实现,原生客户端也是Java实现,其他语言需要通过thritf接口服务间接访问Hbase的数据。2、Hbase作为大数据存储数据库,其写能力非常强,加上Hbase本身就脱胎于Hadoop故和Hadoop的兼容性极好,非常适合于存储半规则数据(灵活、可扩展性强、大数据存储)。基于Hadoop的mapreduce + Hbase存储,非常适合处理大数据。3、hb...原创 2018-12-06 11:18:40 · 554 阅读 · 0 评论 -
HBase安装与配置
安装部署HBase安装HBase将HBase压缩包上传至其中一个节点解压tar -zxvf hbase-1.1.3-bin.tar.gz将解压后的目录移动到/usr/目录下mv hbase-1.1.3 /usr/设置HBase的环境变量vi /etc/profile将HBASE_HOME/bin拼接到PATH后面export HBASE_HOME=/usr/hbase-1....原创 2018-12-05 20:40:36 · 439 阅读 · 0 评论 -
ZooKeeper集群安装部署
1、安装和配置zookeeper将zookeeper-3.4.6.tar.gz压缩包通过XFTP工具上传至其中一台节点。解压tar -zxvf zookeeper-3.4.6.tar.gz,这里解压在/usr目录下配置环境变量export ZOOKEEPER_HOME=/usr/zookeeper-3.4.6/export PATH=$PATH:$ZOOKEEPER_HOME/bin...原创 2018-12-05 17:43:37 · 199 阅读 · 0 评论 -
Kafka的安装与部署及案列
安装和配置kafka将kafka压缩包kafka_2.10-0.8.2.1.zip上传至其中一个节点。解压压缩包unzip kafka_2.10-0.8.2.1.zip如果找不到unzip命令,先安装yum -y install unzip再解压将解压后的目录移动到/usr/目录下mv kafka_2.10-0.8.2.1 /usr/设置kafka的环境变量vi ...原创 2018-12-04 10:55:50 · 255 阅读 · 1 评论 -
Flume的安装与部署及案列
安装Flume1.将flume压缩包上传至其中一个节点解压vtar -zxvf apache-flume-1.6.0-bin.tar.gz将解压后的目录移动到/usr/目录下,并重命名为flume-1.6mv apache-flume-1.6.0-bin /usr/flume-1.6设置flume的环境变量vi /etc/profileexport FLUME_HOM...原创 2018-12-03 19:52:26 · 193 阅读 · 0 评论 -
MapReduce编程之WordCount实例
1、启动集群start-all.shmapreduce编程wordcount,实现统计一个超大文件中每个单词出现的个数========================新建java工程点击nextfinish完成导入jar包hadoop-2.5.2\share\hadoop\commonhadoop-2.5.2\share\hadoop\common\libhadoop-...原创 2018-12-03 19:28:30 · 299 阅读 · 0 评论 -
Java API 操作 HDFS
实现功能在HDFS文件系统中实现创建目录上传文件下载文件列出某个目录下所有文件读取某个文件的数据详细步骤1.Windows安装jdk和eclipse完成Java环境部署详情可以参考:java初学者Win 10下eclipse的安装教程(超级详细)2.新建java工程3.导入Hadoop开发包4.新建包新建类5.编程开发pa...原创 2018-10-17 13:50:48 · 273 阅读 · 0 评论 -
基于Docker的Hadoop集群搭建
环境准备1.Linux环境2 Docker环境(已国内镜像加速)Docker环境搭建可以参考Docker 基础入门+实例(2)前言直接用机器搭建Hadoop环境是一件痛苦的事情,即便是用虚拟机也需要的大量的时间,并且还有一定的失败率,利用docker虚拟化技术可以省去很多时间。三节点Hadoop集群搭建过程拉取docker镜像sudo docker pull kiwenla...原创 2018-09-18 08:47:50 · 628 阅读 · 0 评论 -
Hadoop脚本分析
start-all.shlibexec/hadoop-config.sh -- 设置变量sbin/start-dfs.sh --config $HADOOP_CONF_DIR --启动hdfssbin/start-yarn.sh --config $HADOOP_CONF_DIR --启动yarnlibexec/hadoop-config.sh ...原创 2018-09-05 01:48:55 · 474 阅读 · 0 评论 -
Spark集群的安装与部署
1、将spark压缩包上传至其中一个节点2、解压tar -zxvf spark-1.3.1-bin-hadoop2.4.tgz3、将解压后的目录移动到/usr/目录下,并重命名为spark-1.3.1:mv spark-1.3.1-bin-hadoop2.4 /usr/spark-1.3.14、设置spark的环境变量vi /etc/profileexport SPARK_H...原创 2018-12-13 17:11:30 · 260 阅读 · 0 评论 -
Spark SQL操作
1.1.1.创建DataFrames在Spark SQL中SQLContext是创建DataFrames和执行SQL的入口,在spark-1.5.2中已经内置了一个sqlContext在本地创建一个文件,有三列,分别是id、name、age,用空格分隔,然后上传到hdfs上hdfs dfs -put person.txt /.在spark shell执行下面命令,读取数据,将每一行的...原创 2018-12-17 19:45:57 · 589 阅读 · 0 评论 -
Hadoop入门(1)--Hadoop的前生
无处不在的大数据随着科技的发展,数据越来越多,也越来越有价值。更有形象的描述:数据就是未来的石油。 云端的服务器也越多,也是未来的发展方向。 越来越多的企业把数据存储在云端,并从中获取有用的价值。 马云多次强调;alibaba是一家数据公司!!! 如何对数据进行存储和分析系统瓶颈 存储容量 读写速率 计算效率Google三大革命技术MapReduce BigTab...原创 2018-07-28 20:54:58 · 776 阅读 · 0 评论 -
Hadoop入门(2)--Hadoop功能和优势
Hadoop是什么开源的 分布式存储+分布式计算平台 Hadoop目前作为Apache的顶级项目http://hadoop.apache.org/Hadoop的功能HDFS +MapReduceHDFS分布式存储系统,存储海量的数据MapReduce并行处理框架,实现任务分解和调度Hadoop能做什么?构建大型数据仓库,PB级数据存储、处理、...原创 2018-07-28 21:07:43 · 1009 阅读 · 0 评论 -
Hadoop入门(3)--Hadoop生态和版本
现在的大数据已经成为了Hadoop生态的天下HIVE 可以不用编写复杂 程序 需要要编写sql语句 功能: 把sql语句转化为Hadoop任务去执行HABSE :存储结构化数据的分布式数据库和传统关系型数据库不同:放弃事物特性 追求高拓展 和HDFS对比:数据的随机读写和实时访问读写 zookeeper管理Hadoop平台每个node的状态 ...原创 2018-07-28 21:20:52 · 281 阅读 · 0 评论 -
Hadoop入门(5)--HDFS
HDFS简介Hadoop的文件系统设计结构1 Block(块) HDFS将文件分配成block来存储,每个块默认64MB,块是文件存储处理的逻辑单元,按照block管理 2 NameNode 管理节点,存放元数据文件与数据块的映射表数据块与数据节点的映射表 HDFS体系结构 3 DataNode HDFS的工作节点 用来存放真正的数据块的 HDF...原创 2018-07-28 22:39:39 · 236 阅读 · 0 评论 -
Hadoop入门(7)--MapReduce
MapReduce原理分而治之,将一个大的任务拆分成很多小的子任务(map),并行执行后,合并结果(reduce)。 MapReduce 运行流程1 Job&Task 一个job会被拆分成多个Task Task又分为MapTaskReduceTask JobTracker的角色作业调度分配任务、监控任务执行进度监控TaskTracker的状态...原创 2018-07-29 16:36:29 · 249 阅读 · 0 评论 -
Hadoop入门(8)--从分片输入到Map
输入文件保存在Block中 Hadoop2中 默认的Block大小为128M分片输入假设存储420M的文件 第四块就只存储了36M 若还有其他文件 这样就被分成了五份,分片数量为5,地址都会保存在NameNode中 但是NameNode的内存是有限的,所以这样对HDFS带来性能问题 所有HDFS适合存放大文件, 对于大量小文件,可以采用压缩、合并小文件的优化策...原创 2018-07-30 01:04:30 · 574 阅读 · 0 评论 -
Hadoop入门(9)--Map-Shuffle-Reduce
本地优化-Combine定义:数据经过Map端输出后会进行网络混洗,经Shuffle后进入Reduce,在大数据量的情况下会造成大量网络开销。所以可以在本地按照key先进性一轮排序与合并,再进行网络混洗,这个过程就是Combine 大多数情况Combine的逻辑和Reduce的逻辑是一致的 可以认为combine是对本地数据的Reduce操作 这里复用Reduce的逻辑...原创 2018-07-30 01:48:00 · 255 阅读 · 0 评论