Hadoop
文章平均质量分 66
大鱼-瓶邪
工作已签,base杭州,专注毕业,后期更新可能会稍微少一点,还是会和大家一起探讨。
华中科技大学在读研究生。主要做核聚变模拟计算,管理着82个节点的集群,做大数据和机器学习,利用10多个老节点搭建各种环境钻研大数据知识,主要是Hadoop生态圈(HDFS+Spark+Sqoop+HIve+Hbase+Pig+Zookeeper)。<br>也用python做科研数据分析,机器学习。<br>熟悉scala开发<br>本科期间跟随导师做了两年的java web开发,熟悉ssh框架,mysql,oracle数据库
展开
-
Hadoop生态各组件搭建的环境配置记录汇总【超详细+Flink】
test用户:node40:主节点node37,node38,node39是数据节点。python3.6.4,jdk1.8都是在/usr/local下。zookeeper3.4.12在node37--node39节点上。node40:安装的hive,mysql【root】,Sqoop1.99,Kafka。node40设置的HMaster,node38设置的HMaster-b...原创 2019-08-12 17:25:00 · 1341 阅读 · 0 评论 -
Spark accumulator累加器
accumulator累加器使用规则:(1)accumulator累加器可以使用SparkContext.accumulator([初始值])来创建(2)使用.add()累加(3)在task中,例如foreach循环中,不能读取累加器的值(4)只有驱动程序,也就是循环外,才可以使用.value读取累加器的值例子:累加器求和、计数>>> intRDD = s...原创 2018-08-21 21:41:19 · 282 阅读 · 0 评论 -
Spark Broadcast广播变量
Broadcast广播变量使用规则如下:(1)可以使用SparkContext.broadcast([初始值])创建(2)使用.valuse来读取广播变量的值(3)Broadcast广播变量被创建后不能修改例子:创建kvFruit:>>> kvFruit = sc.parallelize([(1,"apple"),(2,"orange"),(3,"bana...原创 2018-08-21 20:59:19 · 866 阅读 · 0 评论 -
Hadoop实操2--java API操作HDFS文件+详细的源码单元测试(IDEA)
主要操作HDFS文件的查看,添加,删除,上传,下载。完整源码见后面环境搭建见:https://blog.csdn.net/qq_25948717/article/details/82015131Maven就是方便包的管理版本匹配搭建好如图:配置:可以看到右下角正在下载依赖,第一耗时很长=========================================...原创 2018-08-24 14:53:39 · 2401 阅读 · 0 评论 -
Centos下使用IDEA,Maven开发操作Hadoop环境搭建
windows下搭建见:https://blog.csdn.net/qq_25948717/article/details/81982612先安装jdk。Centos下安装IDEA网上很多教程,很简单。下载maven:http://maven.apache.org/download.cgi下载解压安装解压: vim /etc/profile然后还需要 配置环境变量。...原创 2018-08-24 12:48:30 · 1587 阅读 · 0 评论 -
Windows下使用IEDA,Maven开发操作Hadoop环境搭建
开发可以在本地开发。Linux下搭建见:https://blog.csdn.net/qq_25948717/article/details/82015131安装好IDEA后,安装Maven,下载apache-maven-3.5.4-bin.zip解压,配置环境变量:添加到环境变量 - PATH更新 PATH 变量,添加 Maven bin 文件夹到 PATH 的最后,如: %M...原创 2018-08-23 20:14:17 · 1124 阅读 · 0 评论 -
Centos6.5下Hadoop-CDH版为分布式集群搭建
尾部有另一个安装教程截图:首先安装jdk,下载jdk:http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html然后拷贝解压: tar -zxvf jdk-8u172-linux-x64.tar.gz -C /usr/local/修改权限:chown -R test....原创 2018-08-23 15:53:48 · 560 阅读 · 0 评论 -
Hadoop-HDFS框架技术
Hadoop 主要由HDFS和MapReduce 两个核心部分组成。其中最底部就是HDFS,它被用来存储Hadoop 集群中所有存储节点上的文件。通过Java API可以对所有的HDFS文件进行操作,必须通过抽象类FileSystem来操作,FileSystem继承org.apache.hadoop.conf.Configuration,适用file:// 、 ftp、hdfs多...原创 2018-08-23 13:52:06 · 444 阅读 · 2 评论 -
Hadoop-MapReduce框架技术
MapReduce是用于数据处理的一种编程模型,简单但足够强大,专门为并行处理大数据而设计。解决问题的思路就是把一个应用程序分解为许多的分布在各个计算节点的并行的计算指令进行运行。源自于谷歌的MapReduce论文。海量数据离线处理,易开发,易运行,不适合实时流式计算。详细关于YARN的MapReduce见:https://mp.csdn.net/postedit/82424154...原创 2018-08-22 20:10:03 · 1048 阅读 · 0 评论 -
Linux下Eclipse配置scala开发Spark-WordCount项目
Eclipse和Scala安装见:https://blog.csdn.net/qq_25948717/article/details/80404158‘ https://blog.csdn.net/qq_25948717/article/details/80758713去官网下载插件:http://scala-id...原创 2018-08-22 13:31:13 · 1740 阅读 · 0 评论 -
Spark下的WordCount案列演示
安装教程见我其他博客https://blog.csdn.net/qq_25948717/article/details/80758713,在终端输入pyspark进入spark环境:test.txt进入:读取文本文件:>>> textFile = sc.textFile("test.txt")使用flatMap空格分隔单词,并读取每个单词注...原创 2018-08-22 12:27:41 · 571 阅读 · 0 评论 -
完整Hadoop+Spark+Zookeeper+Hbase+HIve+Pig+Mysql+Sqoop集群配置文件记录
目录结构说明:整个集群采用node63 node64 node65 node66 node67 node69 node70节点 **Hadoop:**node63作为namenode,node64作为secondarynamenode,node65,node66 node67 node68 node69 node70作为datanode **Zook...原创 2018-07-26 21:01:12 · 3115 阅读 · 0 评论 -
深入Zookeeper技术
Zookeeper可以看作是Hadoop生态系统中各个组件的统一协调管理者(分布式协调技术),是为分布式应用所设计的高可用、高性能的开源协调服务:分布式锁服务—&gt;解决分布式环境中的多个进程之间的同步控制,防止造成脏数据。 目的:增加集群的稳定性、持续性、有序性和高效性。 面临的问题:网络的不可靠性 特性:简单、富有表现力、高可用性、松耦合方式、资源库。Zookeeper集群中各个节...原创 2018-07-26 18:36:17 · 235 阅读 · 0 评论 -
Spark RDD persistence持久化
Spark RDD持久化机制可以用于将需要重复运算的RDD存储在内存中,以便大幅提升运算效率Spark RDD持久化使用方法如下: RDD.persist ------------存储等级 RDD.unpersist ------------取消持久化存储等级说明:MEMORY_ONLY :spark会将RDD对象以Java对象反串行化(序列化)在JVM的堆...原创 2018-08-21 22:06:06 · 312 阅读 · 0 评论 -
Hadoop-CDH之—— WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform...
问题描述截图:解决办法:再文件后面添加:log4j.logger.org.apache.hadoop.util.NativeCodeLoader=ERROR即可:原创 2018-09-01 15:25:43 · 482 阅读 · 0 评论 -
Kafka简介
一种高效的流处理平台。基本概念: --------------概念延伸--------------------基本结构:逻辑结构: 另一种展示: kafka消息结构:Kafka特点:分布式:多分区,多副本,多订阅者,基于zookeeper调度高性能:高吞吐量【几十万M/s】,低延迟,高并发,时间复...原创 2019-08-13 18:49:34 · 244 阅读 · 0 评论 -
Spark SQL一步步分析Wifi探针商业大数据案例
该项目主要实现的主要功能:一是通过探针设备采集可监测范围内的手机MAC地址、与探针距离、时间、地理位置等信息:二是探针采集的数据可以定时发送到服务端保存:三是利用大数据技术对数据进行人流量等指标的分析。最终以合理的方式展示数据处理结果。数据收集数据收集由服务器和探针设备共同完成,探针采集数据并发送到服务器,服务器接收探针设备的数据,处理成定格式保存至分布式文件系统(HDFS...原创 2018-11-11 15:46:11 · 2587 阅读 · 3 评论 -
Spark SQL实战查询网页数据分析
Spark以及Hive安装见我的博客:https://blog.csdn.net/qq_25948717/article/details/80758713 https://blog.csdn.net/qq_25948717/article/details/81054411使用Spark ...原创 2018-10-16 16:57:38 · 2069 阅读 · 0 评论 -
hive实战分析网页搜索数据
hive安装教程见:https://blog.csdn.net/qq_25948717/article/details/81054411该文章只讲分析数据:first of all,到搜狗实验室下载用户查询日志:http://www.sogou.com/labs/resource/q.php数据格式:第一列:搜索时间,第二列:用户ID,第三列:用户在输入框的搜索内容, ...原创 2018-10-16 14:17:57 · 1035 阅读 · 0 评论 -
Hbase数据库技术详细讲解
关于Hbase与其他数据的比较和简要介绍见:https://blog.csdn.net/qq_25948717/article/details/82974058HBase 相关的模块以及 HBase 表格的特性前面我们提到过 HBase 也是构建于 HDFS 之上,这是正确的,但也不是完全正确。HBase 其实也支持直接在本地文件系统之上运行,不过这样的 HBase 只能运行在一台机器...转载 2018-10-08 22:47:30 · 1030 阅读 · 0 评论 -
Hbase和Hive以及传统数据库的区别
Hbase和HiveHBase 是一种类似于数据库的存储层,也就是说 HBase 适用于结构化的存储。并且 HBase 是一种列式的分布式数据库。HBase 底层依旧依赖 HDFS 来作为其物理存储,这点类似于 Hive。1.实时性:Hive 适合用来对一段时间内的数据进行分析查询,例如,用来计算趋势或者网站的日志。Hive 不应该用来进行 实时的查...转载 2018-10-08 22:16:41 · 26876 阅读 · 0 评论 -
Haoop实操3-筛选出社交网站特定日期的用户,以序列化格式输出
1.待处理的数据文件格式(部分截图):生成上图文件的Python源码:https://blog.csdn.net/qq_25948717/article/details/824929622.启动hadoop,我是在node40节点上启动的伪分布式集群,在node100节点下开发的, node40下:start-all.sh node100下:打开Eclipse 配置好...原创 2018-09-07 18:41:21 · 381 阅读 · 0 评论 -
Hadoop-Mapper和Reducer的输出类型
MapReduce主要分为两个过程:Map和ReduceMapper过程:Mapper<K1, V1, K2, V2 >Reducer过程:Reducer<K2, V2, K3, V3 >K1,V1 的类型一般由job.setInputFormatClass()指定,比如job.setInputFormatClass(TextInputFormat.class)...原创 2018-09-07 13:40:38 · 1799 阅读 · 0 评论 -
Hadoop-Jobhistory的配置
JobHistory用来记录MapReduce任务的完整信息到HDFS目录中,方便给定位信息改错。配置文件:mapred-site.ml<configuration> <property> <name>mapreduce.framework.name</name> <value>yarn&...原创 2018-09-05 20:53:28 · 3201 阅读 · 0 评论 -
Eclipse配置hadoop的HDFS连接
启动hadoop和安装好eclipse之后,将插件拷贝到eclise安装目录中的plugins和dropins中打开eclipse,打开windows进入到perspective进入other:点击确定。点击下面的Map/Reduce Location ,再选择右边的小象图标:进入因为hadoop配置再node40,所以按如下配置:接着就可以看到了,与hdfs中...原创 2018-09-03 12:53:20 · 3879 阅读 · 0 评论 -
Hadoop中输入输出处理类介绍
MapReduce输入处理类:Filelnput Format是所有以文件作为数据源的 Inputformat实现的基类, FileinputFormat保存作为job输入的所有文件,并实现了对输入文件计算 splits f的方法。至于获得记录的方法是由不同的子类 TextlnputFormat进行实现的。InputFormat负责处理 Mapreduce的输人部分、主要个作用验证作业...原创 2018-09-08 17:56:21 · 632 阅读 · 0 评论 -
Hadoop-YARN架构技术
YARN产生的背景: 1)MapReduce1.x:单点故障,节点压力大不易扩展 ,只能运行mapreduce框架。 2)集群集成复杂,资源利用率很低(各集群资源不能共享,各集群数据要相互移动) 于是催生了YARN(各个集群的资源管理调度框架):支持不同的计算框架共享一个HDFS集群的数据,享受整体的资源调度,提高了集群资源利用率。YARN...原创 2018-09-05 16:02:56 · 556 阅读 · 0 评论 -
Hadoop数据类型和序列化
Hadoop中的java基本类型都是通过实现Writeable接口:BooleanWirteable,ByteWirteable,IntWirteable, VintWirteable,FloatWirteable,LongWirteable,DoubleWirteable。Hadoop序列化机制和Java的不同,java序列化是不断创建对象,Hado...原创 2018-09-08 16:28:49 · 416 阅读 · 0 评论 -
搭建Hive集群
将下载后的hive包解压到相应目录改名:下载地址:https://mirrors.cnnic.cn/apache/hive配置文件改名:[yexin@node78 conf]$ mv beeline-log4j2.properties.template beeline-log4j2.properties[yexin@node78 conf]$ mv hive-env.sh.tem...原创 2018-07-15 17:14:47 · 3414 阅读 · 0 评论 -
Hbase的体系知识及zookeeper搭建hbase集群
集群下的hbase安装见:https://blog.csdn.net/qq_25948717/article/details/80718580vim hbase-env.sh做如下修改:export HBASE_MANAGES_ZK=falseexport JAVA_HOME=/usr/local/jdk1.8.0_172--------------...原创 2018-07-14 22:35:53 · 2215 阅读 · 0 评论 -
Eclipse创建hadoop项目步骤
打开eclipse,创建java项目,选中hadoop工程,右键单击创建folder,输入lib:在命令行下将核心包导入lib:导入hadoop-hdfs-2.8.2.jar导入hdfs下的库导入hadoop-common-2.8.2.jar导入common下的jar查看导入的jar包,修改文件所属者:单击hadoop项目,Refresh.单击hadoop,右键Build Path-->Co...原创 2018-05-23 23:46:04 · 7114 阅读 · 0 评论 -
Hadoop常见命令总结
注意:使用hadoop命令时,/ 代表是$HADOOP_HOME的目录(即HDFS文件系统的根目录),要和本地主机的/区分开。1.上传文件到hdfs系统的根目录下: hadoop fs -put filename / 查看:hadoop fs -ls / 进入到自己设置的存放data的目录,输入 ls -lrt 可以看到Block的列表信息 ...原创 2018-05-22 23:54:54 · 518 阅读 · 0 评论 -
hadoop版本YARN架构理解
YARN本质上是新一代MapRduce2.0,突破了MapReduce框架的性能瓶颈。通过YARN管理集群的资源请求,Hadoop从一个单一应用程序系统升级成为一个多应用程序的操作系统。它的基本设计思想是将MRv1中的JobTracker拆分成了两个独立的服务:一个全局的资源管理器ResourceManager和每个应用程序特有的ApplicationMaster。其中ResourceMa...原创 2018-06-03 10:43:57 · 806 阅读 · 0 评论 -
hadoop运行单词计数实例
创建文件。上传进入到运行的包目录运行包(下图表示运行成功)注意输出目录是根据自己设定的,如果在配置文件中设置为/tmp,则后面必须是/tmp,当/tmp已经存在时,删除重新建立文件按再运行。查看结果:fu:可以输出到起到目录,系统自动创建...原创 2018-06-02 18:41:03 · 1394 阅读 · 0 评论 -
Centos安装Eclipse的hadoop插件(Hadoop开发)
首先下载eclipse:http://www.eclipse.org/downloads/packages/release/Mars/2注意不要下错了,用oxygen版的话会因为gtk+版本过低无法打开eclipse解压到安装目录(自己定)后,将插件拷贝到eclipse/plugins 和eclipse/dropins里面:运行eclipse/eclipse就可以了,点击NEW-Project看...原创 2018-05-22 13:06:04 · 1892 阅读 · 0 评论 -
Eclipse下创建hadoop项目-----创建HDFS文件和上传资源至HDFS
打开Eclipse,新建java project,将相关的hadoop包导入lib,具体方法见:https://blog.csdn.net/qq_25948717/article/details/80428129选中lib下的所有jar包,右键,Add to Build Path,即可把所有jar包添加到path环境中,Reference中可以看到。创建com.hdfs包,新建mkdirHdfsF...原创 2018-05-25 23:24:54 · 5694 阅读 · 0 评论 -
Hadoop集群启动后在网页无法看到DataNode信息
问题描述:node82作为namenode节点,node81,node80,node79作为datanode,jps显示都是启动的,可以登陆网页却看不到 datanode节点信息。 网页显示: 各节点之间都可以ping解决方案: ...原创 2018-05-15 13:40:29 · 13301 阅读 · 1 评论 -
查看整个Hadoop集群的进程
hadoop集群工作状态查询时,需要ssh在每台机器上进行jps。可以使用了脚本查看集群各机器工作状态,比之前来回切换方便很多。以下是针对我个人搭建hadoop集群,具体业务需要具体分析。查看hadoop集群工作脚本#!/bin/bash #我们将脚本存入在node82,因为它有到node81,node80,node79的免登录 clear for ip in node82 node81...原创 2018-05-15 13:22:05 · 9097 阅读 · 0 评论 -
Hadoop中RPC机制实现(源码)
RPC(Remote Proceduce Call):远程过程调用协议(通过网络从远程计算机程序上请求服务,不需要了解底层网络技术的协议),RPC假定某些传输协议的存在,例如TCP或UDP,RPC采用客户机/服务器模式。请求程序就是一个客户机,而服务提供程序就是一个服务器。 具体过程:首先,客户机调用进程发送一个有进程参数的调用信息到服务器进程,然后等待应答信息。在服务器端,进程保持睡眠状态直...原创 2018-05-25 00:54:00 · 410 阅读 · 0 评论 -
大数据的内涵理解
大数据内涵:大数据是未来的钻石矿和新石油,一个国家拥有数据的规模和运用数据的能力成为综合国力的重要 组成部分,对数据的占有和控制也成为国家间和企业间新的争夺点。大数据并不是指大规模数据,而是海量数据和大数据处理技术的结合。大数据是融合物理世界、信息空间和人类社会三元 世界的 纽带。大数据的出现依赖集成电路技术和网络技术的发展,前者为大数据的产生和处理提供计算能力, 后者为大...原创 2018-05-20 15:18:17 · 5672 阅读 · 0 评论