大数据技术
文章平均质量分 51
无
Xiaoweidumpb
这个作者很懒,什么都没留下…
展开
-
Hadoop安装jdk和mysql
该内容来源 黑马史上最全面的hadoop入门,根据讲义理解修改。1:三台机器安装jdk1.1 查看自带的openjdk并卸载rpm -qa | grep javarpm -e java-1.6.0-openjdk-1.6.0.41-1.13.13.1.el6_8.x86_64 tzdata-java-2016j-1.el6.noarch java-1.7.0-openjdk-1.7.0.131-2.6.9.0.el6_8.x86_64 --nodeps1.2 创建安装目录mkdir -p.原创 2020-10-14 08:25:22 · 138 阅读 · 0 评论 -
Hadoop-jdk和mysql安装
1:三台机器安装jdk####1.1 查看自带的openjdk并卸载rpm -qa | grep javarpm -e java-1.6.0-openjdk-1.6.0.41-1.13.13.1.el6_8.x86_64 tzdata-java-2016j-1.el6.noarch java-1.7.0-openjdk-1.7.0.131-2.6.9.0.el6_8.x86_64 --nodeps####1.2 创建安装目录mkdir -p /export/softwares #软件包存放目录原创 2020-10-14 08:42:01 · 107 阅读 · 0 评论 -
ssh:connect to host master port 22:Network is unreachable
原先虚拟机、hadoop正常使用,使用VM挂起虚拟机之后连接不上ssh,hadoop进程无法关闭,检查systemctl status sshd.service 正常使用,原先正常使用,所以先重启试试解决方案:进入每一个节点,输入hadoop关闭命令,sudo reboot 让linux重启后又正常使用了,...原创 2021-11-10 10:48:49 · 4865 阅读 · 0 评论 -
hadoop日常启动
/export/servers/zookeeper-3.4.9/bin/zkServer.sh start/export/servers/hadoop-2.7.5/sbin/start-dfs.sh/export/servers/hadoop-2.7.5/sbin/start-yarn.sh/export/servers/hadoop-2.7.5/sbin/mr-jobhistory-daemon.sh start historyserver原创 2020-10-19 19:02:08 · 85 阅读 · 0 评论 -
hadoop环境配置启动
hadoop1.x 框架文件系统核心模块NameNode:集群当中的主节点,管理元数据文件的大小,文件的位置,文件的权限,主要用于管理集群当中的各种数据SecondaryNameNode:主要用于hadoop当中元数据信息的辅助管理DataNode:集群当中的从节点,主要用于存储集群当中的各种数据JobTracker:接受用户的计算请求任务,并分配任务从节点TaskTracker:负责执行主节点JobTracker分配的任务hadoop 2.x框架ResourceManager:接受用原创 2020-10-14 19:57:21 · 353 阅读 · 0 评论 -
hadoop求共同好友案例
4.1 需求分析以下是qq的好友列表数据,冒号前是一个用户,冒号后是该用户的所有好友(数据中的好友关系是单向的)A:B,C,D,F,E,OB:A,C,E,KC:A,B,D,E,I D:A,E,F,LE:B,C,D,M,LF:A,B,C,D,E,O,MG:A,C,D,E,FH:A,C,D,E,OI:A,OJ:B,OK:A,C,DL:D,E,FM:E,F,GO:A,H,I,J求出哪些人两两之间有共同好友,及他俩的共同好友都有谁?4.2 实现步骤第一步:代码实现Mappe原创 2020-10-26 08:40:28 · 505 阅读 · 1 评论 -
Hadoop-Zookeeper环境配置
6: Zookeeper安装集群规划服务器IP主机名myid的值192.168.174.100node011192.168.174.110node022192.168.174.120node033第一步:下载zookeeeper的压缩包,下载网址如下http://archive.apache.org/dist/zookeeper/我们在这个网址下载我们使用的zk版本为3.4.9下载完成之后,上传到我们的linux的/export/software原创 2020-10-14 08:40:24 · 260 阅读 · 0 评论 -
hadoop压力测试与命令
HDFS的命令行使用1.ls格式:hdfs dfs -ls URL作用:类似linux的ls命令,显示文件列表hdfs dfs -ls /2.lsr格式:hdfs dfs -lsr URL作用:在整个目录下递归执行ls,与linux中的ls-R类似hdfs dfs -lsr /3.mkdir格式:hdfs dfs [-p] -mkdir 作用:以中的URL作为参数,创建目录、使用-p参数可以递归创建目录hdfs dfs -mkdir /dir1#dir9999不存在h原创 2020-10-17 11:55:51 · 646 阅读 · 0 评论 -
MapReduce工作机制-全流程
1 .MapReduce的运行机制详解整个Map阶段流程大体如上图所示。简单概述:inputFile通过split被逻辑切分为多个split文件,通过Record按行读取内容给map(用户自己实现的)进行处理,数据被map处理结束之后交给OutputCollector收集器,对其结果key进行分区(默认使用hash分区),然后写入buffer,每个map task都有一个内存缓冲区,存储着map的输出结果,当缓冲区快满的时候需要将缓冲区的数据以一个临时文件的方式存放到磁盘,当整个map task结.原创 2020-10-25 08:13:25 · 368 阅读 · 0 评论 -
hive安装配置和操作命令
数据仓库-Hive1. 数据仓库1.1. 基本概念英文名称为Data Warehouse,可简写为DW或DWH。数据仓库的目的是构建面向分析的集成化数据环境,为企业提供决策支持(Decision Support)。数据仓库是存数据的,企业的各种数据往里面存,主要目的是为了分析有效数据,后续会基于它产出供分析挖掘的数据,或者数据应用需要的数据,如企业的分析性报告和各类报表等。可以理解为:面向分析的存储系统。1.2. 主要特征数据仓库是面向主题的(Subject-Oriented )、集成的(In原创 2020-11-01 10:12:57 · 525 阅读 · 1 评论 -
hadoop-MapReduce案例流量统计+分区
step1:建立Partionpackage flow_count_partion_demo03;import org.apache.hadoop.io.Text;import org.apache.hadoop.mapreduce.Partitioner;public class FlowCountPartion extends Partitioner<Text,FlowBean> { /*该方法指定分区规则 * 135 号码分区 * 136 *原创 2020-10-24 22:33:18 · 346 阅读 · 0 评论 -
hdfs的API操作
1.1 配置Windows下Hadoop环境在windows系统需要配置hadoop运行环境,否则直接运行代码会出现以下问题:缺少winutils.exeCould not locate executable null \bin\winutils.exe in the hadoop binaries 缺少hadoop.dllUnable to load native-hadoop library for your platform… using builtin-Java classes wher原创 2020-10-18 19:54:46 · 302 阅读 · 0 评论 -
Map端join操作
Reduce端join操作问题Map端join操作3.1 概述 适用于关联表中有小表的情形. 使用分布式缓存,可以将小表分发到所有的map节点,这样,map节点就可以在本地对自己所读到的大表数据进行join并输出最终结果,可以大大提高join操作的并发度,加快处理速度....原创 2020-10-25 17:05:49 · 580 阅读 · 3 评论 -
hadoop-腾讯云安装
1.那个进程没启动看,相应的logs日记2.将hosts 映射成内网地址3.网卡的hostname 不会马上修改,需要重启网卡。原创 2020-12-08 21:59:14 · 194 阅读 · 0 评论 -
centos7 hadoop3.x虚拟机配置
su rootvi /etc/sysconfig/network-scripts/ifcfg-ens33vi /etc/hostnamehadoop100vi /etc/hostCentos 7最小化系统安装设置IP(ifconfig命令)https://www.cnblogs.com/karen-ran/p/9497118.html原创 2021-11-05 18:31:47 · 1051 阅读 · 0 评论 -
hadoop-MapReduce分区
#####Step 1. 定义 Mapper这个 Mapper 程序不做任何逻辑, 也不对 Key-Value 做任何改变, 只是接收数据, 然后往下发送public class MyMapper extends Mapper<LongWritable,Text,Text,NullWritable>{ @Override protected void map(LongWritable key, Text value, Context context) throws IOExc原创 2020-10-22 20:01:56 · 387 阅读 · 0 评论 -
hadoop-MapReduce案例流量统计
MapReduce案例-流量统计需求一: 统计求和统计每个手机号的上行数据包总和,下行数据包总和,上行总流量之和,下行总流量之和分析:以手机号码作为key值,上行流量,下行流量,上行总流量,下行总流量四个字段作为value值,然后以这个key,和value作为map阶段的输出,reduce阶段的输入...原创 2020-10-22 19:52:47 · 723 阅读 · 0 评论 -
hadoop查看版本
查看linux系统uname -rcd hadoop-2.7.3/lib/native/file libhadoop.so.1.0.0原创 2020-10-26 14:25:39 · 1074 阅读 · 0 评论 -
resourcemanager启动失败,别的节点成功
2021-11-07 20:06:23,347 FATAL org.apache.hadoop.yarn.server.resourcemanager.ResourceManager: Error starting ResourceManagerorg.apache.hadoop.yarn.webapp.WebAppException: Error starting http server at org.apache.hadoop.yarn.webapp.WebApps$Builder.s原创 2021-11-07 20:13:54 · 2153 阅读 · 0 评论 -
zookeeper的javaAPI操作
zookeeper的javaAPI操作 <!--<repositories> <repostitory> <id>cloudera</id> <url>https://repository.cloudera.com/artifactory/cloudera-repos/ </url> </repostitory> </re原创 2020-10-12 17:35:57 · 343 阅读 · 1 评论 -
hadoop-自定义分组求取topN
3. 自定义分组求取topN分组是mapreduce当中reduce端的一个功能组件,主要的作用是决定哪些数据作为一组,调用一次reduce的逻辑,默认是每个不同的key,作为多个不同的组,每个组调用一次reduce逻辑,我们可以自定义分组实现不同的key作为同一个组,调用一次reduce逻辑3.1 需求有如下订单数据订单id商品id成交金额Order_0000001Pdt_01222.8Order_0000001Pdt_0525.8Order_00000原创 2020-10-28 22:35:27 · 307 阅读 · 0 评论 -
hadoop-MapReduce案例流量统计+排序
MapReduce案例流量统计原创 2020-10-22 21:08:02 · 540 阅读 · 0 评论 -
Hadoop-搭建虚拟机网络
集群Linux环境搭建1:注意事项#### 1.1 windows系统确认所有的关于VmWare的服务都已经启动####1.2 确认好VmWare生成的网关地址####1.3 确认VmNet8网卡已经配置好了IP地址和DNS2:复制虚拟机 2.1 将虚拟机文件夹复制三份,并分别重命名, 并使用VM打开重命名3.1 集群规划IP主机名环境配置安装192.168.174.100node01关防火墙和selinux, host映射, 时钟同步JDK,原创 2020-10-14 08:05:59 · 251 阅读 · 0 评论 -
1.Hadoop网络配置
集群Linux环境搭建1:注意事项1.1 windows系统确认所有的关于VmWare的服务都已经启动1.2 确认好VmWare生成的网关地址####1.3 确认VmNet8网卡已经配置好了IP地址和DNS2:复制虚拟机 2.1 将虚拟机文件夹复制三份,并分别重命名, 并使用VM打开重命名3.1 集群规划IP主机名环境配置安装192.168.174.100node01关防火墙和selinux, host映射, 时钟同步JDK, NameNode,原创 2020-10-14 08:47:59 · 1880 阅读 · 0 评论 -
自定义InputFormat和OutputFormat
1. 自定义InputFormat合并小文件1.1 需求无论hdfs还是mapreduce,对于小文件都有损效率,实践中,又难免面临处理大量小文件的场景,此时,就需要有相应解决方案1.2 分析小文件的优化无非以下几种方式:1、 在数据采集的时候,就将小文件或小批数据合成大文件再上传HDFS2、 在业务处理之前,在HDFS上使用mapreduce程序对小文件进行合并3、 在mapreduce处理时,可采用combineInputFormat提高效率1.3 实现本节实现的是上述第二种方式程原创 2020-10-28 20:13:21 · 231 阅读 · 0 评论 -
ERROR sqoop.Sqoop: Got exception running Sqoop: java.lang.RuntimeException: Could not load db drive
问题:2021-11-07 09:57:27,193 ERROR sqoop.Sqoop: Got exception running Sqoop: java.lang.RuntimeException: Could not load db driver class: com.mysql.jdbc.Driverjava.lang.RuntimeException: Could not load db driver class: com.mysql.jdbc.Driverat org.apache.sq原创 2021-11-07 10:12:00 · 4049 阅读 · 0 评论 -
hadoop-MapReduce 排序和序列化
MapReduce 排序和序列化序列化 (Serialization) 是指把结构化对象转化为字节流反序列化 (Deserialization) 是序列化的逆过程. 把字节流转为结构化对象. 当要在进程间传递对象或持久化对象的时候, 就需要序列化对象成字节流, 反之当要将接收到或从磁盘读取的字节流转换为对象, 就要进行反序列化Java 的序列化 (Serializable) 是一个重量级序列化框架, 一个对象被序列化后, 会附带很多额外的信息 (各种校验信息, header, 继承体系等), 不便于原创 2020-10-21 12:44:09 · 266 阅读 · 0 评论 -
hadoop编程流程
原创 2020-10-21 19:29:59 · 185 阅读 · 0 评论 -
Reduce 端实现 JOIN
2.1. 需求假如数据量巨大,两表的数据是以文件的形式存储在 HDFS 中, 需要用 MapReduce 程序来实现以下 SQL 查询运算select a.id,a.date,b.name,b.category_id,b.price from t_order a left join t_product b on a.pid = b.id商品表idpnamecategory_idpriceP0001小米510002000P0002锤子T1100030.原创 2020-10-25 10:59:12 · 141 阅读 · 0 评论 -
hadoop-wordcount
1. MapReduce 介绍MapReduce思想在生活中处处可见。或多或少都曾接触过这种思想。MapReduce的思想核心是“分而治之”,适用于大量复杂的任务处理场景(大规模数据处理场景)。Map负责“分”,即把复杂的任务分解为若干个“简单的任务”来并行处理。可以进行拆分的前提是这些小任务可以并行计算,彼此间几乎没有依赖关系。Reduce负责“合”,即对map阶段的结果进行全局汇总。MapReduce运行在yarn集群ResourceManagerNodeManager这两个阶段原创 2020-10-18 20:02:24 · 154 阅读 · 0 评论 -
hbase shell出现error: KeeperErrorCode = NoNode for /hbase/master
发现过程hbase shell 能够正常打开,而网页进入不了。在shell 中输入 list报错误 出现error: KeeperErrorCode = NoNode for /hbase/master经过很长时间找问题。。jps发现 HMaster 没有启动,因为进程太多一直都没注意到。搜索HMaster启动失败原因,得出原因 Hbase端口配置错误hadoop 端口过多,又忘记当初配置的端口在hadoop网页端查看 hdfs的端口 知道自己的端口 8020修改/hbase-2原创 2020-11-16 14:39:39 · 2512 阅读 · 0 评论 -
hadoop-规约(combiner)
规约Combiner** 概念**每一个 map 都可能会产生大量的本地输出,Combiner 的作用就是对 map 端的输出先做一次合并,以减少在 map 和 reduce 节点之间的数据传输量,以提高网络IO 性能,是 MapReduce 的一种优化手段之一combiner 是 MR 程序中 Mapper 和 Reducer 之外的一种组件combiner 组件的父类就是 Reducercombiner 和 reducer 的区别在于运行的位置Combiner 是在每一个 maptask原创 2020-10-21 20:30:35 · 621 阅读 · 0 评论 -
python-hadoop 运行爬虫?
sh先用cat 运行python 检查代码没有问题其他节点需要安装python3和相应的库HADOOP_CMD="/hadoop/hadoop-2.9.2/bin/hadoop" # hadoop的bin的路径STREAM_JAR_PATH="/hadoop/hadoop-2.9.2/share/hadoop/tools/lib/hadoop-streaming-2.9.2.jar" ## streaming jar包的路径INPUT_FILE_PATH="/weimingzhong/t_原创 2020-12-10 00:11:22 · 453 阅读 · 1 评论 -
hadoop-yarn资源调度
1.yarn的介绍: yarn是hadoop集群当中的资源管理系统模块,从hadoop2.0开始引入yarn模块,yarn可为各类计算框架提供资源的管理和调度,主要用于管理集群当中的资源(主要是服务器的各种硬件资源,包括CPU,内存,磁盘,网络IO等)以及调度运行在yarn上面的各种任务。yarn核心出发点是为了分离资源管理与作业监控,实现分离的做法是拥有一个全局的资源管理(ResourceManager,RM),以及每个应用程序对应一个的应用管理器(ApplicationMaster,AM) 总原创 2020-10-30 18:54:12 · 876 阅读 · 0 评论 -
DataSphere Studio- 1.1.1 安装部署(自动化脚本)
为解决繁琐的部署流程,简化安装步骤,本脚本提供一键安装最新版本的DSS+Linkis环境;DSS1.1.1。以下版本及配置信息可参考安装程序hosts文件中的[all:vars]字段。软件名称软件版本应用路径测试/连接命令MySQLmysql-5.6JDKPythonpython -VNginx/etc/nginxnginx -tHadoopHivehive-2.3.3/opt/hiveSpark/opt/sparkdssdss-1.1.1。原创 2023-08-02 10:19:39 · 833 阅读 · 0 评论 -
DataSphere Studio - 1.1.0安装部署 (单机版)
DataSphere Studio - 1.1.0安装部署 (单机版)原创 2023-08-01 12:37:41 · 1082 阅读 · 1 评论 -
centos7开机启动脚本、启动Hadoop、Spark
【代码】centos7开机启动脚本、启动Hadoop、Spark。原创 2023-02-21 10:18:42 · 289 阅读 · 0 评论