![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Hadoop
斯特凡今天也很帅
这个作者很懒,什么都没留下…
展开
-
JAVA实现HDFS文件夹目录下文件的解压缩
java解压缩HDFS文件夹目录下文件原创 2022-08-16 18:25:44 · 1218 阅读 · 0 评论 -
HDFS追加文件内容和覆盖文件的命令示例
准备工作追加覆盖原创 2022-06-07 17:37:18 · 4230 阅读 · 0 评论 -
HDFS安全模式报错
首先推一个很全面的博文https://blog.csdn.net/m0_67391120/article/details/123935643查看hdfs文件时报错hadoop fs -cat /home/de_ipl/test.csv22/04/11 10:58:07 INFO retry.RetryInvocationHandler: org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.ipc.RetriableException):原创 2022-04-11 11:36:45 · 1003 阅读 · 0 评论 -
离线数据分析平台——用户兴趣取向分析(1)
一、主要流程整个项目的整体内容如下1.首先将日志文件(csv)通过flume写入到卡夫卡和hdfskafka 到数据转换到卡夫卡二、数据先进kafka 在进行数据转换 还是直接进kafka进行转换的三、ooize四、特征和模型是啥意思提到特征和模型,就需要提到人工智能于机器学习,所谓机器学习,就是通过大量的数据训练,让机器能承担部分人的工作;五、机器学习项目的流程:六 kafka API...原创 2021-01-25 22:32:19 · 390 阅读 · 3 评论 -
如何使用zeppelin进行数据分析
spark官方文档:http://spark.apache.org/docs/2.2.0/api/scala/index.html#org.apache.spark.sql.Column一、数据导入建议预先下载一个文件拖拽上传的软件yum -y installl lrzsz1.在hadoop目录下执行,从本地(windows)上传user.csv文件到虚拟机2.查看hdfs目录hdfs dfs -ls /3.递归创建目录hdfs dfs -mkdir -p /events/users原创 2021-01-19 22:39:21 · 324 阅读 · 0 评论 -
搭建Hadoop高可用环境
说明: 以下操作三台(nodeone,nodetwo,nodethree)同步操作1.解压hadoop压缩包[root@nodetwo install]# tar -zxvf hadoop-2.6.0-cdh5.14.2.tar.gz 2.重命名[root@nodetwo install]# mv hadoop-2.6.0-cdh5.14.2 hadoop[root@nodetwo install]# ll总用量 423732drwxr-xr-x 14 1106 4001 241原创 2021-01-13 23:31:50 · 88 阅读 · 0 评论 -
sqoop搭建与使用
写在前面:安装sqoop的前提是已经具备Java和Hadoop、Zookeeper、MySQL的环境,如何往Hive和HBase导入数据,应具备相关Hive、HBase环境。(1)将sqoop-1.4.6-cdh5.14.2.tar.gz压缩包放到/opt/software/目录下[root@nodefour ~]# cd /opt/software/[root@nodefour software]# ll总用量 1684240-rw-r--r-- 1 root root 433895552 1原创 2020-12-21 16:45:51 · 156 阅读 · 0 评论 -
Hadoop专栏(七)Mapreduce回顾
Mpa阶段Reduce阶段数据倾斜问题1.数据侵袭呃——某一个区域的数据量要远远大于其他区域数据大小倾斜——部分记录的大小远远小于平均值2.如何收集倾斜数据在reduce方法中加入记录map输出键的详细情况的功能减少数据倾斜的方法1.抽样和范围分区可以通过对原始数据进行抽样得到的结果2.自定义分区基于输出键值的背景知识进行自定义分区。例如,如果map输出键的单词来源于一本书。且其中某几个专业词汇较多。那么就可以自动分区将这些专业词汇发送给固定的一部分reduce实例。而将其他的都原创 2020-12-08 14:24:50 · 86 阅读 · 0 评论 -
Hadoop专栏(十)在Redhat7.4安装CDH6.2
引用致谢:https://mp.weixin.qq.com/s?__biz=MzI4OTY3MTUyNg==&mid=2247497568&idx=1&sn=2bdfde716afca6b38910362c59af0cc1&chksm=ec292769db5eae7f6b6e02cab4c8d6891198fd90c685e226ddacda2b2b054ac86e2b93dda628&mpshare=1&scene=1&srcid=&pas原创 2020-12-04 12:17:40 · 114 阅读 · 0 评论 -
Hadoop专栏(九)Yarn的SHELL命令和Hadoopuoye调度器
一、Yarn的SHELL命令任务管理显示运行的应用程序yarn -application -list杀死正在运行的任务yarn application -kill 任务id节点管理查看节点列表yarn node -list查看节点状态yarn node -status 节点ID二、Hadoop作业调度器FIFOCapacity schedulerFair具体设置可以查看yarn-default.xml文件FIFO先进先出调度器FIFO Scheduler把原创 2020-12-04 12:13:09 · 604 阅读 · 0 评论 -
Hadoop专栏(八)——Yarn
一、什么是Yarn?Yarn(Yet Another Resource Negotiator)是一个分布式资源管理系统,主要负责资源管理,任务的监控和调度分离(1)通用的资源管理系统,可为不同的应用提供统一的资源管理和调度(2)它的引用为集群在利用率、资源同一管理和数据共享等方面带来好处在Hadoop2.x版本添加YARN二、YARN的基本架构核心组件1.yarn的架构是master/slaves的主从结构master:ResourceManage——》全局资源管理器负责集群全局统一的资原创 2020-12-04 11:12:30 · 274 阅读 · 0 评论 -
Hadoop专栏(六)使用idea操作MapReduce(理论篇)
一、什么是Mapreduce?1.MapReduce是一个分布式计算框架它将大型数据操作作业分解为可以跨服务器集群并行执行的单个任务起源于Google2.适用于大规模数据处理场景每个节点处理存储在该节点的数据3.每个job包含Map和Reduce两部分二、MapReduce的组成用户编写的程序分成三个部分:Mapper、Reducer和DriverMapperMapReduce框架处理的数据格式是<K,V>键值对形式 Map端接收<K,V>键值对数据,经过处理输原创 2020-12-02 22:03:19 · 587 阅读 · 0 评论 -
Hadoop专栏(四)使用idea操作MapReduce(代码篇)
写在前面:mapreduce 任务的提交方式1. 打成JAR包,上传Linux,hadoop jar 执行2. 嵌入某个应用程序:IDE 直接提交3. local模式,在Windows上本地执行以下代码,先使用IDEA直接提交,再打包成jar包后上传Linux执行一、编写word count代码注:依赖下载的jar包的配置文件pom.xml放在文末1.驱动程序WordCountDriver.classpackage cn.kgc.wordcount;import org.apache.原创 2020-12-02 18:03:01 · 1515 阅读 · 0 评论 -
Hadoop专栏(三)HDFS客户端的shell命令行操作
一、shell命令1.命令格式在hadoop目录下hdfs dfs -cmd<args>2.使用HDFS shell处理移动通讯数据(1)创建存放数据文件的目录hdfs dfs -mkdir -p /hdfs/shellhdfs dfs -ls /hdfs/shell(2)将通讯数据上传到HDFS并查看hdfs dfs -put /home/hadoop/data/mobile.txt /hdfs/shellhdfs dfs -text /hdfs/shell/mobil原创 2020-12-01 14:30:48 · 442 阅读 · 0 评论 -
Hadoop专栏(二)配置历史服务器、日志的聚集、配置文件说明
一、配置历史服务器置史服务器可以查看MapReduce任务的详情信息,查看日志,定位错误步骤如下:1)配置mapred-site.xml[root@nodetwo logs]# cd $HADOOP_HOME/etc/hadoop[root@nodetwo hadoop]# vi mapred-site.xml <property><name>mapreduce.jobhistory.address</name><value>nodetwo:原创 2020-11-30 21:21:53 · 215 阅读 · 0 评论 -
Hadoop专区(一)在虚拟机安装Hadoop并启动HDFS并运行MapReduce程序
一、安装Hadoop添加软连接[root@nodetwo software]# cd /opt/install/[root@nodetwo install]# ln -s hadoop-2.6.0-cdh5.14.2/ hadoop修改成功[root@nodetwo install]# cd hadoop[root@nodetwo hadoop]# pwd/opt/install/hadoop配置Hadoop环境变量[root@nodetwo hadoop]# vi /etc/prof原创 2020-11-30 14:43:31 · 2410 阅读 · 0 评论