大数据
SWEENEY_HE
hold on
展开
-
centOs安装并使用mongodb 【国内镜像版】
一、安装1.使用yum安装RHEL/CentOS 用户新建 /etc/yum.repos.d/mongodb.repo,内容为:[mongodb-org]name=MongoDB Repositorybaseurl=https://mirrors.tuna.tsinghua.edu.cn/mongodb/yum/el$releasever/gpgcheck=0enabled=1...原创 2020-04-10 21:15:58 · 1927 阅读 · 0 评论 -
hadoop高可用namenode均处于standby状态
一、问题:hadoop高可用namenode均处于standby状态二.可能的解决方法1.几台节点的时间不同步,差值超过了35s(1) 解决方法:安装时间同步服务 ntpdate1.安装ntpdate服务 yum install ntpdate2.配置时间服务器 ntpdate ntp服务器地址(如:ntpdate s1a.time.edu.cn)(2) 国内常用时间服务器...原创 2020-03-25 16:56:42 · 1614 阅读 · 0 评论 -
spark RDD踩坑全集--不定时更新
一、算子合集二、RDD与DataFrame之间的转换三、RDD泛型转换问题1.RDD[ Iterable[ T ] ] =>RDD[ T ]场景: 对RDD[T] 进行groupBy分组处理后需要还原成RDD[T](实际上应该是Rdd[Int,Iterable[T])这里只考虑核心问题代码:val rdd:RDD[Iterable[T]]val transRdd:Rdd...原创 2020-03-01 23:58:15 · 447 阅读 · 0 评论 -
spark 报错:java.lang.IllegalArgumentException: requirement failed: init value should = bound 解决
spark 逻辑回归报错:Exception in thread "main" java.lang.IllegalArgumentException: requirement failed: init value should <= bound at scala.Predef$.require(Predef.scala:219) at breeze.optimize.StrongWol...原创 2020-02-15 22:23:42 · 3491 阅读 · 0 评论 -
hadoop高可用+spark集群虚拟机OVF镜像文件分享
author:SweeneyHedate: 28/1/2020version:1.0description:本文件中的OVF文件由vmware pro 12.创建,需导入vmware进行使用,如需其他虚拟机软件版本可自行搜索转换方式.本集群含4个结点, node0001,node0002,node0003,node0004搭建了hadoop HA(高可用)、mapreduce、yarn...原创 2020-01-28 11:04:29 · 1552 阅读 · 3 评论 -
idea配置scala 出现java.lang.ClassNotFoundException: xxx.xxx.scala
1.问题配置scala时,命令行能正常执行scala代码,idea无法运行报找不到主类错误2.可能的解决方法1.查看project structure -> project,module,libaries等,是否配置好环境(注意scala版本与java版本是否兼容,一台电脑可能存在多个版本的jdk所以可能出现这个问题。博主使用scala 2.10.4与java 1.7可以正常运行)2...原创 2020-01-21 21:51:14 · 2166 阅读 · 0 评论 -
停止一下或多个进程以继续安装 vmware-vmx.exe 问题解决
1.起因:用vmware大虚拟机做大数据集群经常出现某个虚拟机起不来,还导致vmware无法关闭(提示某某虚拟机繁忙)。经网友提示,升级到15 pro可以解决。2.下载安装包安装时提示标题所示错误:停止一下或多个进程以继续安装 vmware-vmx.exe 问题解决通过多种手段都无法停止上述进程,本想卸载旧版本,发现卸载程序附带修复功能,经修复后成功安装新版本。3.解决方法:在控制面板...原创 2020-01-19 13:42:00 · 15640 阅读 · 6 评论 -
【hadoop 03】mapreduce-TF-IDF案例
一、TF-IDF介绍 TF-IDF全称为term frequency inverse document frequency 词频逆文本指数,是一种用于信息检索与数据挖掘的常用加权技术。TF_IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降...原创 2019-12-02 21:56:44 · 350 阅读 · 0 评论 -
【hadoop 0】下常用命令与web界面路径
一、linux下Hadoop常用命令1.启动/停止zookeeper:zkServer.sh start/stop2.快速启动/停止MapReduce集群:start-all.sh/stop-all.sh //只需在任意namenode上输入即可3.查看日志:haddop fs -ls4.上传文件:hadoop hdfs -put p1 p2 //p1:本地路径,p2:...原创 2019-12-02 12:44:03 · 281 阅读 · 0 评论 -
【hadoop 0n】——MapReudce计算过程以温度统计为例
一、MapReduce主要流程 概述:MapReduce计算模式将数据的计算过程分为两个阶段即Map和Reduce分别对应两个处理函数:map和reduce。map阶段过滤和转换数据(转换原始key和value值,将一定数量的具有相同key的value合并在一组中,按照key,values的形式传递给reduce进行处理)。reduce阶段处理map阶段的输出数据。迭代values,将...原创 2019-10-21 19:47:06 · 525 阅读 · 0 评论 -
【hadoop 01】——入门
一、hadoop简介 1.历史 2004年,Apache在google的云计算系统GFS的基础上编写的一个分布式计算框架,经过不断地发展完善形成了今天的hadoop 2.功能 hadoop是一个能够对大数据进行可靠的分布式处理的可扩展开源软件框架,应用于大量低成本计算机构成的分布式运算环境。在确保容错能力的情况下,依然能够以并行的方式工作,极大地加快了计算速度。...原创 2019-10-19 21:35:31 · 261 阅读 · 0 评论