大数据开发
文章平均质量分 98
大数据开发
陈杉菜
博客内容基本上是课程作业和脆弱的心路历程,做毕设的时候应该会恢复更新(吧)
展开
-
大数据 - 大数据开发技术课程总结(未完)
1.课程介绍大数据开发课程主要从了解大数据概念、特征开始,再介绍大数据Java开发和Hadoop的环境配置,较为全面地讲解了HDFS分布式存储,MapReduce分布式计算框架,Spark平台开发和Scala编程语言.归根结底,我总结了一下本学期的大数据开发技术课程老师主要从五个方面进行了教学和指导:HDFS使用操作;MapReduce开发;Spark开发;Scala语言;大数据经典程序分析.2.系统搭建步骤3.大数据开发重要概念4.大数据开发常用方法介绍和分析5.课程过程中遇到的问原创 2021-01-20 18:24:41 · 3176 阅读 · 7 评论 -
大数据 - 第十三课 :利用WordCount生成jar包上传HDFS
在家目录下输入命令ll可以查看家目录下文件的详细信息查看HDFS目录下的文件夹新建文件夹上传文件到HDFS目录短路径:val lines=sc.textFile("/csnb/wordcount.txt")完整url(”hdfs://master:9000/csnb/wordcount.txt”)全路径打开idea,修改上节课的程序路径生成jar包,选择菜单栏中的“File”,点击“Project Structure”选择“Artifacts”选项卡在Main Class标签原创 2020-06-16 20:09:13 · 549 阅读 · 0 评论 -
大数据 - 第十二课 : idea实现wordcount程序
(关键概念)RDD操作,惰性求值/从本地文件系统中加载数据创建RDD读取文件:val lines = sc.textFile(“file:///home/cmj/student00/test/wordcount.txt”)分词:val aftermap = lines.map(x=>x.split(" "))res1: Array[String] = Array(hello world yep, hello world, hello)将分词结果转换为键值对,例(hello,3)val m原创 2020-06-12 21:29:56 · 610 阅读 · 0 评论 -
大数据 - 第十一课 : Spark惰性计算及简单实践
开源软件迭代较慢DAG:有向无环图Hadoop计算中间结果落到磁盘,内存占用小Spark惰性计算,遇到Action算子才执行,内存占用较大,资源利用率较低RDD:是Resillient Distributed Dataset(弹性分布式数据集)的简称,是分布式内存的一个抽象概念,提供了一种高度受限的共享内存模型DAG:是Directed Acyclic Graph(有向无环图)的简称,反映RDD之间的依赖关系Executor:是运行在工作节点(WorkerNode)的一个进程,负责运行Task原创 2020-06-12 21:21:46 · 1264 阅读 · 0 评论 -
大数据 - 第十课 : 机房修改hadoop有关配置
大数据第13周如果是不同的电脑,那速度就要按照最慢的来,即统一成最慢的速度。容器:解决版本依赖,用vmware来安装运行不同的版本,但是vmware是从底层硬件开始的,会消耗大量的内存,这是容器就应运而生了,即容器也是解决版本不相容的问题,软件环境的问题。这是电脑可以任意配置软件,容器较为方便,拷贝过来即可使用。内存越大,系统占用的内存也会越大,这样系统运行速度快。Linix内存够用时不杀后台,关闭程序后,程序仍然会在后台运行。这样再次打开时是从内存打开,速度很快。长效应,服务器不能关机,因为没法开原创 2020-06-01 16:05:54 · 269 阅读 · 0 评论 -
大数据 - 第九课 :物理集群的搭建
1. 物理集群的搭建开启本组所有电脑(4台),拷贝虚拟机映像,打开。在开启虚拟机之前,设置虚拟机内存是4G,网络连接是桥接模式。把桥接网卡绑定到具体的物理网卡,不要使用自动绑定。设置完成后,启动虚拟机。2. 设置网络连接编辑网络配置文件:/etc/sysconfig/network-scripts/ifcfg-ens33,IP地址设置如下:IPADDR=172.21.12. 你自己的ipPREFIX=24GATEWAY=172.21.12.254DNS1=172.16.3.83.原创 2020-05-19 10:58:42 · 781 阅读 · 0 评论 -
大数据 - 第八课 :运行wordcount程序 & scala下载解压与配置
wordcount程序的运行1.1 上传文本文件(英文)到hdfs文件系统上传文件后,可以在eclipse环境中看到路径。这些路径作为main的运行参数,需要填入configuration里。1.2设置configuration首先,eclipse的激活页面要是程序界面:在主菜单选择“Run”,然后“Run Configurations”。双击“Java Applicat...原创 2020-04-28 20:39:03 · 280 阅读 · 0 评论 -
大数据 - 第七课 :eclipse开发环境配置
eclipse开发环境配置下载,解压eclipse,验证是否能够正常运行。将hadoop-eclipse-plugin-2.6.0.jar拷贝到eclipse的dropins文件夹下。如果已经启动了eclipse,需要关闭重启eclipse。备注:应当使用hadoop2.7.7的插件,但是我没有下载到,只是上课时演示过程。1.1配置hadoop路径在主菜单上选择“window”,如下图...原创 2020-04-28 19:05:53 · 369 阅读 · 0 评论 -
大数据 - 第四课 : 虚拟机配置java&hadoop
正式被圈粉,pf老师真的很nice本来应该是课后做的老师还特地在上课之前强调了一遍上节课落下的进度,老师还(温馨)提醒我们重新验证一下有没有完成,真的很贴心欸正文开始用户名相同要求三个虚拟机的用户名相同,否则相互访问时需要使用用户名,这样集群会有问题。如要新增用户,先转换为root用户 su root ,然后执行下面的操作:添加用户 :useradd 用户名设置用户密码 :pas...原创 2020-03-25 19:47:33 · 279 阅读 · 0 评论 -
INFOmapred.ClientServiceDelegate:Application state is completed. FinalApplicationStatus=FAILED 解决方法
hadoop报错 INFOmapred.ClientServiceDelegate:Application state is completed. FinalApplicationStatus=FAILED 解决方法(这错误长到标题都写不下了55555jps发现job history service 没有启动emmm 不知道怎么回事 出现这个错误 猜想是多次重启服务 导致的???反正特奇怪的...原创 2020-04-09 15:16:33 · 721 阅读 · 0 评论 -
Hadoop 警告 : WARN hdfs.DFSClient: DataStreamer Exception org.apache.hadoop.ipc.RemoteException 解决办法
周二的晚上=素材爆棚时我…在解决这个问题的时候左弄弄右弄弄被自己解决了,详细步骤也无法给出。(报错的截图没存下来,但是由于一系列神奇的操作,文字部分保留了)根据参考和老师所说的,总结如下:看自己是否关闭防火墙了,防火墙没关可能导致这个原因(之前大概是,大数据第三节课有说过方法,可以去看一下)在core-site.xml中没有配置hadoop运行时产生的文件的存储目录如果上...原创 2020-04-09 09:51:44 · 10645 阅读 · 0 评论 -
大数据 - 第六课 : 验证Hadoop集群 & 安装eclipse
先讲废话,这个课真的是起起落落落,俩个多小时的课(没跟上一个半小时)好苦555痛并快乐着大概就是这样吧主要是pf老师还耐心分析错误就很感人(当然我也很感人,努力解决问题之后就很感动~)开始正文:启动集群 检查是否正常用命令:start-all.sh 启动集群 用jps检查进程 按照我的配置,master节点 :slave节点:如果要全面检查,需要运行mapreduce的exa...原创 2020-04-08 08:21:59 · 281 阅读 · 0 评论 -
大数据 - 第五课 :配置Hadoop集群
检查系统环境配置免密登入 → 验证java版本 → 开始下一步配置hadoop集群2.1配置环境(1)配置hadoop-env.sh找到这句,把JAVA_HOME写进来,如下图:(2)配置yarn-env.sh找到如下图位置,将JAVA_HOME变量写在if前面,例如:2.2配置核心配置文件core-site.xml(默认文件系统和hadoop的工作文件夹)<...原创 2020-04-01 00:08:09 · 180 阅读 · 0 评论 -
大数据 : CenOS7虚拟机添加新用户&给新用户增加权限
来吧,先讲下为什么要添加新用户时间倒回第三周,再要求使用ssh命令相互登入ip地址的时候出现问题,提出疑问,老师当时说的解决方法,原因好像是虚拟机权限问题,后面修改了主机名之后还是不行,还是需要 ssh 用户名@IP地址 这样才能操作这时候老师给出建议(认真听建议的我开始求助学长ing学长真是太优秀了我吹爆!!!又优秀又有耐心还不嫌弃我sha。下面是学长原话:操作截图...原创 2020-03-18 12:48:07 · 3265 阅读 · 0 评论 -
大数据 - 第三课 :Hadoop三个节点的设置和联立
话说在前面,我真的觉得这个课给我带来一种十分紧张刺激的感觉,害怕跟不上,课前准备事无巨细,pf老师安排周到得体,,耐心温柔的人真是宝贝阿(土味验证上周安装的最小安装系统打开虚拟机验证是否能够上网,查看ip地址linux系统远程使用一般服务器系统都不安装GUI,因为没有必要,而且GUI非常战役系统资源。一般情况下,Server系统都是远程是呀。如果桌面是linux或mac,可以直接ss...原创 2020-03-17 23:32:50 · 595 阅读 · 5 评论 -
大数据 - 第二课 : CentOS最小安装版 & 确定Spark、Hadoop、Java版本
安装CentOS7最小安装版这渣渣画质我吐了………………dbq看博客的各位)硬盘容量不小于30G然后是 自定义硬件设置,同上节课,按照自己电脑的规格来设置,要记得勾选“虚拟化 Intel VT-x/EPT” 或AMD-V/RVI(V)在此界面中,“SOFTWAE SELECTION”保持默认,因为默认就是最小安装安装完成后配置网络,进入/etc/sysconfig/netw...原创 2020-03-11 01:33:12 · 291 阅读 · 0 评论 -
大数据 - 第一课 : 安装CenOS7
说在前面,pf老师真的好有耐心呀,点赞。这才是猛男该有的样子。课前公告大数据,R语言,python……数据量过大(以T为单位),Hadoop平台Hadoop平台:分布式存储即HDFSMapReduce计算方法(先打散数据),流式存储方式 ,增删改查(不删不查,操作简单速度快),是覆盖的过程,64M,不需要长时间的寻址,存读都是流式的即要按顺序不能从中间开始,并不绝对,开源可设置(我们的...原创 2020-03-08 21:50:47 · 263 阅读 · 0 评论