探索大数据
文章平均质量分 84
人生苦短@我用python
人生苦短 我用python
展开
-
大数据期末总结
大数据是指数据规模大,尤其指因为数据形式多样、非结构化特征明显,导致数据存储、处理和挖掘异常困难的那类数据集。大数据太深奥了,还需要花更多的时间去摸索,虽然这学期讲的都是基础,但是想要掌握更多的大数据知识,需要自己花更多的时间去学习大数据。原创 2022-12-20 21:17:49 · 4125 阅读 · 0 评论 -
MapReduce案列-数据去重
数据去重主要是为了掌握利用并行化思想来对数据进行有意义的筛选,数据去重指去除重复数据的操作。在大数据开发中,统计大数据集上的多种数据指标,这些复杂的任务数据都会涉及数据去重。原创 2022-12-19 10:00:00 · 3690 阅读 · 2 评论 -
探索MapReduce
TopN分析法是指从研究对象中按照某一个指标进行倒序或正序排列,取其中所需的N个数据,并对这N个数据进行重点分析的方法。原创 2022-12-18 09:45:00 · 342 阅读 · 0 评论 -
使用java访问HDFS
在resources目录里创建log4j.properties文件。命令重复执行,不会失败,只是不断改变该文件的时间戳。文件,有点类似于Hadoop Shell里执行。创建Maven项目 - HDFSDemo。在Hadoop WebUI界面查看。利用Hadoop WebUI查看。已经存在,此时会提示用户创建失败。在HDFS Shell里利用。目录里确实创建了一个0字节的。命令的效果,但是有一点不同,单击【Create】按钮。(Maven仓库)-命令可以创建时间戳文件。原创 2022-12-17 20:21:06 · 1463 阅读 · 0 评论 -
Linux-Hadoop集群测试
通过UI界面可以方便地进行集群的管理和查看,只需要在本地操作系统的浏览器输入集群服务的IP和对应的端口号即可访问。文件里IP与主机名的映射,现在只能通过IP地址加端口号的方式访问:`http://192.168.1.101:9870。在HDFS上创建一个目录·BigData·,既可以在WebUI上创建,也可以通过shell命令创建。(注意:每次运行同一个应用,应用标识会发生变化),查看应用的运行详情。单击导航条上的【Datanodes】,查看数据节点信息。文件,增加hadoop集群主机名与IP地址的映射。原创 2022-12-02 08:30:00 · 2463 阅读 · 2 评论 -
Linux-Hadoop集群配置
一个名称节点(namenode)——老大,在master虚拟机上;三个数据节点(datanode)——小弟,在master、slave1与slave2虚拟机上。查看slave1和slave2上的进程,只有NodeManager和DataNode。可以不用设置名称节点的目录、数据节点的目录以及辅助名称节点。在slave1虚拟机上查看分发的hadoop。在slave2虚拟机上查看分发的hadoop。)在master虚拟机上,三个节点管理器(查看master虚拟机上的进程。查看slave1虚拟机上的进程。原创 2022-11-30 19:18:50 · 1491 阅读 · 1 评论 -
Linux-Hadoop部署
在伪分布式模式下, Hadoop程序的守护进程都运行在一台节点上,该模式主要用于调试Hadoop分布式程序的代码,以及程序执行是否正确。在完全分布式模式下,Hadoop的守护进程分别运行在由多个主机搭建的集群上,不同节点担任不同的角色,在实际工作应用开发中,通常使用该模式构建企业级Hadoop系统。由于Hadoop是由Java语言开发的,Hadoop集群的使用依赖于Java环境,因此安装Hadoop集群之前,需要先安装并配置好JDK。(-r:recursive - 递归)在配置Hadoop时,常用的就是。原创 2022-11-30 19:13:07 · 1059 阅读 · 0 评论 -
ssh免密登陆
服务器使用公钥对用户发来的加密字符串进行解密,得到的解密字符串如果与第一步中发送给客户端的随机字符串一样,那么判断为登录成功。ssh密钥登录比密码登录安全,主要是因为他使用了非对称加密,登录过程中需要用到密钥对。用户收到远程服务器发来的字符串,使用与远程服务器公钥配对的私钥对字符串进行加密,再发送给远程服务器。远程服务器持有公钥,当有用户进行登录,服务器就会随机生成一串字符串,然后发送给正在进行登录的用户。上传到OpenStack后,主机名会自动添加.novalocal后缀,导致免密登录失效。原创 2022-11-27 19:45:54 · 1778 阅读 · 0 评论 -
Linux登陆配置虚拟机
由普通用户切换到根用户,再由根用户切换到普通用户,注意:从普通用户切换到根用户,需要输入根用户密码,但是从根用户切换到普通用户,就不需要输入密码。注意,IPADDR=192.168.1.100,第三节是1,跟虚拟网络编辑器里设置的网段必须保持一致。执行命令:ping www.baidu.com,可以看到是无法访问外网的。以根用户(超级管理员)登录(输入用户名root和密码[不可见])可以看到,虚拟机设置了静态IP地址,就能够访问外网了。输入用户名和密码,登录虚拟机。重启虚拟机,以根用户登录。原创 2022-11-25 08:15:00 · 4752 阅读 · 0 评论 -
LinuxHadoop环境
关闭CentOS 7虚拟机,在VMware工具左侧系统资源库中右键单击CentOS 7,选择“管理”列表下的“克隆”选项,弹出克隆虚拟机向导。slave2虚拟机可以通过主机名来ping通master虚拟机、slave1虚拟机和slave2虚拟机。slave1虚拟机可以通过主机名来ping通master虚拟机和slave1虚拟机。master虚拟机可以通过主机名来ping通slave1虚拟机和slave2虚拟机。master虚拟机可以通过主机名来ping通slave1虚拟机。,查看设置的静态IP地址。原创 2022-11-24 08:00:00 · 1374 阅读 · 1 评论 -
Linux利用FinalShell访问虚拟机
FinalShell是一款专业优秀、功能强大且简单易用的网络服务管理软件。FinalShell作为一款远程终端模拟软件,其基于Java开发,代替了老款软件的使用,能让用户在终端传输时更便捷。shell和sftp能同屏显示在FinalShell上,同步切换。FinalShell还带有命令自动提示。1.1在这里👉👈,这里是1.2。原创 2022-11-23 08:38:15 · 2964 阅读 · 2 评论 -
Linux目录操作
学习目标:1、了解文件目录权限。2、掌握文件目录权限操作。3、熟悉常用文件目录操作。原创 2022-10-02 20:36:59 · 270 阅读 · 0 评论 -
Linux用户操作
1、用户账号管理 2、用户操作原创 2022-09-21 21:03:31 · 253 阅读 · 0 评论