大数据
文章平均质量分 96
关于大数据知识的分享
达娃里氏
代码尚未跑通,同志仍需努力!!!
展开
-
Spark和Scala考前三小时冲刺
一、Spark简介1、什么是Spark?(问答必考)Spark是一个快速、分布式、可扩展(随时可以进行节点的扩充)、容错(节点宕机了。那么它可以重新构建恢复这个数据)的集群计算框架。低延迟的复杂分析,因为Spark的低延迟,延迟低是因为Spark是在内存里面计算的。(Spark已经成为Apache软件基金会旗下的顶级开源项目)2、为什么要使用 Spark 替换 MapReduce?(选择可能会考)MapReudce不适合迭代和交互式任务,Spark主要为交互式查询和迭代算法设计,支持内存存储和高效的原创 2021-07-01 22:24:08 · 426 阅读 · 1 评论 -
Scala练习实例汇总和知识点思维导图
一、练习汇总练习1:val、var变量分配的区别val、var定义一些变量并分配val msg="WSN"val msg:String="Wu Shuainan"msg="Wu Shuainan"var msg="WSN"msg="Wu Shuainan"练习2:Range的操作Range的定义、类型转换成List。val l=( 1 to 5 ) by l toListList.range(1,10)练习3:位运算符位运算符(& | ^)的基本操作和方法的调用方原创 2021-07-01 19:57:21 · 1550 阅读 · 1 评论 -
CentOS7、红帽7安装NTP服务(小白也能看的懂!!!)
CentOS7或红帽7安装NTP服务(小白也能看的懂!!!)1、关于CentOS7和红帽7的说明2、什么是NTP?3、什么是时间?时间的刻度都有哪些?4、NTP服务的配置5、如果你还不懂,请看这里!!!在头条上偶然看到一篇关于超市服务器(红帽7Linux系统)同步现实时间的帖子,希望这篇博客能帮到他。1、关于CentOS7和红帽7的说明众所周知,CentOS7和红帽7都是红帽公司的,红帽7去除红帽的服务和商标后,就是CentOS7,这两个系统在架构上没太大差别。安装ntp服务的步骤没有区别。2、原创 2021-05-09 19:54:52 · 1254 阅读 · 0 评论 -
HBase知识点总结
一、HBase简介1.HBase概念HBase – Hadoop Database,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统。利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。HBase利用Hadoop HDFS作为其文件存储系统,利用Hadoop MapReduce来处理HBase中的海量数据,利用Zookeeper作为协调工具。2.HBase特点大:一个表可以有数十亿行,上百万列;无模式:每行都有一个可排序的主键和任意多的列,列可以根据需要动态的原创 2021-03-15 22:23:53 · 1790 阅读 · 0 评论 -
有趣的动物管理员(zookeeper)
profile:感谢浪潮所有老师的细心教导有趣的动物管理员(zookeeper)一、什么是zookeeper?二、zookeeper的基本服务三、zookeeper的优点是什么?四、zookeeper的节点类型五、ZooKeeper 角色:(zookeeper服务主要有两个角色leader和follower)六、zookeeper的工作原理及流程1.工作原理2.zookeeper的选举机制(选主流程)3.zookeeper的同步流程4.园长(leader)的工作流程5.解说员(follower)的工作流程原创 2020-09-07 15:48:42 · 1177 阅读 · 0 评论 -
一个爬虫的五脏六腑(从入门到入狱)
一个爬虫的五脏六腑(从入门到入狱)1.网络爬虫概念2.爬虫爬取数据的用途3.http概念4.常见http请求头5.请求方式6. 响应状态码6.urllib库7.正则表达式8.Xpath和lxml库9.requests库的使用10.理解json以及python的json库的使用11.scrapy框架1.网络爬虫概念网络爬虫就是模拟客户端(浏览器)发送网络请求,获取响应,并按照自定义的规则提取数据的程序,简单来说,就是发送与浏览器一样的请求,获取与浏览器所获取的一样的数据。2.爬虫爬取数据的用途爬虫爬取原创 2020-09-01 10:19:14 · 1213 阅读 · 0 评论 -
超有料的hadoop知识点总结
第一章1.数据量单位的换算B(Byte字节)=8bit1KB (Kilobyte 千字节)=1024B,1MB (Mega byte 兆字节 简称“兆”)=1024KB,1GB (Giga byte 吉字节 又称“千兆”)=1024MB,1TB (Tera byte 万亿字节 太字节)=1024GB,其中1024=2^10 ( 2 的10次方),1PB(Peta byte 千万亿字节 拍字节)=1024TB,1EB(Exa byte 百亿亿字节 艾字节)=1024PB,1ZB (Zetta原创 2020-07-10 11:36:15 · 856 阅读 · 0 评论 -
Spark集群Win10本地开发环境搭建
Win10 Spark集群本地开发环境搭建一、安装Java1.下载java2.安装java3.配置环境变量二、下载scala、安装Scala IDE1.下载Scala IDE2.解压zip包这里附上WIN10利用docker toolbox搭建hadoop和spark集群的方法一、安装Java1.下载javajdk1.8下载链接2.安装javaWin:双击可执行文件Linux:解压压缩包3.配置环境变量请参考菜鸟教程,这里不多介绍。二、下载scala、安装Scala IDE1.下载S原创 2020-06-16 09:09:08 · 1947 阅读 · 0 评论 -
WIN10利用docker toolbox搭建hadoop和spark集群
利用docker搭建hadoop和spark集群一、安装Docker(DockerToolbox-18.03.0-ce.exe)1.双击安装包,在安装界面勾选上Git(如果你已经有了Git就不用勾选)成功提示:原创 2020-06-15 17:58:47 · 1832 阅读 · 0 评论 -
VMware15.5 Pro安装Centos8及系统设置(全步骤)
Hadoop大数据开发入门:VMware15.5 Pro安装Centos8及系统设置一、下载Centos8镜像二、创建Centos8虚拟机三、给Centos8虚拟机安装Centos8系统四、关闭防火墙五、设置虚拟机映射六、SSH设置//本教程的虚拟机采用了NAT网络模式一、下载Centos8镜像镜像下载链接:https://pan.baidu.com/s/1q-J-s9J7RGytbDKPM96UWA提取码:fyfu二、创建Centos8虚拟机1.点击创建新的虚拟机2.选择自定义3.选择原创 2020-05-14 00:46:51 · 2265 阅读 · 0 评论 -
Centos8安装Hadoop框架并运行示例程序(伪分布式)
大数据开发入门:二、Centos8安装Hadoop一、新建WinSCP连接二、安装jdk上一篇:大数据开发入门:一、VMware15.5 Pro安装Centos8及系统设置(全步骤)一、新建WinSCP连接1.先下载WinSCP并安装version:5.13.2链接:https://pan.baidu.com/s/19L-wzw01vpoiJu1nsg55-Q提取码:bbaw2.在虚拟机中输入命令su进入根用户,然后输入命令chmod -R 777 /opt给/opt文件夹授权,本教程以后的软原创 2020-05-14 19:34:52 · 1274 阅读 · 0 评论