大数据
文章平均质量分 77
肉肉肉肉肉肉~丸子
大学在校生 专栏是为自己服务的,
只是为了记录 总结对自己真正有用的东西,
如果能帮到部分人,便是意外之喜!
展开
-
分布式集群框架——zookeeper必考面试题②
整个集群完成 Leader 选举之后,Learner(Follower 和 Observer 的统称)回向Leader 服务器进行注册。当 Learner 服务器想 Leader 服务器完成注册后,进入数据同步环节。原创 2023-08-31 20:24:49 · 112 阅读 · 0 评论 -
分布式集群框架——zookeeper必考面试题①
接收到客户端请求,处理请求判断是否需要注册 Watcher,需要的话将数据节点的节点路径和 ServerCnxn(ServerCnxn 代表一个客户端和服务端的连接,实现了 Watcher 的 process 接口,此时可以看成一个 Watcher 对象)存储在 WatcherManager 的 WatchTable 和 watch2Paths 中去。这样的设计有效的减轻了服务端的压力,不然对于更新非常频繁的节点,服务端会不断的向客户端发送事件通知,无论对于网络还是服务端的压力都非常大。原创 2023-08-31 20:12:18 · 114 阅读 · 0 评论 -
分布式集群框架——Google文件系统GFS
尽管一份数据需要存储三份,好像磁盘空间的利用率不高,但综合比较多种因素,加之磁盘的成本不断下降,采用副本无疑是最简单、最可靠、最有效,而且实现的难度也最小的一种方法。使用廉价的商用机器构建分布式文件系统,将容错的任务交由文件系统来完成,利用软件的方法解决系统可靠性问题,这样可以使得存储的成本成倍下降。是构建在不可靠的廉价计算机之上的文件系统,由于节点数目众多,故障发生十分频繁,如何在最短的时间内发现并确定发生故障的。的稳定性就提出了相当高的要求,从而大大增加了存储的成本,而且成本会随着规模的扩大线性增长。原创 2023-08-30 09:13:17 · 723 阅读 · 0 评论 -
分布式集群框架——有关zookeeper的面试考点
当涉及到大规模分布式系统的协调和管理时,Zookeeper是一个非常重要的工具。1. 分布式协调服务:Zookeeper是一个分布式协调服务,它提供了一个高可用和高性能的环境,用于协调和同步分布式系统中的各个节点。它通过提供共享的命名空间和一致性的数据模型来简化开发人员构建分布式应用程序的任务。2. 数据模型:Zookeeper的数据模型是一个层次化的树形结构,类似于文件系统的目录结构。每个节点都可以存储一个小数据量,称为Znode。Znodes可以被观察和监听,以便在其状态发生变化时通知相关方。原创 2023-08-29 14:33:43 · 845 阅读 · 0 评论 -
大数据技术——电影推荐系统大数据综合实训项目
在电影推荐系统的大数据综合实训项目中,我们成功地设计并实现了一个基于Scala的电影推荐系统。以下是我们项目的主要亮点和总结:(1)数据处理和分析:我们使用Apache Spark作为数据处理和分析的主要工具,能够处理大规模的电影数据,并进行特征提取和转换。通过使用Spark的DataFrame和SQL功能,我们能够高效地处理和查询数据。(2)协同过滤算法:为了实现电影推荐功能,我们采用了协同过滤算法,包括基于用户的协同过滤和基于物品的协同过滤。这些算法能够根据用户的历史行为和喜好,给出个性化的推荐结果原创 2023-06-26 09:44:08 · 363 阅读 · 0 评论 -
大数据应用——spark实验
所以 Spark 应运而生,Spark 就是在传统的 MapReduce 计算框架的基础上,利用其计算过程的优化,从而大大加快了数据分析、挖掘的运行和读写速度,并将计算单元缩小到更适合并行计算和重复使用的 RDD 计算模型。但是 Spark 是基于内存的,所以在实际的生产环境中,由于内存的限制,可能会由于内存资源不够导致 Job 执行失败,此时,MapReduce 其实是一个更好的选择,所以 Spark并不能完全替代 MR。Spark 采用 fork 线程的方式,而 Hadoop 采用创建新的进程的方式。原创 2023-06-25 15:08:41 · 899 阅读 · 0 评论 -
大数据应用——HBASE实验
但是,在实践中需要仔细考虑数据模型的设计、存储结构的优化和性能调优等方面,熟练掌握HBase的各种功能才能更好地发挥其威力。HBase的存储架构是基于HDFS的,HBase表格中的每一行都会被分割成多个存储单元(Cell)来存储,每个存储单元都有行键、列族、列限定符和时间戳等属性。可排序性:HBase的行数据默认是按照行键排序的,因此,在设计行键时应该考虑到排序的需要。注意,在实际生产环境中使用shell命令进行操作的效率和可靠性较低,最好使用HBase的API或者其他工具对HBase进行管理和操作。原创 2023-06-25 15:05:27 · 890 阅读 · 0 评论 -
大数据应用——hive实验
注意配置参数设置:在进行Hive实验时,需要根据实时的需求设置相关的配置参数,例如HDFS存储路径、JVM内存大小、任务队列等等,这些设置直接影响到实验的性能和稳定性。熟悉Hive架构:在进行Hive实验之前,先要了解Hive的架构和工作原理,比如表的存储格式、元数据管理、查询优化等,这样可以更好地理解实验内容。数据源准备:在进行Hive实验前,需要对数据源进行准备和清理,以保证实验的有效性和正确性,常见的做法包括数据清洗、数据转换、数据格式设置等。hive-site.xml中添加打印当前库和表头的配置。原创 2023-06-25 15:06:20 · 650 阅读 · 0 评论 -
大数据应用——工程实践III
Hadoop是一个庞大的生态系统,包含了很多的组件和工具,学习曲线比较陡峭。初学者最好从基础入手,先学习Hadoop的基本概念和核心组件,如HDFS和MapReduce等。但是,通过实践和不断的学习,我们可以掌握Hadoop的核心知识和技能,并为大数据时代做出贡献。Hadoop的学习需要耐心和坚持不懈的精神,很多时候需要花费大量的时间和精力去理解和解决问题。Hadoop的学习不仅是理论知识的积累,更需要实践和经验的积累。通过实际操作和开发Hadoop应用程序,才能更好地掌握和理解Hadoop的知识和技能。原创 2023-06-25 15:05:17 · 716 阅读 · 0 评论 -
大数据应用——总结与反思
对于大数据行业的认识,我的理解是,大数据是指海量数据,多样化的数据类型和高速度的数据流,传统的关系型数据库无法胜任其存储,处理和分析的能力,而Hadoop生态系统及其周边技术的出现,则为处理大数据提供了全新的思路和能力。首先,经过学习《大数据实践》这门课程可以让我们了解大数据领域的基础知识和常用的工具,例如Hadoop, Hive, Pig等,同时也能够让我们学习和掌握数据仓库的建设方法、数据可视化和机器学习等技术。因此,我认为,《大数据实践》这门课程对于我们了解和掌握大数据分析技能是非常有益的。原创 2023-06-25 14:53:44 · 868 阅读 · 0 评论 -
大数据技术——用户与组管理
用户账号、口令和组的管理是系统安全性的关键所在,管理员应该认真对待。用户账号刚创建时没有口令,但是被系统锁定,无法使用,必须为其指定口令后才可以使用,即使是指定空口令。系统是一个多用户多任务的分时操作系统,任何一个要使用系统资源的用户,都必须首先向系统管理员申请一个账号,然后以这个账号的身份进入系统。文件是所有用户都可读的,如果用户的密码太简单或规律比较明显的话,一台普通的计算机就能够很容易地将它破解,因此对安全性要求较高的。文件中记录的是用户所属的主组,也就是登录时所属的默认组,而其他组称为附加组。原创 2023-06-15 14:33:44 · 817 阅读 · 0 评论 -
大数据技术——并行和并发的区别
当有多个线程在操作时,如果系统只有一个CPU,则它根本不可能真正同时进行一个以上的线程,它只能把CPU运行时间划分成若干个时间段,再将时间段分配给各个线程执行,在一个时间段的线程代码运行时,其它线程处于挂起状。.这种方式我们称之为并发(Concurrent)。原创 2023-06-13 08:45:56 · 645 阅读 · 0 评论 -
大数据技术——连接数据库报错:Cased by:javax.net.ssl.SSLHandshakeException:No appropriate protocol (protocol is dis
useSSL=true 是进行安全验证,一般通过证书或者令牌,useSSL=false就是通过账号密码进行连接,通常使用useSSL=false。当前jdk版本 jdk1.8.0_321。原创 2023-06-05 21:41:43 · 220 阅读 · 0 评论 -
大数据技术——使用IDEA开发Scala程序
目录一、使用IDEA开发WordCount程序二、实验目的掌握使用IntelliJ IDEA开发Spark应用程序。三、实验要求使用IntelliJ IDEA开发本地Spark应用程序。部署分布式Spark应用程序。四、实验环境JDK1.8五、实验步骤启动IntelliJ IDEA通过菜单“”打开一个新建项目对话框单击左侧的“Maven”项,右侧将出现“”复选框,不要选择,直接单击窗口底部的“Next”按钮在弹出的窗口中,在“GroupId”对话框中填入“dblab。原创 2023-06-05 21:38:55 · 1996 阅读 · 0 评论 -
大数据应用——Hive操作示例
(4)将本地文件'/home/hadoop/member.txt'中的数据导入member表。(2)将本地文件“/home/hadoop/member.txt”导入 member表中。(6)统计member表中男同学和女同学(性别值为0)的人数。(4)查询member表中男同学(性别值为1)数据。(8)查询member表中男同学和女同学的人数。(7)查询member表中22岁男同学数据。操作复杂语句之前记得先把防火墙关闭!(6)查询member表中男同学数据。(5)查询member表中所有记录。原创 2023-05-23 09:15:58 · 325 阅读 · 0 评论 -
【mysql】2003-Can‘t connect to MySQL server on “XX.XX.XX.XX“ (10060 unknow error)
使用navicat或者其他数据库管理工具连接远程mysql服务器时出现2003-Can’t connect to MySQL server (10060 unknow error)错误原创 2023-05-12 16:10:45 · 555 阅读 · 1 评论 -
大数据应用——hbase shell操作
HBase逻辑结构HBase逻辑结构。原创 2023-04-14 18:16:31 · 497 阅读 · 0 评论 -
Hadoop集群启动后,在web:50070端口只有两个datanode节点
集群启动后,使用jps查看进程均没问题,但是在Web50070端口上只显示了两个datanode。进入50070端口,发现只有hadoop1和hadoop2没有hadoop3。登录master50070端口可以看到三个结点都存在,问题解决了!先检查一下各个节点的etc/hosts文件是否都配置正确。原创 2023-04-13 11:27:34 · 1024 阅读 · 0 评论 -
大数据技术——spark集群搭建
Spark是一个开源的大数据处理框架,它可以在分布式计算集群上进行高效的数据处理和分析。Spark的特点是速度快、易用性高、支持多种编程语言和数据源。Spark的核心是基于内存的计算模型,可以在内存中快速地处理大规模数据。Spark支持多种数据处理方式,包括批处理、流处理、机器学习和图计算等。Spark的生态系统非常丰富,包括Spark SQL、Spark Streaming、MLlitGraphX等组件,可以满足不同场景下的数据处理需求。原创 2023-04-13 11:15:00 · 4332 阅读 · 2 评论 -
大数据技术——搭建spark集群出现的问题
报错“WARNING: REMOTE HOST IDENTIFICATION HAS CHANGED”启动slave20220802080104时提示JAVA_HOME is not set。2)手动清除 ~/.ssh/known_hosts 里面报错主机的公钥信息。该错误是因为spark_env.sh文件中JAVA_HOME环境没有配置。1)通过 ssh-keygen 密钥工具更新。修改spark权限为hadoop。原创 2023-04-06 16:11:07 · 508 阅读 · 0 评论 -
大数据应用——zookeeper集群部署
将/opt/module/zookeeper-3.5.7/conf 这个路径下的 zoo_sample.cfg 修改为 zoo.cfg;echo "---------- zookeeper $i 停止 ------------ "echo "---------- zookeeper $i 状态 ------------ "echo "---------- zookeeper $i 启动 ------------"在/opt/module/zookeeper-3.5.7/这个目录下创建 zkData。原创 2023-04-06 15:39:14 · 376 阅读 · 1 评论 -
大数据应用——学习zookeeper
Zookeeper 是一个开源的分布式的,为分布式框架提供协调服务的 Apache 项目。原创 2023-04-06 14:55:45 · 260 阅读 · 0 评论 -
大数据应用——Hadoop运行模式(完全分布式运行)
注意:NameNode和ResourceManger如果不是同一台机器,不能在NameNode上启动YARN,应该在ResouceManager所在的机器上启动YARN。如果集群是第一次启动,需要格式化NameNode(注意格式化之前,一定要先停止上次启动的所有namenode和datanode进程,然后再删除data和log数据)时间同步的方式:找一个机器,作为时间服务器,所有的机器与这台集群时间进行定时的同步,比如,每隔十分钟,同步一次时间。scp可以实现服务器与服务器之间的数据拷贝。原创 2023-03-25 16:45:06 · 555 阅读 · 0 评论 -
大数据应用——Hadoop运行模式(伪分布式运行)
注意:格式化NameNode,会产生新的集群id,导致NameNode和DataNode的集群id不一致,集群找不到已往数据。Hadoop配置文件分两类:默认配置文件和自定义配置文件,只有用户想修改某一默认配置值时,才需要修改自定义配置文件,更改相应属性值。注意:开启日志聚集功能,需要重新启动NodeManager 、ResourceManager和HistoryManager。-- 指定YARN的ResourceManager的地址-->-- 指定Hadoop运行时产生文件的存储目录 -->原创 2023-03-25 15:51:15 · 1387 阅读 · 4 评论 -
大数据应用——Hadoop运行模式(本地运行)
Hadoop运行模式包括:本地模式、伪分布式模式以及完全分布式模式。原创 2023-03-25 15:24:23 · 478 阅读 · 0 评论 -
大数据应用——Linux常用的命令
大数据应用——Linux常用的命令原创 2023-03-16 09:20:14 · 572 阅读 · 1 评论 -
大数据应用——Linux常用的命令
大数据应用——Linux常用的命令原创 2023-03-15 12:39:50 · 440 阅读 · 0 评论 -
大数据应用——Centos7 桌面版安装步骤与环境变量配置
Centos7 桌面版安装步骤与环境变量配置原创 2023-03-15 11:31:23 · 855 阅读 · 0 评论 -
大数据技术——VMbox的安装和网络配置
VMbox的安装和网络配置原创 2023-03-15 10:52:59 · 1889 阅读 · 0 评论 -
大数据技术——jdk安装与配置变量
jdk安装与配置变量原创 2023-03-15 10:43:51 · 123 阅读 · 0 评论 -
大数据技术——函数式编程基础
定义函数最通用的方法是作为某个类或者对象的成员,这种函数被称为方法。其定义的基本语法为:def 方法名(参数列表):结果类型方法体}字面量包括整数字面量、浮点数字面量、布尔型字面量、字符字面量、字符串字面量、符号字面量、函数字面量和元组字面量除了函数字面量我们会比较陌生以外,其他几种字面量都很容易理解函数字面量可以体现函数式编程的核心理念在函数式编程中,函数是“头等公民”,可以像任何其他数据类型一样被传递和操作,也就是说,函数的使用方式和其他数据类型的使用方式完全一致了。原创 2023-03-03 19:21:14 · 2213 阅读 · 0 评论 -
大数据技术——面向对象编程基础
字段定义:用val或var关键字进行定义方法定义:使用new关键字创建一个类的实例基本语法:方法参数前不能加.上val或var,所有的方法参数都是不可变类型无参数的方法定义时可以省略括号,这时调用时也不能带有括号;如果定义时带有括号,则调用时可以带括号,也可以不带括号方法名后面的圆括号()可以用大括号{}来代替如果方法只有一个参数,可以省略点号(.)而采用中缀操作符调用方法如果方法体只有一条语句,可以省略方法体两边的大括号当方法的返回结果类型可以从最后的表达式推断出时,可以省略结果类型。原创 2023-03-02 21:03:28 · 499 阅读 · 2 评论 -
大数据技术——Scala语言基础
for推导式: for结构可以在每次执行的时候创造一个值,然后将包含了所有产生值的集合作为for循环表达式的结果返回,集合的类型由生成器中的集合类型确定。·Scala提供了一套丰富的容器(collection)库,包括序列( Sequence)、集合(Set)、映射(Map)等。scala.collection封装了可变容器和不可变容器的超类或特质,定义了可变容器和不可变容器的一些通用操作。不同于Java的java.util.List,scala的List一旦被定义,其值就不能改变,原创 2023-03-02 20:08:41 · 571 阅读 · 0 评论 -
大数据技术——Scala语言基础
数学家阿隆佐·邱奇(Alonzo Church)设计了“入演算”,这是一套用于研究函数定义、函数应用和递归的形式系统入演算被视为最小的通用程序设计语言入演算的通用性就体现在,任何一个可计算函数都能用这种形式来表达和求值入演算是一个数理逻辑形式系统,强调的是变换规则的运用,而非实现它们的具体机器·冯·诺依曼(John Von Neumann)将图灵的理论物化成为实际的物理实体,成为了计算机体系结构的奠基者。原创 2023-03-02 11:46:05 · 488 阅读 · 0 评论 -
大数据技术——概述
根据IBM前首席执行官郭士纳的观点,IT领域每隔十五年就会迎来一次重大变革三次信息化浪潮。原创 2023-03-01 15:12:09 · 985 阅读 · 0 评论 -
大数据期末课设~基于spark的气象数据处理与分析
虽然上一步获取的json数据可以直接存储并可使用SparkSession直接读取,但是为了方便观察数据结构、辨识异常数据、对数据增加部分提示信息,爬取后的数据进行了一些处理之后,保存成了csv格式,包括省份数据(province.csv)、城市数据(city.csv)、各个城市最近24小时整点天气数据(passed_weather_ALL.csv)。对人们生活有重要意义。简而言之,气象数据的可视化是为了方便人们更直观的了解当前的天气情况,大大的降低了使用的困难程度,并且也降低了对于期限数据理解的难度。原创 2022-12-14 01:48:25 · 5659 阅读 · 1 评论 -
学习大数据Hadoop——心得体会
如果不采用新的系统,我们存放的东西没办进行一个统一的管理。而这个分布式存储文件系统能把这些文件分开存储的过程透明化,用户看不到文件是怎么存储在不同电脑上,看到的只是一个统一的管理界面。互联网的快速发展带来了数据快速增加,海量数据的存储已经不是一台机器所能处理的问题了。所以也需要考虑将将数据分在不同的机器上并行的进行计算,这样不经可以节省大量的硬件的I/O开销。即将数据分开存放进行计算,Reduce将分布计算的得到的结果进行整合,最后汇总得到一个最终的结果。可以理解为多维的map,嵌套的map结构。原创 2022-12-14 01:32:46 · 6537 阅读 · 0 评论 -
大数据期末课设~电商网站日志数据分析
大数据存储,处理和处理的研究已是企业未来发展的趋势,因此,将开展基于Hadoop + Hive框架进行电子商务数据分析,搭建一个大数据集群平台,用于通过电商案例的存储,处理,分析和可视化展示的实验迎向困难该挑战。引用通过编号,检索通过内容描述。为大数据平台提供基础支撑性服务,提供多种数据接入工具,实现结构化和非结构化的数据的汇聚接入,并支持数据的预处理,为大数据平台提供原始数据支撑。大数据平台整体架构可分为七大部分:目录管理、数据集成、数据资产管理、数据治理、数据开发、数据分析、数据共享及数据安全。原创 2022-12-12 01:22:04 · 1527 阅读 · 0 评论 -
学习大数据spark——心得体会
学习大数据spark~心得体会原创 2022-12-12 01:07:02 · 2073 阅读 · 0 评论