大数据
文章平均质量分 86
记录大数据相关的学习
LiyC;
这个作者很懒,什么都没留下…
展开
-
sqoop操作
sqoop是隶属于Apache旗下的, 最早是属于cloudera公司的,是一个用户进行数据的导入导出的工具, 主要是将关系型的数据库(MySQL, oracle...)导入到hadoop生态圈(HDFS,HIVE,Hbase...) , 以及将hadoop生态圈数据导出到关系型数据库中。原创 2024-06-01 17:46:31 · 1030 阅读 · 0 评论 -
Scala编程 读取Kafka处理并写入Redis
Scala还提供了许多高级特性,如高阶函数、模式匹配、类型类等,使得编写高效、简洁、可重用的代码变得更加容易。由于其高性能、灵活性和丰富的功能,Redis被广泛应用于各种场景,如缓存加速、实时计数、排行榜、消息队列等。同时,Kafka还提供了丰富的API和生态系统,使得开发者可以方便地构建基于Kafka的实时数据处理应用。使用Scala编程,用Spark Streaming采集Kafka消费者端口接收到的信息,对信息进行处理求出每个电影ID对应的平均分数并写入到Redis数据库中。原创 2023-12-31 17:32:42 · 1996 阅读 · 0 评论 -
Kafka、Zookeeper分布式集群搭建
因为之前已经安装好了,这里就不再说明了,如果没有安装JDK的可以去参考一下其它大佬的文章。原创 2023-12-26 12:09:31 · 869 阅读 · 1 评论 -
kafka伪分布式搭建与命令测试
下载自己需要的版本即可,以下以3.6.1版本为例。原创 2023-12-25 15:01:59 · 970 阅读 · 0 评论 -
SparkSQL的API调用(影评案例)
创建一个空的结构类型,用于存储字段信息。:向结构类型中添加一个名为"user_id"的字段,字段类型为StringType(),可为空。:向结构类型中添加一个名为"movie_id"的字段,字段类型为IntegerType(),可为空。:向结构类型中添加一个名为"rank"的字段,字段类型为IntegerType(),可为空。:向结构类型中添加一个名为"marktime"的字段,字段类型为StringType(),可为空。原创 2023-12-22 18:10:36 · 85 阅读 · 0 评论 -
PyCharm配置Anaconda远程解释器
在添加spark环境变量后依然报错,但是这个警告通常不会影响代码的运行,因为PyCharm会使用内置的Java类来处理Hadoop相关的功能。添加后会提示缺少findspark模块,因为Linux环境下没有安装这个模块,可以使用编译器远程安装到Linux主机上。5. 选择系统解释器,解释器路径为anaconda目录下envs->创建的虚拟环境->bin->python。在配置完成后,pycharm会自动生成对应的远程服务器目录,本地机器上传的程序文件都会在部署路径里面。原因:没有打开hadoop集群。原创 2023-12-18 17:44:33 · 668 阅读 · 1 评论 -
Linux 环境安装Pyspark
1.将下载好的安装包上传到linux系统中2.解压安装包按回车多次按空格,直到看到最后时候输入yes再次输入yes输入想要安装的路径,注意:最后一个anaconda3是安装时候自动创建的文件夹,所以要保证上一个目录下没有anaconda3这个文件夹。输入yes后,继续回车然后等待安装。安装完成。原创 2023-12-18 14:29:39 · 858 阅读 · 1 评论 -
Spark Standalone模式环境搭建
1.2.3.4.确保主机master安装了jdk,hadoo,spark。另外两台可以不装,因为之后的操作会把主机的这些环境发送给另外两台。原创 2023-12-16 15:51:24 · 71 阅读 · 1 评论 -
Spark RDD练习
是Spark中的一个函数,用于将一个已有的集合(如列表或数组)转换为一个分布式数据集(RDD)是RDD的一个动作操作,它将RDD中的所有元素收集到驱动程序中,并以数组的形式返回结果。这段代码的意思是对RDD中的每个元素获取其长度,并将结果以数组的形式返回。对一个包含单词的集合进行映射操作,将每个单词和它的长度作为一个键值对返回。是RDD的一个转换操作,它将RDD中的每个元素应用于给定的函数。计算list1中各个元素中各个单词的长度,并输出对应单词。计算list1中各个元素中各个单词的长度。原创 2023-12-14 16:03:53 · 118 阅读 · 1 评论 -
Spark Local模式环境搭建
这个警告信息是因为Spark在启动时尝试加载本地Hadoop库,但是没有找到适合你的平台的库,所以使用了Java内置的类来代替。这个警告信息并不会影响Spark的正常运行,但是如果你需要使用Hadoop相关的功能,可能会遇到问题。SparkUI是Spark的Web界面,它默认绑定在4040端口。然而,如果该端口已经被其他进程占用,Spark就无法绑定到该端口上,因此会尝试使用下一个可用的端口(4041)。这个是Spark在启动时输出的一条警告信息,它告诉你Spark的默认日志级别被设置为"WARN"。原创 2023-12-13 17:51:36 · 129 阅读 · 1 评论 -
VMware安装deepin系统虚拟机
7.给虚拟机配置运行内存,我的机器是36G的并且考虑到后期要开启多个虚拟机,所以选择分配4G,根据实际情况按需配置即可。如果需要多台deepin系统的虚拟机,可以通过克隆刚刚已经配置好的虚拟机来完成,这样就可以减少多次重复安装浪费时间。选择储存为单个文件。3.选择安装映像文件,地址为之前下载deepin映像文件所存放的地址。1.打开VMware,点击文件->新建虚拟机->自定义->下一步。2.选择全盘安装,如果内存小于64G的时候是无法点击下一步的。3.点击继续安装,等待安装即可,安装完成后点击立即重启。原创 2023-12-12 17:18:43 · 2642 阅读 · 0 评论