- 博客(12)
- 收藏
- 关注
原创 如何确认集群规模?
如何确认集群规模?(假设:每台服务器8T磁盘,128G内存) 假设:计算 每天日活跃用户100万,每人一天平均100条:100万 * 100 = 1亿条; 每天日志1k左右,每天1亿条:1k * 100000000 / 1024 / 1024 = 约100G; 半年内不扩张服务器来算:100G * 180天 = 约18T; 保存3副本:18T * 3 = 54T; 预留20%~30%Buf = 54T/0.7 = 77T; 算到这里,总结下来:数量为:77T / 8T ,约10台。 和 ...
2022-03-03 08:08:56
3468
1
转载 用8小时,找到了200张可视化大屏模板,你可以直接用
转载原文链接:https://blog.csdn.net/yuanziok/article/details/107857222 我以前不止一次给各位看过可视化大屏,无论是什么做的,最终的意义都是要让数据展现的更直白、美观、有科技感一点! 或许,你以前是用Excel做可视化大屏 或者,你以前是用vue.js等前端工具做可视化大屏 又或者,你用的是echarts、Python等专业的工具 再或者,专业的可视化工具FineReport和FineBI也是你的最爱 我想了想,并不是所有人都会代码,而且这东西制作起
2022-02-28 13:39:11
230
原创 SparkStreaming累加器单词计算
SparkStreaming累加器单词计算 快传门SparkStreaming累加器单词计算一、需求分析二、实验环境1.工具2.依赖三、思路分析**1..思路分析**2.流程分析图四、编程实现 一、需求分析 在服务器端不断产生数据的时候,sparkstreaming客户端需要不断统计服务器端产生的相同数据出现的总数,即累计服务器端产生的相同数据的出现的次数。 二、实验环境 1.工具 centos7 + hadoop2.7.3 + nc + spark2.4.8 + idea 2.依赖 在idea项目
2021-11-25 23:14:12
567
原创 SparkStreaming读取Kafka数据源并写入Mysql数据库
SparkStreaming读取Kafka数据源并写入Mysql数据库 一、实验环境 本实验所用到的工具有 kafka_2.11-0.11.0.2; zookeeper-3.4.5; spark-2.4.8; Idea; MySQL5.7 什么是zookeeper? zookeeper 主要是服务于分布式服务,可以用zookeeper来做:统一配置管理,统一命名服务,分布式锁,集群管理。使用分布式系统就无法避免对节点管理的问题(需要是实时感知节点的状态,对接点进行统一管理等等),而由于这些问题处理起来
2021-11-24 13:17:14
5895
原创 Spark RDD的属性
Spark中的RDD的属性 说明:本片文章内容参考于微信公众号“大数据私房菜”里的内容,里面大量的与大数据有关的优质内容。在这里一是给大家分享,二是让自己巩固知识。 ???? 一组分片(Partition),即数据集的基本组成单位。 对于RDD来说,每个分片都会被一个计算机任务处理,并决定并行计算的粒度。用户可以在创建RDD时指定RDD的分片个数,若干个没有指定,那么就会采用默认值。默认值就是程序所分配到的CPU Core的数目。 ???? 一个计算每个分区的函数。 Spark中RDD的计算是以分片为单位的
2021-11-23 01:11:55
313
2
原创 SparkStreaming入门案例
实验一:SparkStreaming入门案例 参考文档 一.准备工作 实验环境:netcat (如果之前没有安装,需要下载:yum install -y nc) 二.任务分析 将nc作为服务器端,用户产生数据;启动sparkstreaming案例中的客户端程序,监听服务器端发送过来的数据,并对其数据进行词频统计,即为流式的wordcount入门程序 三.具体操作 启动nc为服务器端,执行:nc -l -p 6666,并输入数据测试: 启动客户端,执行:bin/run-example streaming.N
2021-11-17 17:52:51
2159
原创 zookeeper集群启动,关闭,查看状态脚本,集群启动成功了但是jps查看时没有进程的解决方法
zookeeper集群启动,关闭,查看状态脚本 在一个你觉得方便的目录创建一个文件,像我是在根目录下创建一个文件bin,再在bin目录创建文件zk.sh(可改成其它名称,xxx.sh),如下: [niit@hadoop01 ~]$ mkdir bin/ [niit@hadoop01 ~]$ cd bin/ [niit@hadoop01 bin]$ vi zk.sh #脚本 我这里是有三台主机,名称分别为hadoop01 hadoop02 hadoop03,这里可根据自己情况来 #下方的路径是zookeep
2021-11-03 23:33:24
2956
原创 在idea查看类的属性以及进入类里面所用到的其它类或者方法的快捷键
在idea查看当前类的属性的快捷键(所涉及的定义的成员变量、方法,用到的接口等) 同时按住ctrl、shift、alt和u键,就会进入如下图状态,在这里就可以看相应的属性了,在图的左上方选择: 进入类里面的其它类或者方法的快捷键: 选中所要进入的对象,让光标停在那里,然后一直按住ctrl键,再点击鼠标左键,就可以进入: 像下图,我选中了其中的RDD 然后按照上面的方法便可进入 这样就可以进一步地去了解这个方法啦 ...
2021-11-02 20:57:41
2979
原创 Spark
import org.apache.spark.sql.SparkSession 报错,引用不了SparkSession,或者是Row 解决方法:在pom.xml添加如下依赖: <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-sql_2.12</artifactId> <
2021-11-02 10:04:38
216
原创 百度指数网址
网址 http://index.baidu.com 可进行对关键词访问量的查询 像我搜索”大数据“,就会显示出它不同阶段访问量,也可进行对比,只要用逗号隔开两个参数
2021-10-31 21:33:18
3239
原创 2021-09-28
有关于调用MySQL驱动程序API发生的错误 4.0 (TID 7, localhost, executor driver): java.sql.SQLException: No suitable driver found for jdbc:mysql://localhost:3306/zyx?characterEncoding=UTF-8` 有可能是还没有添加MySQL驱动依赖,可以检测一下pom.xml文件是否有下面依赖 <!-- 引入MySQL驱动 --> <depe
2021-09-28 23:11:43
145
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅