自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(12)
  • 收藏
  • 关注

原创 如何确认集群规模?

如何确认集群规模?(假设:每台服务器8T磁盘,128G内存)假设:计算每天日活跃用户100万,每人一天平均100条:100万 * 100 = 1亿条;每天日志1k左右,每天1亿条:1k * 100000000 / 1024 / 1024 = 约100G;半年内不扩张服务器来算:100G * 180天 = 约18T;保存3副本:18T * 3 = 54T;预留20%~30%Buf = 54T/0.7 = 77T;算到这里,总结下来:数量为:77T / 8T ,约10台。和...

2022-03-03 08:08:56 3137 1

转载 用8小时,找到了200张可视化大屏模板,你可以直接用

转载原文链接:https://blog.csdn.net/yuanziok/article/details/107857222我以前不止一次给各位看过可视化大屏,无论是什么做的,最终的意义都是要让数据展现的更直白、美观、有科技感一点!或许,你以前是用Excel做可视化大屏或者,你以前是用vue.js等前端工具做可视化大屏又或者,你用的是echarts、Python等专业的工具再或者,专业的可视化工具FineReport和FineBI也是你的最爱我想了想,并不是所有人都会代码,而且这东西制作起

2022-02-28 13:39:11 122

原创 SparkStreaming累加器单词计算

SparkStreaming累加器单词计算快传门SparkStreaming累加器单词计算一、需求分析二、实验环境1.工具2.依赖三、思路分析**1..思路分析**2.流程分析图四、编程实现一、需求分析在服务器端不断产生数据的时候,sparkstreaming客户端需要不断统计服务器端产生的相同数据出现的总数,即累计服务器端产生的相同数据的出现的次数。二、实验环境1.工具centos7 + hadoop2.7.3 + nc + spark2.4.8 + idea2.依赖在idea项目

2021-11-25 23:14:12 383

原创 SparkStreaming读取Kafka数据源并写入Mysql数据库

SparkStreaming读取Kafka数据源并写入Mysql数据库一、实验环境本实验所用到的工具有kafka_2.11-0.11.0.2;zookeeper-3.4.5;spark-2.4.8;Idea;MySQL5.7什么是zookeeper?zookeeper 主要是服务于分布式服务,可以用zookeeper来做:统一配置管理,统一命名服务,分布式锁,集群管理。使用分布式系统就无法避免对节点管理的问题(需要是实时感知节点的状态,对接点进行统一管理等等),而由于这些问题处理起来

2021-11-24 13:17:14 5536

原创 什么是数据仓库

数据仓库

2021-11-24 00:36:22 2011

原创 Spark RDD的属性

Spark中的RDD的属性说明:本片文章内容参考于微信公众号“大数据私房菜”里的内容,里面大量的与大数据有关的优质内容。在这里一是给大家分享,二是让自己巩固知识。???? 一组分片(Partition),即数据集的基本组成单位。 对于RDD来说,每个分片都会被一个计算机任务处理,并决定并行计算的粒度。用户可以在创建RDD时指定RDD的分片个数,若干个没有指定,那么就会采用默认值。默认值就是程序所分配到的CPU Core的数目。???? 一个计算每个分区的函数。 Spark中RDD的计算是以分片为单位的

2021-11-23 01:11:55 181 2

原创 SparkStreaming入门案例

实验一:SparkStreaming入门案例参考文档一.准备工作实验环境:netcat (如果之前没有安装,需要下载:yum install -y nc)二.任务分析将nc作为服务器端,用户产生数据;启动sparkstreaming案例中的客户端程序,监听服务器端发送过来的数据,并对其数据进行词频统计,即为流式的wordcount入门程序三.具体操作启动nc为服务器端,执行:nc -l -p 6666,并输入数据测试:启动客户端,执行:bin/run-example streaming.N

2021-11-17 17:52:51 2053

原创 zookeeper集群启动,关闭,查看状态脚本,集群启动成功了但是jps查看时没有进程的解决方法

zookeeper集群启动,关闭,查看状态脚本在一个你觉得方便的目录创建一个文件,像我是在根目录下创建一个文件bin,再在bin目录创建文件zk.sh(可改成其它名称,xxx.sh),如下:[niit@hadoop01 ~]$ mkdir bin/[niit@hadoop01 ~]$ cd bin/[niit@hadoop01 bin]$ vi zk.sh#脚本 我这里是有三台主机,名称分别为hadoop01 hadoop02 hadoop03,这里可根据自己情况来#下方的路径是zookeep

2021-11-03 23:33:24 2592

原创 在idea查看类的属性以及进入类里面所用到的其它类或者方法的快捷键

在idea查看当前类的属性的快捷键(所涉及的定义的成员变量、方法,用到的接口等)同时按住ctrl、shift、alt和u键,就会进入如下图状态,在这里就可以看相应的属性了,在图的左上方选择:进入类里面的其它类或者方法的快捷键:选中所要进入的对象,让光标停在那里,然后一直按住ctrl键,再点击鼠标左键,就可以进入:像下图,我选中了其中的RDD然后按照上面的方法便可进入这样就可以进一步地去了解这个方法啦...

2021-11-02 20:57:41 2320

原创 Spark

import org.apache.spark.sql.SparkSession 报错,引用不了SparkSession,或者是Row解决方法:在pom.xml添加如下依赖: <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-sql_2.12</artifactId> <

2021-11-02 10:04:38 73

原创 百度指数网址

网址 http://index.baidu.com可进行对关键词访问量的查询像我搜索”大数据“,就会显示出它不同阶段访问量,也可进行对比,只要用逗号隔开两个参数

2021-10-31 21:33:18 2933

原创 2021-09-28

有关于调用MySQL驱动程序API发生的错误4.0 (TID 7, localhost, executor driver): java.sql.SQLException: No suitable driver found for jdbc:mysql://localhost:3306/zyx?characterEncoding=UTF-8`有可能是还没有添加MySQL驱动依赖,可以检测一下pom.xml文件是否有下面依赖<!-- 引入MySQL驱动 --> <depe

2021-09-28 23:11:43 77

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除