![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
文章平均质量分 63
千锋IT教育
定期分享IT学习技术资料(java、前端、大数据、Python、全链路UI/UE等)
展开
-
全方位揭秘!大数据从0到1的完美落地之Shuffle和调优
如果map输出相当小,会被复制到reduce任务JVM的内存(缓冲区大小由mapreduce.reduce.shuffle.input. buffer.percent 属性控制,指定用于此用途的堆空间的百分比),否则,map输出被复制到磁盘。比如,如果有50个map输出,而合并因子是10(10为默认设置,由mapreduce.task. io.sort.factor,与 的合并类似),合并将进行 5 趟 ,每趟将10个文件合并成一个文件,因此最后有5个中间文件。Hadoop权威指南。原创 2023-05-09 01:45:00 · 405 阅读 · 0 评论 -
全方位揭秘!大数据从0到1的完美落地之Hadoop数据压缩
这是MapReduce的一种优化策略:通过压缩编码对mapper或者reducer的输出进行压缩,以减少磁盘IO,提高MR程序运行速度(但相应增加了cpu运算负担)考虑Hadoop应用处理的数据集比较大,因此需要借助压缩。下面是按照效率从高到低排列的。在配置参数或在代码中都可以设置reduce的输出压缩。在配置参数或在代码中都可以设置reduce的输出压缩。原创 2023-05-09 11:00:00 · 88 阅读 · 0 评论 -
全方位揭秘!大数据从0到1的完美落地之MapReduce实战案例(1)
无论hdfs还是MapReduce,对于小文件都有损效率,实践中,又难免面临处理大量小文件的场景,此时,就需要有相应解决方案。在输出时使用SequenceFileOutPutFormat输出合并文件。改写RecordReader,实现一次读取一个完整文件封装为KV。b) 自定义RecordReader。c) 定义MapReduce处理流程。a) 自定义InputFromat。注意:本节实现的是上述第二种方式。自定义一个InputFormat。原创 2023-05-09 09:15:00 · 544 阅读 · 0 评论 -
全方位揭秘!大数据从0到1的完美落地之运行流程和分片机制
例如: 一个分片设置为1KB的大小,计算分片、构建MapTask耗时10ms的时间,处理数据耗时10ms的时间,那这样的程序的效率是非常低下的。HDFS上数据是按照块为单位进行存储的,我们是能够实实在在的看到每一个数据块的。而分片则不然,是一个逻辑概念,用来描述一个MapTask处理的数据是属于哪个文件的,从什么字节位置开始处理,处理多少个字节的数据等等信息。 如果分片设置的太大,那么分片所描述的数据可能会在两个数据块中存储,那就有可能会造成网络IO的产生,需要将数据移动到一个节点上进行处理,效率更低。原创 2023-05-04 19:47:28 · 957 阅读 · 1 评论 -
Guns社区医疗项目
考虑到这些,这里为同学们分享一个适合你们毕业设计的作品以及详细介绍,让正在焦头烂额的同学们有所启发,获取灵感。本项目是一个社区医疗的后台管理系统,主要包含六个大模块:系统管理、居民医保信息、药物信息管理、居民健康信息、居民就诊信息和我的预约信息。项目启动后可以通过管理员身份、医生或者病人身份进入系统,进入系统后会呈现对应的后台管理主界面,通过后左侧的导航菜单,实现不同模块功能的使用、数据维护等。系统管理含有很多模块,这里不一一展示啦,下面的模块也是,功能技术点太多,篇幅有限,只能挑选演示,同学们谅解啦。原创 2023-04-18 11:00:00 · 935 阅读 · 0 评论 -
大数据学习路线图(2023完整版)适合收藏
(MySQL介绍、MySQL安装、MySQL基础语法、MySQL高级语法、MySQL系统架构、MySQL存储引擎、MySQL索引、MySQL备份恢复、MySQL主从、主主复制、MySQL存储过程、MySQL分库分表、MySQL综合案例、MySQL性能优化)(帆软介绍、安装部署与启动、初始化设置、初识FineBI、FineBI俗语、FineBI与数据源整合、数据加工、构建图表与数据分析、仪表板及其分享、函数应用、数据分析模型、数据处理与计算、表格与图表组件交互与组件联动、数据跳转与钻取、数据切片与筛选)原创 2023-04-14 14:06:15 · 16664 阅读 · 1 评论 -
大数据需要学哪些内容
(MySQL介绍、MySQL安装、MySQL基础语法、MySQL高级语法、MySQL系统架构、MySQL存储引擎、MySQL索引、MySQL备份恢复、MySQL主从、主主复制、MySQL存储过程、MySQL分库分表、MySQL综合案例、MySQL性能优化)(帆软介绍、安装部署与启动、初始化设置、初识FineBI、FineBI俗语、FineBI与数据源整合、数据加工、构建图表与数据分析、仪表板及其分享、函数应用、数据分析模型、数据处理与计算、表格与图表组件交互与组件联动、数据跳转与钻取、数据切片与筛选)原创 2023-04-14 13:58:02 · 671 阅读 · 0 评论 -
初学Java用什么编译器
你需要在IDE中配置JDK路径以便编译和运行Java程序。NetBeans:NetBeans是一款免费的Java IDE,支持Java SE、Java EE和Java ME开发,提供了易用的图形用户界面(GUI)设计工具和代码编辑器。IntelliJ IDEA:IntelliJ IDEA是一款强大的Java IDE,拥有丰富的功能和插件,适合开发Java应用程序和Web应用程序。JCreator:JCreator是一款专门为Java开发而设计的IDE,适合初学者使用,具有简单易用的界面和实用的功能。原创 2023-03-09 17:21:23 · 1800 阅读 · 0 评论 -
java 多重 if 判断代码怎么优化?
如果需要判断的条件比较复杂或需要频繁修改,可以使用 Map 代替多重 if 判断。将每个条件的结果存储在 Map 中,然后根据输入的条件值来获取对应的结果。如果需要判断的变量是一个整型或枚举类型,可以使用 switch-case 语句替代多重 if 判断。如果需要对多个条件进行组合判断,并且需要对判断逻辑进行灵活配置,可以使用策略模式。总之,针对具体的应用场景,可以选择不同的优化方法,核心还是为了提高代码的可读性和执行效率,大家还是要多敲代码,把Java基础知识运用到实操中去,会发现很多惊喜!原创 2023-03-07 10:31:47 · 1120 阅读 · 0 评论 -
为什么很多企业依然再用jdk8而不是使用最新版本jdk17?
兼容性问题:JDK 8 是一个经过长期使用和测试的稳定版本,与许多企业应用程序和库已经兼容,而升级到新版本可能会导致兼容性问题。如果企业依赖于过时的库或框架,则升级到 JDK 17 可能会增加安全风险,因为这些库可能不支持最新版本的 JDK,从而使企业的系统容易受到攻击。如果企业在 JDK 8 上运行的应用程序已经满足其性能要求,则他们可能不愿意冒着在升级时引入性能问题的风险。综上所述,虽然 JDK 17 有很多新功能和改进,但是在升级之前,企业需要考虑到兼容性、安全、维护和性能等方面的问题。原创 2023-03-06 15:14:51 · 2671 阅读 · 0 评论 -
|干货 | 五种常用类型之String字符串详解
String字符串是最基本的Redis数据类型,可以是字符串,包括json串,可以是数字,可以是图片二进制等,存储最大不超过512M。常用的数据类型有:String、List、Set、Sorted set、Hash,在接下来的学习中,伟哥将介绍这五种类型的用法。添加字符串之后,我们可通过append追加内容,通过strlen获取字符串的长度,通过getrange截取字符串。小白:哥,java中String是最常用类型,Redis中也是吗?六. String-数值增加减少操作。五. String-操作补充。原创 2023-03-02 15:04:40 · 429 阅读 · 0 评论 -
自学 python推荐书籍有哪些?
学者而言,这本书会告诉你很多关于 Python的基本知识,比如:变量、类型、函数、对象等等,作者是一位在 IT行业工作多年的 Python专家,在书中除了全面详细地讲解 Python语言知识外,还包含了大量的项目实例和练习题,能够让你对 python有更加深入的了解。对于想要进一步提高自己水平的人来说,这本书是很好的选择。《Python高级编程语言》这本书是专门为初学者写的,书中没有过多复杂难懂的理论知识,而是结合大量真实案例来讲解。原创 2023-02-27 10:23:46 · 166 阅读 · 0 评论 -
Flink基本概念及架构
API 层包括构建流计算应用的 DataStream API 和批计算应用的 DataSet API,两者都是提供给用户丰富的数据处理高级 API,例如 Map,FlatMap 等。API & Libraries 层Flink 同时提供流计算和批计算的接口,并在此基础上抽象出不同的应用类型的组件库。分为 Event time、Ingestion time、Processing time,Flink 的无限数据流是一个持续的过程,时间是判断业务状态是否滞后,数据处理是否及时的重要依据。原创 2023-02-21 16:45:12 · 342 阅读 · 0 评论 -
IO流详解及常用方法
此时, 在try结构执行结束的时候, 会自动的调用AutoClosable接口实现类中的close方法, 进行流的关闭。从流中流动的数据单位来分, 是一个字节流, 流中流动的数据是以字节为单位的。从流中流动的数据单位来分, 是一个字符流, 流中流动的数据是以字符为单位的。从方向来说, 是一个输入流, 数据是从文件中流动到程序中, 是为了读取文件中的数据的。从方向来说, 是一个输入流, 数据是从文件中流动到程序中, 是为了读取文件中的数据的。流: 指的是一串流动的数据, 在数据在流中按照指定的方向进行流动。原创 2023-02-20 17:14:32 · 1281 阅读 · 0 评论 -
Spark Catalyst 查询优化器原理
比如Join算子,Spark根据不同场景为该算子制定了不同的算法策略,有BroadcastHashJoin、ShuffleHashJoin以及SortMergeJoin等(可以将Join理解为一个接口, BroadcastHashJoin是其中一个具体实现),物理执行计划实际上就是在这些具体实现中挑选一个耗时最小的算法实现,这个过程涉及到基于代价优化(CBO)策略,所谓基于代价 , 是因为物理执行计划的每一个节点都是有执行代价的,这个代价主要分为两部分。2.常量累加,如下图。3.列值裁剪,如下图。原创 2023-02-17 17:47:20 · 615 阅读 · 0 评论 -
HDFS的常用shell命令详解
注意:访问hdfs系统的指令。原创 2023-02-14 14:16:38 · 595 阅读 · 0 评论 -
Redis与Kafka的区别
除了p2p的消息队列,它当然提供PUB/SUB方式的消息模型。Redis,它首先是一个内存数据库,其提供的PUB/SUB功能把消息保存在内存中(基于channel),因此如果你的消息的持久性需求并不高且后端应用的消费能力超强的话,使用Redis PUB/SUB是比较合适的使用场景。Kafka与Redis PUB/SUB之间较大的区别在于Kafka是一个完整的系统,而Redis PUB/SUB只是一个套件(utility)——没有冒犯Redis的意思,毕竟它的主要功能并不是PUB/SUB。原创 2023-02-06 13:21:42 · 1166 阅读 · 0 评论 -
如何在mac上使用idea做大数据开发
上图中的${env.JAVA_HOME}中的env是用来获取系统环境变量,但是在mac10以上的版本,即使我们在bash_profile文件中配置了JAVA_HOME,b) 点开maven包进入conf,找到settings.xml,进行简单配置(注意:可以配置使用阿里的,这里简单配置的本地的)这里也不能直接铜鼓env将JAVA_HOME点出来,默认只识别系统默认的环境变量,比如:SHELL,PATH.a) 直接点击安装ideaIC-2019.3.3,按照步骤走,直到完成,这里没有什么特殊的。原创 2023-01-17 16:39:51 · 819 阅读 · 0 评论 -
2023版大数据学习路线图(适合自学)
为数据存储与计算(离线场景),主要讲解协调服务ZK(1T)、数据存储hdfs(2T)、数据存储alluxio(1T)、数据采集flume、数据采集logstash、数据同步Sqoop(0.5T)、数据同步datax(0.5T)、数据同步mysql-binlog(1T)、计算模型MR与DAG(1T)、hive(5T)、Impala(1T)、任务调度Azkaban、任务调度airflow等。为BI系统,主要讲解Superset、Graphna两大技术,包括基本简介、安装、数据源创建、表操作以及数据探索分析。原创 2023-01-13 15:30:09 · 8613 阅读 · 0 评论 -
大数据与Hadoop的五大优势
在以安全且经济高效的方式处理大型数据集方面,Hadoop具有优于关系数据库管理系统的优势,并且随着非结构化数据的不断增长,它对任何规模的企业的价值都将继续增加。成本节省是惊人的:Hadoop提供的计算和存储功能不是每TB数千到数万英镑,而是提供了数百英镑/TB的计算和存储能力。如果您正在处理大量的非结构化数据,Hadoop能够在几分钟内有效地处理TB级数据,并在几小时内有效处理PB级数据。Hadoop是一个高度可扩展的存储平台,因为它可以在数百台并行运行的廉价服务器上存储和分发非常大的数据集。转载 2022-11-15 15:40:17 · 334 阅读 · 0 评论