2021年05月_小强签名设计

11月 10月 09月 08月 07月 06月 05月 04月 03月 02月 01月

原创大数据篇--Kafka数据丢失、重复与消息顺序保证

文章目录一、Kafka如何实现每秒上百万的超高并发写入二、数据重复1.Consumer重复消费数据：三、数据丢失四、Kafka的优化建议1.broker端：一、Kafka如何实现每秒上百万的超高并发写入 Kafka 是高吞吐低延迟的高并发、高性能的消息中间件，在大数据领域有极为广泛的运用。配置良好的 Kafka 集群甚至可以做到每秒几十万、上百万的超高并发写入。可参考这篇文章：页缓存技术 + 磁盘顺序写 + 零拷贝技术二、数据重复1.Consumer重复消费数据：底层根本原因：已经消费了数据

2021-05-30 17:52:42 3036 1

原创厨神之路八--煎炸类

文章目录一、炸馒头片一、炸馒头片1：取个大碗放入面粉和水调成面糊。 2：把馒头切成片，大小薄厚根据自己喜好。 3：切好的馒头片在面糊的碗里裹层面糊。 4：锅里烧油，七成热把裹好面糊的馒头片放入，炸的馒头片表面金黄即可捞出。 5：准备利民蒜蓉辣酱和甜面酱（1:1）混合均匀后制成馒头刷酱，再撒上孜然粉辣椒粉。趁热吃。香脆辣。...

2021-05-29 18:57:14 173

原创大数据篇--SparkStreaming调优

文章目录一、流处理数据Sink到目的地的N种错误操作1.序列化异常：2.高性能写结果数据：一、流处理数据Sink到目的地的N种错误操作pom.xml添加依赖： <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-streaming_2.11</artifactId> <v

2021-05-28 22:37:29 284

原创大数据篇--面试总结

文章目录1.Redis的数据类型有哪些1.Redis的数据类型有哪些 Redis支持五种数据类型：string（字符串），hash（哈希），list（列表），set（集合）及zset(sorted set：有序集合)。

2021-05-27 12:04:06 318

原创大数据篇--Spark调优

文章目录一、算子的合理选择1.map和mappartition：2.foreach和foreachpartition：一、算子的合理选择pom.xml内容：<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:

2021-05-26 12:44:02 391 1

原创大数据篇--Hive调优

文章目录一、参数调优1.严格模式：2.Fetch Task功能：3.reduce个数控制：4.map join：二、语法层面调优1.order by和sort by：2.cluster by和distribute by：3.执行计划Explain：一、参数调优1.严格模式：在hive里面可以通过严格模式防止用户执行那些可能产生意想不到的查询,从而保护hive的集群。在严格模式下，用户在运行如下query的时候会报错：分区表的查询没有使用分区字段来限制使用了order by 但没有使用limi

2021-05-24 12:40:50 1812 2

原创大数据篇--SQL on Hadoop

文章目录一、SQL on Hadoop业界常用框架二、SQL on Hadoop调优策略三、架构层面调优四、语法层面调优五、执行层面调优六、SQL案例实战一、SQL on Hadoop业界常用框架二、SQL on Hadoop调优策略三、架构层面调优四、语法层面调优五、执行层面调优六、SQL案例实战...

2021-05-18 21:37:09 1768

原创大数据篇--小文件

文章目录一、小文件定义二、为什么会有小文件1.数据迁移过程中：2.处理源头文件：3.处理过程中产生：三、小文件给Hadoop集群带来的瓶颈问题四、如何解决小文件1.Hadoop中：一、小文件定义小文件是指文件大小明显小于 HDFS 上块（block）大小（Hadoop1.x中默认64MB，在Hadoop2.x中默认为128MB）的文件。二、为什么会有小文件 Hadoop中的目录、文件、block都会以元数据（MetaData）的方式存储下来的，他们每一个的元数据大小还是不一样的，如果感兴趣的话

2021-05-18 14:51:13 1254

原创大数据篇--HDFS

文章目录一、准备工作一、准备工作首先安装好Zookeeper：在pom.xml中添加： <dependency> <groupId>org.apache.zookeeper</groupId> <artifactId>zookeeper</artifactId> <version>3.4.5</version> &

2021-05-14 23:18:51 849

原创大数据篇--分布式锁

文章目录一、分布式锁的应用场景二、分布式锁的实现有哪些1.Memcached分布式锁：2.Redis分布式锁：3.Chubby：4.Zookeeper分布式锁：三、分布式锁的实现思路四、分布式锁的实现（下订单的Springboot程序）一、分布式锁的应用场景为了保证一个方法或属性在高并发情况下的同一时间只能被同一个线程执行，在传统单体应用单机部署的情况下，可以使用Java并发处理相关的API(如ReentrantLock或Synchronized)进行互斥控制。在单机环境中，Java中提供了很多并发

2021-05-14 14:16:09 244 3

原创 Linux篇--高频常用命令

文章目录一、检索内容（grep）二、内容处理（awk）三、内容替换（sed）一、检索内容（grep）我们先准备两个文件：[root@192 mnt]# cat hehe1.txt hello worldhello hadoophello hive[root@192 mnt]# cat hehe2.txt I love you!Hello world.查询带有ve的内容：管道操作符|：多个指令连接起来，前一个指令的结果作为下一个指令的输入grep -v：是反向查找的意思，比如 g

2021-05-13 22:59:55 5087 21