自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

小强签名设计 的博客

真正牛逼的生活是既可以朝九晚五又可以浪迹天涯

  • 博客(11)
  • 资源 (23)
  • 收藏
  • 关注

原创 大数据篇--Kafka数据丢失、重复与消息顺序保证

文章目录一、Kafka如何实现每秒上百万的超高并发写入二、数据重复1.Consumer重复消费数据:三、数据丢失四、Kafka的优化建议1.broker端:一、Kafka如何实现每秒上百万的超高并发写入  Kafka 是高吞吐低延迟的高并发、高性能的消息中间件,在大数据领域有极为广泛的运用。配置良好的 Kafka 集群甚至可以做到每秒几十万、上百万的超高并发写入。可参考这篇文章:页缓存技术 + 磁盘顺序写 + 零拷贝技术二、数据重复1.Consumer重复消费数据:  底层根本原因:已经消费了数据

2021-05-30 17:52:42 3036 1

原创 厨神之路八--煎炸类

文章目录一、炸馒头片一、炸馒头片1:取个大碗放入面粉和水调成面糊。 2:把馒头切成片,大小薄厚根据自己喜好。 3:切好的馒头片在面糊的碗里裹层面糊。 4:锅里烧油,七成热把裹好面糊的馒头片放入,炸的馒头片表面金黄即可捞出。 5:准备利民蒜蓉辣酱和甜面酱(1:1)混合均匀后制成馒头刷酱,再撒上孜然粉辣椒粉。趁热吃。香脆辣。...

2021-05-29 18:57:14 173

原创 大数据篇--SparkStreaming调优

文章目录一、流处理数据Sink到目的地的N种错误操作1.序列化异常:2.高性能写结果数据:一、流处理数据Sink到目的地的N种错误操作pom.xml添加依赖: <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-streaming_2.11</artifactId> <v

2021-05-28 22:37:29 284

原创 大数据篇--面试总结

文章目录1.Redis的数据类型有哪些1.Redis的数据类型有哪些  Redis支持五种数据类型:string(字符串),hash(哈希),list(列表),set(集合)及zset(sorted set:有序集合)。

2021-05-27 12:04:06 318

原创 大数据篇--Spark调优

文章目录一、算子的合理选择1.map和mappartition:2.foreach和foreachpartition:一、算子的合理选择pom.xml内容:<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:

2021-05-26 12:44:02 391 1

原创 大数据篇--Hive调优

文章目录一、参数调优1.严格模式:2.Fetch Task功能:3.reduce个数控制:4.map join:二、语法层面调优1.order by和sort by:2.cluster by和distribute by:3.执行计划Explain:一、参数调优1.严格模式:  在hive里面可以通过严格模式防止用户执行那些可能产生意想不到的查询,从而保护hive的集群。在严格模式下,用户在运行如下query的时候会报错:分区表的查询没有使用分区字段来限制使用了order by 但没有使用limi

2021-05-24 12:40:50 1812 2

原创 大数据篇--SQL on Hadoop

文章目录一、SQL on Hadoop业界常用框架二、SQL on Hadoop调优策略三、架构层面调优四、语法层面调优五、执行层面调优六、SQL案例实战一、SQL on Hadoop业界常用框架二、SQL on Hadoop调优策略三、架构层面调优四、语法层面调优五、执行层面调优六、SQL案例实战...

2021-05-18 21:37:09 1768

原创 大数据篇--小文件

文章目录一、小文件定义二、为什么会有小文件1.数据迁移过程中:2.处理源头文件:3.处理过程中产生:三、小文件给Hadoop集群带来的瓶颈问题四、如何解决小文件1.Hadoop中:一、小文件定义  小文件是指文件大小明显小于 HDFS 上块(block)大小(Hadoop1.x中默认64MB,在Hadoop2.x中默认为128MB)的文件。二、为什么会有小文件  Hadoop中的目录、文件、block都会以元数据(MetaData)的方式存储下来的,他们每一个的元数据大小还是不一样的,如果感兴趣的话

2021-05-18 14:51:13 1254

原创 大数据篇--HDFS

文章目录一、准备工作一、准备工作首先安装好Zookeeper:在pom.xml中添加: <dependency> <groupId>org.apache.zookeeper</groupId> <artifactId>zookeeper</artifactId> <version>3.4.5</version> &

2021-05-14 23:18:51 849

原创 大数据篇--分布式锁

文章目录一、分布式锁的应用场景二、分布式锁的实现有哪些1.Memcached分布式锁:2.Redis分布式锁:3.Chubby:4.Zookeeper分布式锁:三、分布式锁的实现思路四、分布式锁的实现(下订单的Springboot程序)一、分布式锁的应用场景  为了保证一个方法或属性在高并发情况下的同一时间只能被同一个线程执行,在传统单体应用单机部署的情况下,可以使用Java并发处理相关的API(如ReentrantLock或Synchronized)进行互斥控制。在单机环境中,Java中提供了很多并发

2021-05-14 14:16:09 244 3

原创 Linux篇--高频常用命令

文章目录一、检索内容(grep)二、内容处理(awk)三、内容替换(sed)一、检索内容(grep)我们先准备两个文件:[root@192 mnt]# cat hehe1.txt hello worldhello hadoophello hive[root@192 mnt]# cat hehe2.txt I love you!Hello world.查询带有ve的内容:管道操作符|:多个指令连接起来,前一个指令的结果作为下一个指令的输入grep -v:是反向查找的意思,比如 g

2021-05-13 22:59:55 5087 21

SimHei MAC字体资源

SimHei MAC字体资源,解决报错:Generic family ‘sans-serif‘ not found because none of the following families were found: SimHei

2024-04-23

hadoop.dll 文件,解决报错所需文件

报错:java.lang.Exception: java.lang.UnsatisfiedLinkError: org.apache.hadoop.io.nativeio.NativeIO$Windows.access0(Ljava/lang/String;I)Z 所需文件

2024-04-11

大数据技术之高频面试题

大数据技术之高频面试题

2023-08-06

HDP3.1.5.0+Ambari2.7.5安装部署(Centos7.2)所需的三台Ambari镜像

HDP3.1.5.0+Ambari2.7.5安装部署(Centos7.2)所需的三台Ambari镜像

2023-04-13

大数据各组件安装(数据中台搭建)所需安装包

文章https://blog.csdn.net/m0_37739193/article/details/123915426所需安装包

2022-04-02

大数据设计方案.docx

当公司想开展大数据的时候,前期的规划文档很重要,也可能领导会给你安排这个任务,该文档可供参考。

2021-06-30

博客微信网页授权文章所需

博客微信网页授权文章所需。

2018-12-16

Snort_3.0.0-a4-241_on_Ubuntu_14_and_16.pdf

从snort官网下载的,译文可参考我的博客文章http://blog.csdn.net/m0_37739193/article/details/79290631

2018-02-09

OpenDetectorDeveloperGuide.pdf(中文版)

去snort官网可以下载OpenDetectorDeveloperGuide.pdf,这里翻译成了中文版

2018-02-07

flume断点续传

http://blog.csdn.net/m0_37739193/article/details/78779686这篇文章方法二所需的代码

2017-12-12

flume自定义功能实现代码

http://blog.csdn.net/m0_37739193/article/details/78779052这篇文章中所需的代码

2017-12-12

sqlite所需的包

文章《Sqlite3的安装及应用》中所需要的安装包,jdbc包等

2017-11-23

解析json的jar包

Java解析json格式数据所需的jar包,这里给了三种方式的jar包,org.json、json-lib和gson

2017-11-17

elasticsearch-2.2.0.tar.gz

elasticsearch-2.2.0.tar.gz 。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。

2017-09-19

oozie所需的js包文件

安装oozie所需的js包文件和mysql驱动。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。

2017-09-14

GIF动画录制工具

GIF动画录制工具,该软件小巧精悍功能强大,非常的棒。写个摘要还非要大于一百个字,我也是醉了,都没的可吹了。。。。。

2017-09-06

ganglia安装所需rpm包

ganglia安装所需rpm包

2017-08-23

mysql源码安装脚本

mysql源码安装所需要的脚本

2017-08-21

flume-ng-1.6.0-cdh5.5.2-src.tar.gz

flume-ng-1.6.0 cdh5.5.2源码包

2017-08-08

apache-maven-3.3.9-bin.zip

apache-maven-3.3.9

2017-08-08

flumee.zip

文章《利用Flume拦截器(interceptors)实现Kafka Sink的自定义规则多分区写入》所需的代码和jar包。这里吐槽一下CSDN,上传个文件还必须填这填那的,不填还不行,关键词长度还超出了限制,烦不烦人啊。。。。。。。。。

2017-08-03

winutils.exe

解决报错:Could not locate executable null\bin\winutils.exe in the Hadoop binaries所需的工具

2017-07-26

Myeclipse 10.x 2013 2014 破解补丁

Myeclipse 10.x 2013 2014 破解补丁

2017-07-18

protobuf-2.5.0.tar.gz

protobuf-2.5.0.tar.gz

2017-07-17

google-collections-1.0.jar

import com.google.common.collect.Lists;所需的jar包

2017-07-10

jsoup-1.10.2.jar

jsoup

2017-06-21

httpcomponents-client-4.5.3-bin.tar.gz

httpclint所需的jar包

2017-06-21

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除