大数据
文章平均质量分 81
沿大数据发展 学习、借鉴、解决大数据
weixin_35688430
这个作者很懒,什么都没留下…
展开
-
未来存储
序言进入21世纪之后,这个世界的数据增长速度太快了,数据量级也越来越大,按照现有发展速度,传统硅基存储介质是否还能撑住,就成为了许多人关心的一个问题。现在大家都在探讨是否会有枯竭的那一天,如果枯竭了我们还能用什么东西来存储我们的数据。于是存储生命遗传密码的介质DNA,就成了一个非常有希望的选项。啥?DNA也能存储数据?对,你没听错!美国DNA存储成果在2019年,美国DNA技术研发企业CATALOG 公司宣布:已成功将16GB的英文维基百科数据,全部保存到了一条人工合成的 DNA 中。也就原创 2021-05-08 10:37:06 · 124 阅读 · 0 评论 -
存储介质发展史
我们生活在一个信息爆炸的时代,据 IDC 预测 2020 年全球产生数据量将超过 40ZB,相当于地球上每个人每年将产生 5200GB 的数据。数据科普:存储单位换算表1 B(Byte 字节)= 8 bit1 KB = 1024 B1 MB = 1024 KB1 GB = 1024 MB1 TB = 1024 GB1 PB = 1024 TB1 EB = 1024 PB1 ZB = 1024 EB = 1.0 × 1021 B如何稳定地存储这大量的数据,已经成为了一个难题。这个难题背转载 2021-05-08 10:33:09 · 797 阅读 · 0 评论 -
消息队列之Kafka 再平衡问题(七)
问题描述项目在生产上的一段错误日志如下,[commitSync] processed message to kafka failed, Just Ignore this commit, wait for next commit to make these messages processed.org.apache.kafka.clients.consumer.CommitFailedException: Commit cannot be completed since the group has alr转载 2021-04-13 13:46:34 · 565 阅读 · 0 评论 -
消息队列之Kafka 日志清理(六)
Kafka是一个基于日志的流处理平台,一个topic可以有多个分区(partition),分区是复制的基本单元,在单节点上,一个分区的数据文件可以存储在多个磁盘目录中,配置项是:# A comma separated list of directories under which to store log fileslog.dirs=/home/storm/dev/kafka-logs每个分区的日志文件存储的时候又会分成一个个的segment,默认日志段(segment)的大小是1GB,segmen原创 2021-04-02 11:22:08 · 524 阅读 · 0 评论 -
埋点数据收集处理
一.前置字段规划埋点接口公共字段字段归类字段中文名称字段英文名字段类型说明设备及浏览器信息操作系统名称$OSString终端操作系统操作系统版本$OS_VERSIONString终端操作系统的具体版本号屏幕高度$SCREEN_HEIGHTNumber屏幕的物理高度屏幕宽度$SCREEN_WIDTHNumber屏幕的物理宽度浏览器名称$BROWSERString访问系统当前浏览器的名字浏览器版本$BROWSE原创 2021-03-11 12:11:32 · 585 阅读 · 0 评论 -
消息队列之Kafka 消费过程分析(五)
1.1Kafka消费过程分析kafka提供了两套consumer API:高级Consumer API和低级API。1.1.1 消费模型消息由生产者发布到Kafka集群后,会被消费者消费。消息的消费模型有两种:推送模型(push)和拉取模型(pull)。基于推送模型(push)的消息系统,由消息代理记录消费者的消费状态。消息代理在将消息推送到消费者后,标记这条消息为已消费,但这种方式无法很好地保证消息被处理。比如,消息代理把消息发送出去后,当消费进程挂掉或者由于网络原因没有收到这条消息时,就有可能造原创 2021-02-28 13:38:20 · 441 阅读 · 0 评论 -
消息队列之Kafka Broker保存消息(四)
Replications、Partitions 和Leaderskafka中的数据是持久化的并且能够容错的。Kafka允许用户为每个topic设置副本数量,副本数量决定了有几个broker来存放写入的数据。如果你的副本数量设置为3,那么一份数据就会被存放在3台不同的机器上,那么就允许有2个机器失败。一般推荐副本数量至少为2,这样就可以保证增减、重启机器时不会影响到数据消费。如果对数据持久化有更高的要求,可以把副本数量设置为3或者更多。Kafka中的topic是以partition的形式存放的,每一个t原创 2021-02-28 13:36:42 · 511 阅读 · 0 评论 -
消息队列之Kafka 生产过程分析(三)
1.1 Kafka生产过程分析1.1.1 写入方式producer采用推(push)模式将消息发布到broker,每条消息都被追加(append)到分区(patition)中,属于顺序写磁盘(顺序写磁盘效率比随机写内存要高,保障kafka吞吐率)。1.1.2 分区(Partition)Kafka集群有多个消息代理服务器(broker-server)组成,发布到Kafka集群的每条消息都有一个类别,用主题(topic)来表示。通常,不同应用产生不同类型的数据,可以设置不同的主题。一个主题一般会有多个消原创 2021-02-28 13:35:05 · 126 阅读 · 0 评论 -
消息队列之Kafka 集群部署 (二)
Kafka集群部署1.1 集群规划为了提高性能,推荐采用专用的服务器来部署kafka集群,尽量与hadoop集群分开,因为kafka依赖磁盘读写和大的页面缓存,如果和hadoop共享节点的话会影响其使用页面缓存的性能。Kafka集群的大小需要根据硬件的配置、生产者消费者的并发数量、数据的副本个数、数据的保存时长综合确定。磁盘的吞吐量尤为重要,因为通常kafka的瓶颈就在磁盘上。Kafka依赖于zookeeper,建议采用专用服务器来部署zookeeper集群,zookeeper集群的节点采用偶数原创 2021-02-28 13:32:38 · 281 阅读 · 0 评论 -
消息队列之Kafka 设计与原理 (一)
消息队列之Kafka 设计与原理1.1 Kafka是什么在流式计算中,Kafka一般用来缓存数据,Storm通过消费Kafka的数据进行计算。1)Apache Kafka是一个开源消息系统,由Scala写成。是由Apache软件基金会开发的一个开源消息系统项目。2)Kafka最初是由LinkedIn公司开发,并于2011年初开源。2012年10月从Apache Incubator毕业。该项目的目标是为处理实时数据提供一个统一、高通量、低等待的平台。3)**Kafka****是一个分布式消息队列。*原创 2021-02-28 13:31:28 · 172 阅读 · 0 评论 -
数据采集分析系统
1.系统概览数据埋点分析系统都做了些什么?采集了哪些数据?这些数据我们将如何运用和分析?最终又将如何展示呢?首先我们看下系统结构。整个系统由以下 4 个部分组成,期望能提供一套完整的用户行为分析的解决方案:埋点采集 JSSDK:收集用户行为数据,并进行上报;数据处理服务:接收上报数据并存储;筛取所需数据,进行数据处理并透出;数据可视化平台:汇总展示详细数据,支持自定义,打通业务;Chrome插件工具:在页面上直观展示坑位数据,提供场景更友好的数据可视化服务;其基本协作流程是,用户进入平台任原创 2021-02-01 16:40:18 · 2929 阅读 · 0 评论 -
监控日志loging Elasticsearch(分片管理九)
将 Shard 从一个节点移动到另一个节点当处理任何大小的集群时,这是最常见的用例之一。 一个典型的场景是,如果在一个节点上共存了太多分片,它们将全部用于查询或索引。这种情况表示节点/群集健康的潜在风险。 因此,将分片从一个节点移动到另一个节点是一个好习惯。 Elasticsearch 可能不会自动处理这种情况,这意味着我们需要手动进行干预。 如何做到这一点?Elasticsearch 提供了一个集群级 API,该 API 允许将碎片从一个节点移动到另一个节点。 让我们在下面查看使用此 API 的示例原创 2020-12-03 17:13:56 · 144 阅读 · 0 评论 -
监控日志loging Elasticsearch(性能优化八)
在当今世界,各行各业每天都有海量数据产生,为了从这些海量数据中获取想要的分析结果,需要对数据进行提取、转换,存储,维护,管理和分析。 这已然远远超出了普通处理工具、数据库等的实现能力,只有基于的分布式架构和并行处理机制的大数据工具所才能实现这些功能。 Elasticsearch是响应如前所述大多数用例的最热门的开源数据存储引擎之一。Elasticsearch是一种分布式数据存储和搜索引擎,具有容错和高可用性特点。 为了充分利用其搜索功能,需要正确配置Elasticsearch。简单的默认配置不适合每个实转载 2020-12-03 16:36:41 · 285 阅读 · 0 评论 -
监控日志loging kibana (索引周期管理一)
如果你要处理时间序列数据,则不想将所有内容连续转储到单个索引中。 取而代之的是,您可以定期将数据滚动到新索引,以防止数据过大而又缓慢又昂贵。 随着索引的老化和查询频率的降低,您可能会将其转移到价格较低的硬件上,并减少分片和副本的数量。要在索引的生命周期内自动移动索引,可以创建策略来定义随着索引的老化对索引执行的操作。 索引生命周期策略在与 Beats 数据发件人一起使用时特别有用,Beats 数据发件人不断将运营数据(例如指标和日志)发送到 Elasticsearch。 当现有索引达到指定的大小或期限时,原创 2020-12-03 16:24:59 · 936 阅读 · 0 评论 -
监控日志loging Elasticsearch(索引生命周期管理七)
在实战开发的生产环境中,索引的动态模板设置、索引Mapping设置、索引分片数/副本数设置、索引创建、打开、关闭、删除的全生命周期的管理必须高度关注,做好提前知识储备,否则,会在开发后期出现由于数据激增暴露架构设计不合理问题,甚至引发分片/节点数据丢失、集群宕机等严重问题。1、什么是Elasticsearch索引生命周期管理?Elasticsearch索引生命周期管理指:Elasticsearch从设置、创建、打开、关闭、删除的全生命周期过程的管理。Elasticsearch生产环境转载 2020-12-03 16:06:53 · 173 阅读 · 0 评论 -
SIEM系统通过ELK日志系统底层实现设想
一、前言本文不会涉及具体的平台搭建步骤以及具体的方案架构讨论,在这里只是想和大家分享一下我们在运营当中遇到的一些问题以及解决的思路,可能文中提及的技术架构也并非适合每一位读者。闲暇时写下本文,仅仅希望能够帮助在甲方企业和机构从事安全运营工作的同仁们获得一些启示和灵感,为大家提供更多的解决方向。本文前面的章节会简要给大家介绍下SIEM产品目前在市场上的几种分类和应用情况,接着会给大家介绍下我们为了解决一些运营中的难题,如何利用ELK搭建的一套简化版的SIEM平台,在文末我们会介绍下我在安全运营工作当中如何利原创 2020-12-03 10:24:22 · 1333 阅读 · 0 评论 -
监控日志loging elastIcsearch(六)
logstash结合filebeat经过kafka收集系统及nginx日志架构图一、Beats 轻量型数据采集器Beats平台集合了多种单一用途数据采集器。这些采集器安装后可用作轻量型代理,从成百上千或成千上万台机器向Logstash 或 Elasticsearch 发送数据。官方文档地址https://www.elastic.co/guide/en/beats/filebeat/7.x/index.html官方下载地址:https://www.elastic.co/cn/downloa原创 2020-09-11 15:51:53 · 216 阅读 · 0 评论 -
elk 问题故障处理实录
1.问题描述 elk节点宕机 重启节点 及logstash后报错信息报错信息资料描述:Elasticsearch索引只读今天添加索引时发现kibana添加索引不生效,页面也没有报错,没有创建成功只是一闪而过。另外发现各项目日志与当前时间差异很大,filebeat一直报错io timeout具体报错如下:filebeat无法给logstash传输数。ip使用x代替logstash/async.go:235 Failed to publish events caused by: read原创 2020-08-12 13:16:18 · 6803 阅读 · 0 评论 -
大数据数据传输 Sqoop (四)
大数据技术之Sqoop一、Sqoop简介Apache Sqoop™是一种旨在有效地在ApacheHadoop和诸如关系数据库等结构化数据存储之间传输大量数据的工具。Sqoop于2012年3月孵化出来,现在是一个顶级的Apache项目。请注意,1.99.7与1.4.6不兼容,且没有特征不完整,它并不打算用于生产部署。二、Sqoop原理将导入或导出命令翻译成mapreduce程序来实现。在翻译出的mapreduce中主要是对inputformat和outputformat进行定制。三、Sqoo原创 2020-11-10 10:58:40 · 1079 阅读 · 0 评论 -
大数据数据仓库 Hive (三)
大数据技术之Hive一 Hive基本概念1.1 什么是HiveHive:由Facebook开源用于解决海量结构化日志的数据统计。Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。本质是:将HQL/SQL转化成MapReduce程序1)Hive处理的数据存储在HDFS2)Hive分析数据底层的实现是MapReduce3)执行程序运行在Yarn上1.2 Hive的优缺点1.2.1 优点1)操作接口采用类SQL语法,提供快速开发的能力(原创 2020-11-10 11:31:10 · 792 阅读 · 0 评论 -
大数据高可用版 HBase(二)
一 搭建HBase的环境1.环境准备:解压 tar -zxvf hbase-1.3.1-bin.tar.gz -C /applicationln -s hbase-1.3.1-bin hbash设置环境变量 vi ~/.bash_profileHBASE_HOME=/application/hbashexport HBASE_HOMEPATH=$HBASE_HOME/bin:$PATHexport PATHsource ~/.bash_profile2.配置进入hbase-1.3.1.原创 2020-11-10 09:56:29 · 105 阅读 · 0 评论 -
大数据高可用版 hadoop(一)
https://blog.csdn.net/u010452388/article/details/99824846 参考网站阿里云环境准备1.挂载磁盘磁盘分区在将磁盘或者磁盘分区用作物理卷(PV)之前,需要对其进行初始化工作,即进行磁盘分区操作;因磁盘分区需求大于2T,所以fdisk无法实现管理,需要使用parted命令来做磁盘分区管理;parted的详细使用方法请参考博主之前的博客:使用parted命令对磁盘进行分区/dev/vdb# 新建/dev/vdb的磁盘标签类型为GPT[root@原创 2020-09-18 15:11:14 · 317 阅读 · 0 评论 -
处理ssl连接MySQL问题方法
1. 检查当前SSL / TLS状态我们将使用-h指定IPv4本地环回接口,以强制客户端与TCP连接,而不是使用本地套接字文件。 这将允许我们检查TCP连接的SSL状态:mysql -u root -p -h 127.0.0.1键入以下内容以显示SSL / TLS变量的状态:SHOW VARIABLES LIKE '%ssl%';Output+---------------+----------+| Variable_name | Value |+---------原创 2020-08-10 10:28:55 · 3322 阅读 · 0 评论 -
监控日志loging elastIcsearch 操作篇(五)
Elasticsearch的Java客户端非常强大;它可以建立一个嵌入式实例并在必要时运行管理任务。运行一个Java应用程序和Elasticsearch时,有两种操作模式可供使用。该应用程序可在Elasticsearch集群中扮演更加主动或更加被动的角色。在更加主动的情况下(称为Node Client),应用程序实例将从集群接收请求,确定哪个节点应处理该请求,就像正常节点所做的一样。(应用程序甚至可以托管索引和处理请求。)另一种模式称为Transport Client,它将所有请求都转发到另一个Elast原创 2020-08-01 17:01:44 · 314 阅读 · 0 评论 -
监控日志loging elastIcsearch 部署篇(二)
ELK日志系统介绍开源实时日志分析ELK平台能够完美的解决我们上述的问题,ELK由ElasticSearch、Logstash和Kiabana三个开源工具组成。官方网站:https://www.elastic.co/productsElasticsearch是个开源分布式搜索引擎,它的特点有:分布式,零配置,自动发现,索引自动分片,索引副本机制,restful风格接口,多数据源,自动搜索负载等Logstash是一个完全开源的工具,他可以对你的日志进行收集、过滤,并将其存储供以后使用(如,搜原创 2020-08-01 16:59:20 · 601 阅读 · 0 评论 -
监控日志loging elastIcsearch 规划篇(四)
1.1 Elasticsearch适用场景1)维基百科,类似百度百科,牙膏,牙膏的维基百科,全文检索,高亮,搜索推荐。2)The Guardian(国外新闻网站),类似搜狐新闻,用户行为日志(点击,浏览,收藏,评论)+ 社交网络数据(对某某新闻的相关看法),数据分析,给到每篇新闻文章的作者,让他知道他的文章的公众反馈(好,坏,热门,垃圾,鄙视,崇拜)。3)Stack Overflow(国外的程序异常讨论论坛),IT问题,程序的报错,提交上去,有人会跟你讨论和回答,全文检索,搜索相关问题和答案,程序报错原创 2020-07-29 10:10:35 · 301 阅读 · 0 评论 -
监控日志loging Logstash (一)
一、Logstash简介1、官网地址https://www.elastic.co/guide/en/logstash/7.x/introduction.html2、软件介绍官方介绍:Logstash is an open source data collection engine with real-time pipelining capabilities。简单来说logstash就是一根具备实时数据传输能力的管道,负责将数据信息从管道的输入端传输到管道的输出端;与此同时这根管道还可以让你根据自己的原创 2020-07-27 11:53:38 · 680 阅读 · 0 评论 -
日志管理 MySQL (四)
MySQL 日志管理1.1 MySQL****日志类型简介日志的类型的说明:日志文件选项文件名程序 N/A表名称错误–log-errorhost_name.errN/A常规–general_loghost_name.logmysqldumpslow mysqlbinloggeneral_log慢速查询–slow...原创 2020-04-01 15:53:40 · 344 阅读 · 0 评论 -
存储引擎 MySQL (三)
1.1 存储引擎的介绍1.1.1 文件系统存储文件系统:操作系统组织和存取数据的一种机制。文件系统是一种软件。类型:ext2 3 4 ,xfs 数据。 不管使用什么文件系统,数据内容不会变化,不同的是,存储空间、大小、速度。1.1.2 mysql****数据库存储MySQL引擎: 可以理解为,MySQL的“文件系统”,只不过功能更加强大。MySQL引擎功能: 除了可以提供基本的存取...原创 2020-04-01 15:38:20 · 109 阅读 · 0 评论 -
索引优化 MySQL (七)
用expain查看SQL的执行计划在工作中,我们用于捕捉性能问题最常用的就是打开慢查询,定位执行效率差的SQL,那么当我们定位到一个SQL以后还不算完事,我们还需要知道该SQL的执行计划,比如是全表扫描,还是索引扫描,这些都需要通过EXPLAIN去完成。EXPLAIN命令是查看优化器如何决定执行查询的主要方法。可以帮助我们深入了解MySQL的基于开销的优化器,还可以获得很多可能被优化器考虑到的...原创 2020-04-01 15:06:41 · 101 阅读 · 0 评论 -
索引管理 MySQL (六)
索引的介绍索引的出现其实就是为了提高数据查询的效率,就像书的目录一样。一本 500 页的书,如果你想快速找到其中的某一个知识点,在不借助目录的情况下,那我估计你可得找一会儿。同样,对于数据库的表而言,索引其实就是它的“目录”索引的常见模型哈希表、有序数组和搜索树的区别哈希表是一种以键 - 值(key-value)存储数据的结构,我们只要输入待查找的键即 key,就可以找到其对应的值即 Va...原创 2020-04-01 11:57:37 · 149 阅读 · 1 评论 -
备份策略选型及恢复 MySQL (五)
1.1 备份的原因备份是数据安全的最后一道防线,对于任何数据丢失的场景,备份虽然不一定能恢复百分之百的数据(取决于备份周期),但至少能将损失降到最低。衡量备份恢复有两个重要的指标:恢复点目标(RPO)和恢复时间目标(RTO),前者重点关注能恢复到什么程度,而后者则重点关注恢复需要多长时间。1.1.1 备份的目录做灾难恢复:对损坏的数据进行恢复和还原需求改变:因需求改变而需要把数据还原到改变...原创 2020-03-31 10:06:19 · 329 阅读 · 0 评论 -
MySQL 5.7配置详解
[client]#password=88888888mysql默认密码socket=/data/var/mysql/mysql.sockmysql以socket方式运行的sock文件位置[mysqld_safe]log-error=/var/log/mysqld.log错误日志位置pid-file=/var/run/mysqld/mysqld.pid进程id文件[mysql]...转载 2020-03-30 17:45:11 · 216 阅读 · 0 评论 -
实时数据收集引擎Logstash
Logstash一、Logstash简介Logstash 是一个实时数据收集引擎,可收集各类型数据并对其进行分析,过滤和归纳。按照自己条件分析过滤出符合数据导入到可视化界面。它可以实现多样化的数据源数据全量或增量传输,数据标准格式处理,数据格式化输出等的功能,常用于日志处理。工作流程分为三个阶段:(1)input数据输入阶段,可接收oracle、mysql、postgresql、file等多...原创 2020-03-16 20:39:25 · 431 阅读 · 0 评论 -
监控日志loging elastIcsearch 安全篇(三)
一、ElasticSearch未授权访问风险1、ElasticSearch漏洞描述默认情况下ElasticSearch如果开放了外网访问,用户是可以通过API直接操作ElasticSearch里的数据,甚至删除所有数据,这个漏洞风险极大。可直接访问的API如下:http://x.x.x.x:9200/_cat/indices/http://x.x.x.x :9200/_plugin/he...原创 2020-08-01 17:00:14 · 366 阅读 · 0 评论 -
监控日志loging elastIcsearch 原理篇(一)
搜索引擎是对数据的检索,所以我们先从生活中的数据说起。我们生活中的数据总体分为两种:结构化数据 和 非结构化数据。结构化数据:也称作行数据,是由二维表结构来逻辑表达和实现的数据,严格地遵循数据格式与长度规范,主要通过关系型数据库进行存储和管理。指具有固定格式或有限长度的数据,如数据库,元数据等。非结构化数据:又可称为全文数据,不定长或无固定格式,不适于由数据库二维表来表现,包括所有格式的办公...原创 2020-03-11 13:06:27 · 348 阅读 · 0 评论 -
客户端工具及sql语句 MySQL(二)
MySQL 客户端工具1.1.1 MysQL客户端命令介绍mysql命令客户端用于数据库连接管理将 用户SQL 语句发送到服务器mysqladmin命令 :命令行管理工具mysqldump命令 :备份数据库和表的内容1.1.2 mysql命令说明用于连接数据库用于管理数据库通过下列方式进行管理命令接口自带命令DDL:数据定义语言DCL:数据控制语言DML:数据操作语言m...原创 2020-03-10 22:02:05 · 623 阅读 · 1 评论 -
Mysql高性能优化规范建议
数据库命令规范所有数据库对象名称必须使用小写字母并用下划线分割所有数据库对象名称禁止使用mysql保留关键字(如果表名中包含关键字查询时,需要将其用单引号括起来)数据库对象的命名要能做到见名识意,并且最后不要超过32个字符临时库表必须以tmp_为前缀并以日期为后缀,备份表必须以bak_为前缀并以日期(时间戳)为后缀所有存储相同数据的列名和列类型必须一致(一般作为关联列...转载 2020-03-10 12:53:26 · 212 阅读 · 0 评论 -
通过安装初识数据库 MySQL (一)
通过安装初识MySQL数据库*一.MySQL二进制软件包安装(推荐使用无网络正常安装)官网MySQL有四个版本:GA版、DMR版、RC版、Beta版。一般生产和测试环境使用GA版(常规可用的版本,经过bug修复测试)官网下载路径https://downloads.mysql.com/archives/community/[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(...原创 2020-03-09 21:20:27 · 259 阅读 · 0 评论