大数据
文章平均质量分 84
李奇峰1998
吾生也有涯,而知也无涯
展开
-
对数据中台的梳理与思考
中台是将系统的通用化能力进行打包整合,通过接口的形式赋能到外部系统,从而达到快速支持业务发展的目的。比如业务中台,更多的是对业务的支持,比如客户信息,组织信息、产品信息等,这些都来自某一个系统,且分别支持多个系统的业务。提供给业务中台使用。从技术角度,中台是为了搭建一个灵活快速应对变化的架构,可以快速实现前端提的需求,避免重复建设,这也是符合敏捷开发理念。业界目前对数据中台没有统一的定义,本篇文章仅基于共识给出PowerData的理解。数据中台并不是一种技术,更多的是数据集成、管理、应用的体系。原创 2023-01-30 18:48:25 · 1010 阅读 · 2 评论 -
数据质量管理深入浅出
质量是生活中最常关注的话题,我们都期望享用高质量的商品与服务,且企业也不断加大质量管理的投入,为了更好的用户体验。在企业数字化转型浪潮下,传统手段已无法应对数字化转型中的数据质量管理需求,我们需要探索出一条数据独有的质量管理体系应对新的需求。本篇文章以数据质量管理为目标,探究数据质量背后的逻辑,并通过管理与技术手段进行落地。原创 2023-01-30 14:25:52 · 628 阅读 · 0 评论 -
【实战】元数据管理落地实施
我是谁,我从哪里来,我要到哪里去,我会做什么,我能做什么?我时常反思这些问题,才不至于在快速发展的社会中迷失。作为数据从业者,我们也需要探查数据的本质,并对其进行追踪、登记、管理,才不至于在海量数据中迷失。今天这篇文章将会详细介绍描述数据的数据:元数据,并给出具体的落地实施方案。原创 2022-10-24 22:04:04 · 1400 阅读 · 3 评论 -
【2022持续更新】大数据最全知识点整理-Spark篇
大数据最全面试题整理-Spark篇导语基础问题:导语本专栏博文会整理日常工作与面试中最常用到的大数据相关组件与Java语言的架构、概念、知识点,方便大家进行查阅。涉及到的面试题以及答案均为博主搜罗整理,并加上自己的理解编写而成。同时博主会在部分题目的下方添加管遇此题深入理解的博文连接,方便读者的深入理解。希望大家可以通过此篇博文对于大数据相关概念有一个更深入的理解还有哪些想看的面试题,读者可以在评论区补充,博主会在一天内进行更新!!!最后预祝大家新的一年升职加薪,工资涨涨涨!基础问题:原创 2021-11-18 16:26:06 · 1509 阅读 · 0 评论 -
【2022持续更新】大数据最全知识点整理-数据仓库篇
大数据最全知识点整理-数据仓库篇1、什么是数据仓库(数仓的定义)2、数据仓库特点面向主题集成性稳定性反映历史变化3、数据库和数据仓库的区别4、数仓构建流程1) 数据调研、划分主题域2) 明确统计指标3) 构建总线矩阵4) 构建明细模型5) 构建汇总模型6) ETL以及代码实现7) 数仓应用、结果验证8) 数仓管理5、数仓分层概述6、数仓为什么要分层把复杂问题简单化清晰数据结构:空间换时间、减少重复开发。数据之间解耦合:7、维度建模选择:星型、雪花、星座星型模型雪花模型星座模型比较8、缓慢变化维处理9、拉链表原创 2022-01-19 09:54:45 · 5867 阅读 · 40 评论 -
ElasticSearch核心知识讲解
ElasticSearch核心知识讲解倒排索引倒排索引建立流程倒排索引具体组成分词Analysis(文本分析)Analyzer(分词器)分词测试mappingdynamic查询倒排索引倒排索引作为ES的核心,底层基于Lucene进行实现。倒排索引(Inverted Index)也叫反向索引,有反向索引必有正向索引。通俗地来讲,正向索引是通过文档ID找单词,类似于书的目录结构。反向索引则是通过单词找文档ID,类似于字典查词,首先必须知道单词的全拼,然后通过字典的索引页再去查找单词的详情。倒排索引建立原创 2021-09-15 17:10:13 · 586 阅读 · 0 评论 -
宏观解释Kafka数据发送流程
Kafka数据写入流程1、确定集群暴露地址1、确定集群暴露地址在进行Kafka数据写入的过程中,首先第一步需要先确定Kafka集群对外暴露的地址。也许你可能会有疑惑,Kafka的地址还需要确认?不是直接kafka_ip:9092就可以了吗?稍等稍等,你也许对Kafka的地址了解的没有那么多。在Kafka中有两个参数:listeners和advertised.listenerslisteners:用来定义Kafka Broker的本机监听地址,如果没有设置,默认使用本机的hostname:9092原创 2021-09-14 09:50:57 · 883 阅读 · 0 评论 -
Kafka中的Controller(控制器)节点
文章目录导语Controller(控制器)知识点什么是ControllerController选举过程元数据内容Controller主要作用:故障转移脑裂问题导语在kafka暴露公网的过程中,遇到了一些例如元数据无法获取、生产者无法正常发送数据等问题在不断查找资料的过程中,详细深入了解了kafka的网络、数据发送过程、controller、leader等概念,并合理应用以上知识点顺利将kafka进行公网暴露。Controller(控制器)知识点在前期的公网暴露测试过程中,只是随机将kafka原创 2021-09-08 22:49:48 · 1752 阅读 · 0 评论 -
Kafka配置公网访问,直接暴露方式与nginx代理方式(绝对没问题)
1、无需在配置文件里添加listeners与advertised.listeners两个配置项2、修改集群中每个broker的advertised.host.name,将其修改为你想要映射的公网IP或域名3、修改集群中每个broker的advertised.port,将其修改为你想要映射到公网上的端口4、必须确保集群中的每个broker都暴露的公网,也就是都必须进行映射。5、如果多个broker中的advertised.host.name相同,也就是对外只有一个公网IP,那么多个broker间的ad原创 2021-08-25 15:21:49 · 5462 阅读 · 1 评论 -
【2022持续更新】大数据最全知识点整理-Kafka篇
大数据最全知识点整理-Kafka篇导语1、 kafka 是什么?有什么作用?2、Kafka为什么这么快3、Kafka架构及名词解释4、Kafka中的AR、ISR、OSR代表什么?5、HW、LEO代表什么?6、ISR收缩性:7、kafka follower如何与leader同步数据8、Zookeeper 在 Kafka 中的作用(早期)9、Kafka如何快速读取指定offset的消息?10、生产者发送消息有哪些模式?11、发送消息的分区策略有哪些?12、Kafka可靠性保证(不丢消息)13、Kafka 是怎么原创 2021-07-15 09:29:55 · 1540 阅读 · 4 评论 -
【2022持续更新】大数据最全知识点整理-HBase篇
大数据最全知识点整理-HBase篇基础问题:1、Hbase是什么2、Hbase架构3、Hbase数据模型4、Hbase和hive的区别5、Hbase特点6、数据同样存在HDFS,为什么HBase支持在线查询,且效率比Hive快很多7、Hbase适用场景8、RowKey的设计原则9、HBase中scan和get的功能以及实现的异同?10、Scan的setCache和setBatchsetCachesetBatch11、HBase 写流程12、HBase 读流程13、HBase中Zookeeper的作用14、S原创 2021-02-08 15:36:34 · 3121 阅读 · 7 评论 -
【2022持续更新】大数据最全知识点整理-hive篇
本专栏博文会整理日常工作与面试中最常用到的大数据相关组件与Java语言的架构、概念、知识点,方便大家进行查阅。涉及到的面试题以及答案均为博主搜罗整理,并加上自己的理解编写而成。同时博主会在部分题目的下方添加管遇此题深入理解的博文连接,方便读者的深入理解。希望大家可以通过此篇博文对于大数据相关概念有一个更深入的理解还有哪些想看的面试题,读者可以在评论区补充,博主会在一天内进行更新!原创 2021-01-31 21:56:41 · 1821 阅读 · 2 评论 -
【2022持续更新】大数据最全知识点整理-HDFS篇
此专栏博文会整理日常工作与面试中最常用到的大数据相关组件与Java语言的架构、概念、知识点,方便大家进行查阅。涉及到的面试题以及答案均为博主搜罗整理,并加上自己的理解编写而成。同时博主会在部分题目的下方添加管遇此题深入理解的博文连接,方便读者的深入理解。希望大家可以通过此篇博文对于大数据相关概念有一个更深入的理解还有哪些想看的面试题,读者可以在评论区补充,博主会在一天内进行更新!!!最后预祝大家新的一年升职加薪,工资涨涨涨!...原创 2021-01-26 23:24:15 · 1945 阅读 · 8 评论 -
【2022持续更新】大数据最全知识点整理-Java篇
大数据最全知识点整理-Java篇语言特性string,stringgbuffer,stringbuilder区别:== 和equals区别ArrayList和LinkedList的区别HashTable和HashMap区别并发与多线程JAVA多线程实现的四种方式Thread 类中的start() 和 run() 方法有什么区别?volatile 和synchronized ?什么是线程池? 为什么要使用它?JVM内存模型简述GC内存回收类加载顺序new一个对象的具体过程双亲委派机制语言特性string,原创 2021-01-26 21:05:10 · 993 阅读 · 1 评论 -
【源码解读】Flink-Kafka连接器自定义序列器和分区器
通过阅读源码得知,目前Flink官方不推荐通过分区器来进行数据的分区操作,可以通过序列化器实现。同时KeyedSerializationSchema分区器已经不推荐使用,推荐使用KafkaSerializationSchema原创 2021-01-19 23:15:30 · 3072 阅读 · 4 评论 -
Flink与Kafka版本对应关系
这边建议各位在使用Flink中Kafka连接器的时候,去Maven仓库中查看一下依赖,选用匹配的Flink与Kafka版本,避免出现异常。原创 2021-01-13 13:40:26 · 8059 阅读 · 0 评论 -
Flink、Spark、Storm技术对比列表
ApacheFlinkSpark StreamingStorm架构架构介于Spark和Storm之间,主从结构与SparkStreaming相似,DataFlow Grpah与Storm相似架构依赖Spark,每个Batch处理都依赖主(Driver),可以理解为时间维度上的spark DAG。主从模式,且以来Zookeeper,处理过程中对主节点依赖不大。处理模式NativeMicro-batchNative容错基于CheckPoint机制WAL及RDD...原创 2021-01-03 23:10:43 · 835 阅读 · 0 评论 -
【教程】Hbase+ElasticSearch构建海量数据检索平台
【教程】Hbase+ElasticSearch构建海量数据检索平台导读架构设计导读当前文章构建在读者已经了解Hbase与ElasticSearch相关技术的前提下,如果读者对这两个数据库较为陌生,那么推荐以下两篇文章:《可能是最易懂的Hbase架构原理解析》《原来 Elasticsearch 还可以这么理解》看到这个标题,了解ElasticSearch的同学可能就要说为什么做数据检索要加上Hbase,ElasticSearch本身的存储性能不是就足以支撑海量数据吗?首先ElasticSear原创 2020-12-27 23:48:47 · 6431 阅读 · 7 评论 -
开源-基于ElasticSearch的通用搜索引擎
想要做出一个好的搜索引擎,重中之重是要先做好数据治理。原创 2020-12-21 23:57:41 · 2740 阅读 · 19 评论 -
CDH大数据节点宕机测试
一、集群现状集群组件说明:目前集群中安装了若干大数据相关组件,包括HDFS、Hbase、Hive等存储相关组件与Flume、Spark、Kafka等数据采集与处理相关组件。集群主机说明:目前集群中有5台主机,为同一台宿主机上的5台虚拟机。为确保HDFS副本正常分布,故主机cdh1、cdh2、cdh3的机架设置为“test1”,cdh4、cdh5的机架设置为“test2”注:Hadoop在设计时考虑到数据的安全与高效,数据文件默认在HDFS上存放三份,存储策略为:第一个副本放在其中一台节点中第原创 2020-05-25 20:09:58 · 960 阅读 · 0 评论 -
HDFS文件上传异常分析:put: `test.txt': No such file or directory
问题描述Linux上传本地文件到HDFS中时,出现“No such file or directory”但是你发现当前文件夹下此文件是存在的这个时候你也许担心会不会是文件权限的问题,因为我们在使用hdfs命令时,切换到了hdfs用户,但是当前文件所属的用户与用户组为root,于是我们在将此文件的用户与用户组修改为hdfs再试一下可以看到,还是报同样的错误,然后又按照同样的方法将此文件所在文件夹的用户与用户组修改为了hdfs,还是不行解决方法将此文件所在文件夹的用户与用户组修改为hdfs后,原创 2020-05-09 16:34:22 · 19763 阅读 · 3 评论 -
Centos7在线安装CDH6
以下步骤亲测有效无误!!!!!一、 基础环境准备1)软件清单Centos7(64位)服务器3台,地址如下:jdk1.8Mysql5.7 (必须要5.7的版本!!)mysql-connector-java-5.1.42-bin.jarcloudera-manager-agent-6.3.1-1466458.el7.x86_64.rpm(https://archive.clouder...原创 2020-01-06 17:23:37 · 2313 阅读 · 4 评论 -
房价数据可视化
南京二手房数据可视化原创 2019-12-02 17:22:23 · 2274 阅读 · 0 评论 -
Kafka中数据通过SpringBoot-WebSocket进行实时数据可视化
此博客主要讲解了如何在SpringBoot中配置WebSocket和Kafka,并将两者进行结合,将Kafka数据通过WebSocket实时推送到前端进行展示原创 2019-11-22 15:31:58 · 3346 阅读 · 0 评论 -
python将kafka数据写入memcache
import jsonimport memcachefrom kafka import KafkaConsumerclass KafkaToMemcache: def __init__(self, topic, kafka_host): self.memcache = memcache.Client(['127.0.0.1:11211']) s...原创 2018-04-27 13:49:10 · 394 阅读 · 0 评论 -
离线数据清洗,Spark和Python Pandas对比
导语最近新学习了Spark中RDD的核心用法,为了巩固学习成果,于是使用Spark写了一个数据清洗的代码,正好之前使用过python中pandas对同样的数据做数据清洗,于是就把两种方式的代码都贴出来,做一个简单的对比数据展示豆瓣图书标签: 小说,[日] 东野圭吾 / 李盈春 / 南海出版公司 / 2014-5 / 39.50元,解忧杂货店,8.6,(297210人评价)豆瓣图书标签...原创 2018-08-27 10:40:08 · 2622 阅读 · 5 评论 -
python实现KNN(最近邻)算法
KNN(近邻)算法KNN算法可能是标准数据挖掘算法中最为直观的一种。为了对新个体进行分类,它查找训练集,找到与新个体最相似的那些个体,看看这些个体大多属于哪个类别,就把新个体分到哪个类别 KNN算法几乎可以对任何数据集进行分类,但是,要计算数据集中每两个个体之间的距离,计算量很大数据集选取本次数据集选用电离数据,该数据集每行有35个值,前34个为天线采集的数据,最后一个值不是“g...原创 2018-09-10 19:28:53 · 2402 阅读 · 0 评论 -
Java实现Kafka生产者与消费者
消费者类import org.apache.kafka.clients.producer.*;import org.apache.log4j.Logger;import java.util.Properties;/** * @author liqifeng * 此类使用Holder单例模式实现了kafka生产者 */public class TestProducer { ...原创 2018-12-26 23:07:45 · 2162 阅读 · 1 评论 -
基于selenium的动态网页Xpath测试工具
最近在搞一些Xpath网页规则的编写,发现网上的Xpath测试工具很多,但都是基于静态页面的。暂时还没有发现基于动态页面的Xpath测试工具,为了后续的测试方便,于是就自己动手写了一个from tkinter import *import tkinter as tkfrom lxml import etreefrom selenium import webdriverfrom se...原创 2019-03-15 20:23:06 · 616 阅读 · 0 评论 -
Spark基础概念梳理
因为最近在学习与使用Spark,所以对一些基础概念与术语做一些梳理。用来加深映像同时方便后续复习spark是一个基于内存的分布式计算框架,可无缝集成于现有的Hadoop生态体系。主要包括四大组件:Spark Streaming、Spark SQL、Spark MLlib和Spark GraphX。其中Spark运行中涉及到的一些基础概念如下:mater:主要是控制、管理和监督整个sp...原创 2019-05-26 21:50:07 · 298 阅读 · 0 评论 -
Centos7在线安装CDH5
以下步骤亲测有效无误!!!!!一、 基础环境准备1)软件清单Centos7(64位)服务器3台,地址如下:192.168.56.1(此地址映射你自己的服务器地址)192.168.56.2(此地址映射你自己的服务器地址)192.168.56.3 (此地址映射你自己的服务器地址)jdk1.8Mysql5.7 (必须要5.7的版本!!)mysql-connector-java-5....原创 2019-07-03 13:00:49 · 795 阅读 · 4 评论