大数据
文章平均质量分 89
zxhyxwwu
未来规划:软件架构,项目管理,结合大数据
展开
-
用4+1架构视图说说Flink架构
友情提示,本文11239字,预计阅读时间25分钟。在实时流计算的江湖里,Flink 大有一统江湖的味道,其正处于如日中天的高光时刻。溯古论今,Flink 起源于德国柏林大学2010年的一个研究项目,2014年到 Apache 舞台露了个脸,2019年被阿里巴巴收购后开始走上人生巅峰,收获一众粉丝,名气越来越大,在实时流计算的地位越来越高,截止本文写作时间,最新版本为1.14.4,功能越来越多,操作越来越简单,生态越来越多样化。九层楼台,起于垒土,千里之行始于足下,万变不离其宗,一切的迭代都是基于设计好的原创 2022-05-04 23:07:51 · 2856 阅读 · 0 评论 -
分布式快照:确定分布式系统的全局状态
摘要:本文尝试翻译了chandy和lamport分布式快照论文。在一个分布式系统中,只要所有节点都记录各自状态,发送、接收数据也都分别记录状态,并将各自状态数据汇总成系统全局状态,则这个系统内是可以实现数据一致性的,即系统故障能够精确的恢复到故障前的状态。就像用一台相机给空中的一群鸟拍照,无法拍到全景图,如果同时用10台甚至更多相机同时抓拍,最后再将所有相机拍摄的照片合成为全景图,则可以完整的保存某一个瞬间的飞鸟的状态。1 导言本文提出了分布式系统中进程在计算过程中确定系统全局状态的算法。分布式系统原创 2021-03-27 12:46:00 · 864 阅读 · 0 评论 -
数据清洗(一)flink算子从socket读取json文本并进行数据处理
摘要:在国家实施大数据战略加快建设数字中国的伟大时代背景下,随着各种新型大数据技术的快速发展,flink在企业批流一体化大数据平台建设过程中,逐步稳固了江湖地位。本文将用flink转换算子演示对一个json文本进行数据清洗。科学技术是第一生产力,值此“新基建”建设如火如荼时,大数据是信息化发展的新阶段,各地正在大力推进大数据产品创新发展,数字成为数字经济中的关键要素,时代正经历百年未有之大变局,疫情这个黑天鹅还在四处挥舞,数据治理提升到了国家高度,未来十年国家将以数据治国,企业将以数据经营,个人将以数据原创 2021-01-30 15:49:43 · 3549 阅读 · 1 评论 -
你家kafka正常运行着吗
kafka是分布式架构里重要成员,常用于异步处理、应用解耦、流量消峰、日志采集。开发人员十之八九只会用(更有甚者只知用SpringKafka,不解Kafka Client API),不知其法,亦不愿探其法,其结局就是出了问题,抓耳挠腮,忍丢失数据之痛而重启大吉。本文将从基础理论,案例实验,专家学者三个角度探究kafka的监控运维,提供一个kafka知识地图,力求让工程师敢用kafka,会用kafka,能控kafka。初,理论先行,后,实践之,再后,研究生产案例,以求学、练、用、思、总,以达到很好的学习效原创 2021-01-24 22:02:27 · 368 阅读 · 0 评论 -
我的Hadoop安装——使用Cloudera部署,管理Hadoop集群(离线安装CDH5.7.0)
- 概述- 文件下载- 系统环境搭建- Cloudera Manager安装与集群配置- 日志查看- Q&A- 参考概述CDH (Cloudera's Distribution, including Apache Hadoop),是Hadoop众多分支中的一种,由Cloudera维护,基于稳定版本的Apache Hadoop构建,并集成了很多补丁,可原创 2017-06-24 23:15:24 · 21389 阅读 · 0 评论 -
storm环境搭建及demo
概述文件下载系统环境搭建和配置storm demoQ&A参考概述Storm是一个开源的分布式实时计算系统,可以简单、可靠的处理大量的数据流。被称作“实时的hadoop”。Storm有很多使用场景:如实时分析,在线机器学习,持续计算, 分布式RPC,ETL等等。Storm支持水平扩展,具有高容错性,保证每个消息都会得到处理,而且处理速度很快(在一个小集群中,每个结点每秒可以处理 数以百万计原创 2017-07-05 16:04:33 · 802 阅读 · 0 评论 -
kafka环境搭建及demo
概述文件下载系统环境搭建和配置kafka demo参考概述kafka是一个分布式的消息缓存系统kafka集群中的服务器都叫做brokerkafka有两类客户端,一类叫producer(消息生产者),一类叫做consumer(消息消费者),客户端和broker服务器之间采用tcp协议连接kafka中不同业务系统的消息可以通过topic进行区分,而且每一个消息topic都会被分区,以分担消原创 2017-07-06 01:24:51 · 4061 阅读 · 0 评论 -
scrapy爬虫环境搭建
概述文件下载系统环境搭建和配置参考概述 Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。 可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中。 scrapy-splash:第三方中间件来提供JS渲染服务,解决由js动态生成的HTML页面问题。 文件下载 centos7下载(最新的docker服务依赖centos7),下载地址:http://www.ce原创 2017-07-17 18:24:41 · 1316 阅读 · 0 评论 -
查看hdfs的fsimage和editlog
(一)名称解释fsimage,namenode的元数据镜像文件,保存在磁盘editlog,namenode操作日志fstime,最近一次的checkpoint时间metadata,一个文件存储在哪些DataNode节点的哪些位置的元数据信息NN,namenodeSNN,secondarynamenodeNamenode主要维护两个文件,一个是fsimage,一个是editlog(二)如何查看fsi...原创 2018-06-04 12:17:21 · 4822 阅读 · 1 评论