大数据架构
wandy0211
这个作者很懒,什么都没留下…
展开
-
flink client提交
cli.parseParameters(args));// 解析参数+提交 ==> 然后进到parseParameters方法,执行到switch case ACTION_RUN 1 ==> run(params); ==> runProgram ==> 2 ==> if (isNewMode && clusterId == null && runOptions.getDetachedMode()) {//yarn per job -d模式 ..原创 2020-10-30 17:21:32 · 334 阅读 · 0 评论 -
大数据运营报告
数据运营报告需要对大数据集群的文件信息出报告,需要统计出文件总数,小文件总数、可合并文件总数、3个月未访问文件总数、6个月未访问文件总数、一年未访问文件总数,小文件趋势。 一开始的方案是写程序每天晚上去访问hdfs的namenode获取filestatus对象,然后对对象属性进行分析存储到es。一个集群的文件总数8kw左右,一天一份数据,需要保存2个月,大概就是48亿条数据,对于es来说压力已经很大。 最近集团要求接管所有集群,大概是20多个,一估算差不多100亿...原创 2020-10-30 11:37:57 · 338 阅读 · 0 评论 -
关于编写基础组件开发的一些思考
以前主要写的是业务系统,感觉业务系统有很成熟的架构,已经封装了很多功能,只需要在架构基础上书写业务逻辑代码即可,主要用的的技术也就是JPA,业务复杂一些可能会有多线程高并发的知识。 但是最近向从0开始写一个大数据采集组件,前后借鉴了spring batch, kafka, flume, nifi 等源码,最后还是搞得很被动。今晚静下心来总结一下到底是拿出问题,我暂时觉...原创 2020-04-04 23:38:21 · 276 阅读 · 0 评论 -
数据采集系统
两个月的时间,终于做出了数据采集系统,虽然支持的插件少了一点,但是整个数据采集的调度,工作流以及执行引擎功能都已完成,后面需要开发新的数据源只需要添加对应的task任务。数据采集架构:程序执行时序图:...原创 2020-01-06 17:46:57 · 994 阅读 · 0 评论 -
Flink源码解析 | 从Example出发:理解Flink启动流程
从《Apache Flink本地部署》这篇文章中可以看到,我们启动集群都是通过脚本start-cluster.sh开始执行。我们的源码解析之路就从flink的bash脚本入手。start-cluster.shbin=`dirname "$0"`bin=`cd "$bin"; pwd`. "$bin"/config.sh# Start the JobManager instanc...转载 2019-11-05 11:09:12 · 333 阅读 · 0 评论 -
JanusGraph
Setting up JanusGraph i noticed the following in the console:09:04:12,175 INFO ReflectiveConfigOptionLoader:173 - Loaded and initialized config classes: 10 OK out of 12 attempts in PT0.023S09:04:...原创 2019-10-31 16:51:38 · 457 阅读 · 0 评论 -
yarn使用cgroup隔离cpu资源
yarn使用cgroup隔离cpu资源yarn默认只管理内存资源,虽然也可以申请cpu资源,但是在没有cpu资源隔离的情况下效果并不是太好.在集群规模大,任务多时资源竞争的问题尤为严重.还好yarn提供的LinuxContainerExecutor可以通过cgroup来隔离cpu资源cgroupcgroup是系统提供的资源隔离功能,可以隔离系统的多种类型的资源,yarn只用来隔离cp...转载 2019-10-31 16:30:25 · 220 阅读 · 0 评论 -
CDH大数据平台优化---操作系统优化
在安装cdh大数据平台之前,为了得到更高的效率,需要从操作系统层面做一些简单的优化。优化主要有以下几点:1.Disable the tuned Service systemctl stop tuned systemctl disable tuned2.Disabling Transparent Hugepagesecho never > /sys/kernel/mm/t...原创 2018-10-16 17:22:58 · 1022 阅读 · 0 评论 -
MirrorMaker使用(基于CM)
1. 进入Kafka组件,选择“实例”,点击添加角色实例2. 对应Kafka MirrorMaker项,点击“选择主机”3. 选择部署MirrorMaker 角色的主机,点击“确定”4. 点击“继续”5. 配置源kafka集群和目的kafka集群的bootstrap servers的ip和port6. 配置需要镜像的topic的白名单,然后选择“确认”,等待...原创 2018-10-16 19:09:04 · 7834 阅读 · 0 评论 -
CDH大数据平台优化---hdfs优化
hdfs作为大数据底层的分布式文件系统,在大数据生态圈中起着很重要的作用,hdfs文件系统的性能直接影响着大数据平台性能。故对hdfs做有效的优化显得尤其重要。现对hdfs优化总结如下:core-default.xml hadoop.common.configuration.version 配置文件的版本。 hadoop.tmp.dir=/tmp/h...原创 2018-10-17 10:42:35 · 3127 阅读 · 0 评论 -
ceph部署
ceph 安装:准备:1.添加部署用户:ceph_deploy2.添加sudo nopasswd3.配置ssh nopasswd 登陆4.配置ceph数据源: yum install -y epel-release && rpm -ivh https://download.ceph.com/rpm-luminous/el7/noarch/ceph-release-1-...原创 2018-12-15 12:27:00 · 153 阅读 · 0 评论 -
ceph学习笔记
ceph学习:ceph 存储集群:配置与部署:准备硬盘: 操作系统和 Ceph OSD 守护进程数据分别放到不同的硬盘。如果必须把数据和系统放在同一硬盘里,最好给数据分配一个单独的分区!文件系统: OSD 守护进程有赖于底层文件系统的扩展属性( XATTR )存储各种内部对象状态和元数据。底层文件系统必须能为 XATTR 提供足够容量, btrfs 没有限制随文件的 xattr 元数...原创 2019-01-22 14:09:39 · 639 阅读 · 0 评论 -
ceph学习
运维ceph:配置: 准备硬盘: 我们建议操作系统和 Ceph OSD 守护进程数据分别放到不同的硬盘。如果必须把数据和系统放在同一硬盘里,最好给数据分配一个单独的分区。 文件系统: OSD 守护进程有赖于底层文件系统的扩展属性( XATTR )存储各种内部对象状态和元数据。底层文件系统必须能为 XATTR 提供足够容量, btrfs 没有限制随文件的 xattr ...原创 2019-01-22 15:44:00 · 204 阅读 · 0 评论 -
HDF
Hortonworks DataFlow (HDF)是一个可伸缩的实时流分析平台,它可以摄取、管理和分析数据,以获得关键的见解和即时可操作的智能。数据流解决了企业在高容量、高规模的数据移动实时流处理、来自物联网设备、边缘应用程序和流资源的数据来源和摄取等方面面临的关键挑战。优点:1. 减少数据集成开发时间2.管理和保护您的数据从边缘到企业3.比以往任何时候都更快地获得...原创 2019-03-13 17:43:27 · 1044 阅读 · 0 评论 -
Kafka Connect简介
一. Kafka Connect简介 Kafka是一个使用越来越广的消息系统,尤其是在大数据开发中(实时数据处理和分析)。为何集成其他系统和解耦应用,经常使用Producer来发送消息到Broker,并使用Consumer来消费Broker中的消息。Kafka Connect是到0.9版本才提供的并极大的简化了其他系统与Kafka的集成。Kafka Connect运用用户快速定义并实现各种C...转载 2019-06-25 18:44:59 · 21892 阅读 · 1 评论 -
开源OLAP引擎测评报告(SparkSql、Presto、Impala、HAWQ、ClickHouse、GreenPlum)
本文为博主公司转载文章,转载请回复留言(不知道这么转载,实在抱歉)开源OLAP引擎测评报告(SparkSql、Presto、Impala、HAWQ、ClickHouse、GreenPlum)易观CTO 郭炜 序现在大数据组件非常多,众说不一,在每个企业不同的使用场景里究竟应该使用哪个引擎呢?这是易观Spark实战营出品的开源Olap引擎测评报告,团队选取了Hive、Sparksql、Pr...原创 2019-08-28 09:10:53 · 670 阅读 · 0 评论 -
confluent
最开始接触confluent是通过这篇博客,How to Build a Scalable ETL Pipeline with Kafka Connect,对于做大数据的,数据的ETL(抽取,转换,装载)是必不可少的。例如,要把传统的关系型数据库中的数据导入到HDFS里,或者导入到Hive中,进一步对数据进行分析,或者把json或者文本文件中的数据导入到大数据数据仓库中进行分析。这都需要ETL。这...转载 2018-05-28 09:27:08 · 1015 阅读 · 0 评论 -
phoenix使用总结
前言: HBase作为kv数据库,在大数据应用中扮演着越来越重要的角色,但是HBase给出的原生态API(Table,scan,put,get)的晦涩和关联查询的缺失,导致一些业务能力的不足。phoenix为HBase提供了sql访问接口,接下来我们将总结一下具体项目中phoenix整合hbase。什么是phoenix: phoenix是构建在HBase之上原创 2017-10-09 17:21:56 · 1072 阅读 · 0 评论 -
CDH基本概念
本文作为入手CDH的基础篇,主要介绍CDH的基本概念;cluster :集群。运行相互独立的服务主机的集群,在同一个集群中,所有服务必须要有同样的CDH版本。services:服务。集群中提高某种特定能力的抽象实体,比如hdfs,hbase,yarn等。role:角色。服务中扮演特定功能,被分配到某个主机。role type:角色类型。主要区分角色进程的分类,比如hdfs的name原创 2017-10-10 13:50:12 · 1266 阅读 · 0 评论 -
linux的环境变量
linux的环境变量文件主要有1。 /etc/profile 全局环境变量 每个用户第一次登陆时设置 ~/.bash_profile 用户环境变量,每一个用户第一次登陆时设置 ~/.profile.2. ~/.bashrc. 用户级环境变量,用户登陆,打开新会话时设置3. /etc/bashrc4. ~/.bash_logout. 用户环境原创 2017-10-12 21:08:49 · 138 阅读 · 0 评论 -
linux网络配置
service networkmanager stopip地址:ifconfig -a网关地址: netstat -rndns 地址:cat /etc/resolv.conf修改networks原创 2017-10-12 21:23:41 · 122 阅读 · 0 评论 -
hadoop相关认证
前言: 关于Hadoop课程及认证证书的事,想着整理一下,可能觉得有用的。 首先我所知道的在做Hadoop认证的有两家,Hortonworks跟Cloudera。因为工作的原因接触Cloudera比较多,所以就只能讲讲Cloudera的认证了。主要认证 我只知道7门课: 1、CCAH(Cloudera Apache Hadoop管理员),原创 2017-10-13 16:48:29 · 7890 阅读 · 2 评论 -
Phoenix Tuning Guide
Phoenix Tuning GuideThe most important factor in performance is the design of your schema, especially as it affects the underlying HBase row keysPrimary KeysThe Phoenix primary keys are co原创 2017-11-09 17:59:24 · 389 阅读 · 0 评论 -
Phoenix configuration
Phoenix Configurationhoenix provides many different knobs and dials to configure and tune the system to run more optimally on your cluster. The configuration is done through a series of Phoenix-sp原创 2017-11-09 18:03:41 · 925 阅读 · 0 评论 -
hadoop入门之hosts-hostname-ip修改
开机进入文本模式原创 2017-10-15 19:47:34 · 1296 阅读 · 1 评论 -
hadoop入门介绍
commonhdfs namenode datanode secondarynamenodeyarn resourcemanager nodemanager applicationmastermapreduce map reduce原创 2017-10-15 20:18:38 · 182 阅读 · 0 评论 -
大数据集群部署
大数据集群部署前考虑的几个问题:数据量存储能力计算能力内存处理主要组件 hdfs yarn(ha最重要)最小集群从6台起步,选择两台为nn和rs服务节点存储能力计算: 数据量*3/3*4slave 节点硬件选择: 中配:master节点硬件选择:软件的选择原创 2017-11-12 22:54:11 · 1179 阅读 · 0 评论 -
大数据技术概览
Pivotal兑现了其年初对于开源其大数据核心产品GemFire,HAWQ,Greemplum DB的承诺 。这个消息也让Pivotal在国内技术社区风风光光的火了一把,程序猿们可以看到真正的企业级数据仓库是如何设计和实现的。与此同时,开源社区中也存在很多类似的优秀大数据相关项目,涵盖了分布式数据存储与计算,数据处理,数据仓库,机器学习等与数据有关的方方面面,下面就让我们看原创 2017-12-21 15:51:20 · 270 阅读 · 0 评论 -
大数据平台下多租户架构研究
多租户技术(multi-tenancy technology)是一种软件架构技术,它是在探讨与实现如何于多用户的环境下共用相同的系统或程序组件,并且仍可确保各用户间数据的隔离性。在大数据环境下实现多租户涉及如下关键技术:1. 资源池Hadoop资源池(pool),或者作业池。 每个pool里有一定量的资源(管理员配置),每个用户属于某个pool,其提交的作业可使用这个pool中的资转载 2017-12-22 10:46:32 · 2760 阅读 · 0 评论 -
slider简介
背景 YARN是HADOOP2中的通用资源管理平台,但是基于YARN开发应用,需要用户自己编写AM来处理资源申请、容错等,难度和复杂性比较大,因此YARN上运行良好的计算框架只有MapReduce、Spark、Tez等少数几个,而不像其宣传的那样能让各种计算框架运行的非常顺畅 Hortonworks公司最初开发了Hoya,该工具可以在YARN上部署转载 2017-12-22 14:05:07 · 969 阅读 · 0 评论 -
五种大数据处理架构
大数据是收集、整理、处理大容量数据集,并从中获得见解所需的非传统战略和技术的总称。虽然处理数据所需的计算能力或存储容量早已超过一台计算机的上限,但这种计算类型的普遍性、规模,以及价值在最近几年才经历了大规模扩展。本文将介绍大数据系统一个最基本的组件:处理框架。处理框架负责对系统中的数据进行计算,例如处理从非易失存储中读取的数据,或处理刚刚摄入到系统中的数据。数据的计算则是指从大量单一数据点原创 2017-12-14 14:12:21 · 54235 阅读 · 1 评论 -
Pentaho
PentahoThe Pentaho products consist of Business Analytics (BA) and Data Integration (DI) components. Which components you use depend on your workflow and what your environment supports:Pentaho Busines...原创 2018-03-06 14:53:00 · 376 阅读 · 0 评论 -
大数据架构设计
来公司半年时间了,一开始研究sahara部署cdh,目的是将大数据服务云服务话。最近由于业务的迫切要求,最近在物理机上搭建了公司自己的大数据平台。 公司业务要求数据平台需要处理DB业务数据,ES日志数据和LOG日志数据,经过一个月的调研,公司的大数据环境基本搭建完成,且通过初步测试,并在平台上运行了PoC案例。 公司的大数据平台架构如下:原创 2017-09-28 18:48:40 · 3295 阅读 · 0 评论