大数据
文章平均质量分 87
OutRoading
这个作者很懒,什么都没留下…
展开
-
大数据-数据分析初步学习,待补充
日活跃用户,定义一个自然日不重复(去重)的用户,跨时区(如全球服务),则关心最近24小时。一般PV/PV,UV/UV,也有PV/UV,eg:详情页PV/详情页UV=人均页面查看数。月活跃用户,MAU原创 2024-06-19 23:41:17 · 871 阅读 · 0 评论 -
企业数据中台功能介绍
对象id,对象标识,对象名称,类型(01表02视图)数据条数,存储大小,资源分类,更新频率(每日),更新方式(全表),业务系统id,数据源id,资源状态。数据线id,数据对象id,数据线标识,数据线名称,数据线类型,长度,精度,空置率,是否代码项,关联表代码表,是否主键,是否增量字段。资源id,名称,摘要,业务分类,表情信息,业务系统id数据源id,状态(试运行,上线,下线)数据源id,类型(01hive,02oracle),业务系统id,ip,端口,登录,密码。原创 2024-06-12 15:12:29 · 957 阅读 · 1 评论 -
Debezuim详细介绍
Debezuim是用于捕获变更数据的开源工具,可以响应数据库的所有插入,修改,删除操作。它是一种CDC工具,工作原理和大家所熟悉的Canal,Maxwell一样,均是抽取 数据库日志 来变更的Debezuim是构建在 Apach Kafka之上,并提供Kafka连接器来监视特定的数据库管理官网: https://debezuim.io/原创 2024-02-24 11:29:13 · 529 阅读 · 0 评论 -
Zookeeper
概述: zookeeper是开源的分布式的,为分布式应用提供协调服务的Apache项目从设计模式理解: 是一个基于观察者模式设计的分布式服务管理框架,它负责存储和管理大家都关系的数据,然后接受观察者的注册,一旦这些数据的状态发生变化,zookeeper就将负责通知已经在zookeeper上注册的那些观察者做出相应的反应。zookeeper = 文件系统+通知...原创 2020-04-23 14:04:51 · 534 阅读 · 1 评论 -
ELK: Beats
Beats: 轻量级日志采集器filebeat: 日志文件(主要)metricbeat: 指标(主要)packetbeat:网络数据,流量指标winlogbeat:Win事件日志auditbeat:审计日志heartbeat:运行时间监控Filebeat:由两个重要组件组成:prospector (勘探者)和 harvester(收割机)harves...原创 2019-11-14 15:04:31 · 185 阅读 · 0 评论 -
SparkStreaming简单通用案例
学习SparkStreaming之前建议 先学习Scala 和 Spark ,这两个学好了,用法大同小异SparkStreaming使用离散化流作为抽象表示,叫做DStream。可用netcat做测试SparkStream 用采集器间隔时间从数据源采集数据,装成一个个离散化流,离散化流再发给driver,最终发给executor执行def sparkStreamingTest=...原创 2019-11-04 13:46:33 · 313 阅读 · 0 评论 -
Spark整理笔记二:算子详解
算子学习spark之前,强烈建议先学习scala。学过java,再学scala不难,看两三天教程就能看会基本操作了。这对学习spark的使用会事半功倍。scala和java的一些写法还是存在很多不同点的。Map: 可以进行计算以及格式转化,对每一条数据操作// 进行计算def mapTest={ val conf = new SparkConf().setMaster("...原创 2019-11-03 08:58:08 · 380 阅读 · 0 评论 -
Scala Spark接收kafka数据来源,存入Es
吼吼,第一次用scala写,虽然是对着抄,但磕磕绊绊中还是运行成功啦~配置文件: <properties> <spark.version>2.2.0</spark.version> <scala.version>2.11</scala.version> </properties>...原创 2019-10-28 15:06:31 · 588 阅读 · 0 评论 -
Es学习-查询
基础查询:简单查询,条件查询,聚合查询简单查询:(GET)127.0.0.1:9200/book/novel/1条件查询:-- 查询全部数据(POST)127.0.0.1:9200/book/_search{ "query":{ "match_all":{} }} -- 分页查询全部数据(POST)127.0.0.1:9200/book/...原创 2019-10-28 14:56:04 · 358 阅读 · 0 评论 -
学习Scala一:基础
根据视频学习的笔记:https://www.bilibili.com/video/av62245517/===================================变量( var ) 和 常量( val )变量在定义的时候一定要有初始值。val a = 12val a:Int = 12lazy 懒加载,调用后才会初始化,在内存中分配空间赋值lazy ...原创 2019-10-28 14:22:22 · 141 阅读 · 0 评论 -
Sqoop初级学习
Sqoop:数据传输 常用功能:数据导入(关系型数据库导入hdfs),数据导出(hdfs导出到关系型数据库),Sqoop作业 辅助性工具:Sqoop代码生成器,Sqoop Eval工具,列出数据库,列出数据表,Sqoop帮助核心技术: 生成MapReduce 作业创建 数据映射 并行控制hdfs查看数据hdfs dfs -cat /user...原创 2019-08-27 15:44:50 · 201 阅读 · 0 评论 -
Hadoop笔记整理
MapReduce: MapReduce作业(job)是客户端需要执行的一个工作单元,包括:输入数据,MapReduce程序和配置信息 Hadoop将MapReduce的输入数据划分成等长的小数据块,称为 输入分片(input split)或 简称 "分片" Hadoop为每个分片构建一个map任务,并由该任务来运行用户自定义的map函数,从而处理分片中的每条数据 ...原创 2019-07-17 15:25:43 · 136 阅读 · 0 评论 -
Spark整理笔记一
Spark: Master WorkderYarn: ResourceManager (ApplicationMaster) NodeManager Container(用于可插拔计算框架)Spark 有三大数据结构: RDD,广播变量,累加器RDD: Resilient Distributed Dataset 弹性分布式数据集 描述: 是Spar...原创 2019-07-17 15:03:21 · 182 阅读 · 0 评论 -
hugegraph-server配置详解
hugegraph-server配置文件的目录为 hugegraph-release/conf,所有关于服务和图本身的配置都在此目录下主要的配置文件包括:gremlin-server.yaml、rest-server.properties 和 hugegraph.propertiesHugeGraphServer 内部集成了 GremlinServer(配置文件:gremlin-ser...转载 2019-06-12 11:41:50 · 2269 阅读 · 1 评论 -
学习Gremlin语言
深入学习1:https://blog.csdn.net/linlin1989117/article/details/82558475V()、E()、id()、label()、properties()、valueMap()、values()深入学习2:https://blog.csdn.net/linlin1989117/article/details/82658777out()、in(...转载 2019-06-10 15:11:07 · 2018 阅读 · 0 评论 -
java:jdbc连接hive2,1.1.0-cdh5.7.6版本
虽然过程磕磕绊绊,但好歹还是给我连成功了!愉快得记录下过程吧~1 首先查询hive 和 hadoop版本查询hive:参考hive版本查看:https://blog.csdn.net/zyzzxycj/article/details/79268754命令:jps 找到RunJar的id命令:lsof -g 204273 | grep hive-service所以找到...原创 2019-06-01 12:49:42 · 3986 阅读 · 2 评论 -
本地Spark单词统计:Spark第一步
第一步挺简单的,两步:引包,写代码引包: <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-core_2.10</artifactId> <version>2.1.1</ve...原创 2019-06-05 10:04:27 · 282 阅读 · 0 评论