大数据
文章平均质量分 92
zhangSir134
不断思考,不断总结
展开
-
机器学习笔记(常见算法)
大概了解常见算法原创 2020-04-08 02:32:06 · 7535 阅读 · 0 评论 -
机器学习笔记(了解)
大概了解机器学习原创 2020-04-08 02:01:41 · 7406 阅读 · 0 评论 -
[设计模式] ------ 代理模式
几句话讲明白代理模式代理模式:1.定义 个接口A,接口有个方法methodA(); 2.定义一个实现类B,实现这个接口A,并重写方法methodA(); 3.定义一个代理类C,也实现接口A,并将类B作为他的一个属性, 然后C也重写方法methodA();但方法的实现为B调用B中重写的方法这样就是一个简单的代理模式,其中B和C实现了相同的接口,都重写了接口中的方法,但最终调...原创 2018-06-11 23:29:43 · 7524 阅读 · 0 评论 -
大数据相关整理
1.hdfs1.1.namenode所有文件的读写入口,用来保存文件的元信息元信息包括:fsimage文件: 文件权限信息 文件在block块的偏移量 文件的位置信息editlogs文件:对文件的写操作日志 文件写日志指令,为了安全同步,重启会执行指令1.2.datanode用来真正保存文件内容的节点datanode有很多个,保存的是若干个block块1.3.s...原创 2019-04-10 01:35:18 · 7669 阅读 · 0 评论 -
数据仓库基本认知
数据仓库概念:数据仓库,英文名称Data Warehouse,简写为DW。是一种面向分析的存储系统。他是一个很大的数据存储集合,出于企业的分析性报告和决策支持目的而创建,对多样的业务数据进行筛选与整合。它为企业提供一定的BI(商业智能)能力,指导业务流程改进、监视时间、成本、质量以及控制。数据仓库的输入方是各种各样的数据源,最终的输出用于企业的数据分析、数据挖掘、数据报表等方向。数据仓...原创 2019-03-13 09:25:25 · 7680 阅读 · 0 评论 -
想法记录---实时计算的TopN的实现
TopN就是找出时间段内出现频率最高的n个TopN的计算是个老生常谈的话题,比如微博的热搜,都是隔段时间就统计一次TopN现在想做一个实时计算的TopN.先说说离线计算的TopN,再说实时TopN###离线TopN离线TopN一般出现在大数据的应用场景,使用hadoop的map reduce,网上有很多案例###实时TopN实时的计算,相比离线计算,会有如下问题1.实时计算的数据不...原创 2018-09-19 22:40:10 · 9592 阅读 · 0 评论 -
订单单量监控v2
前段时间做了一个订单单量监控的项目,已经投入使用了,现在总结一下整体使用了storm实时计算框架和redis数据库,还有kafka先简单说下整体思路,后面再将详细实现1.在页面下单成功的地方跨域调用一次kafka的服务2.kafka的服务接到这次调用,发送kafka消息3.storm服务实时接收kafka消息,将消息作为数据源,开始统计一段时间内的订单量4.拿这段时间内的订单量和预测数...原创 2018-09-17 21:07:26 · 9053 阅读 · 3 评论 -
zookeeper基础整理
1、工作原理Zookeeper的核心是原子广播,这个机制保证了各个Server之间的同步。实现这个机制的协议叫做Zab协议。Zab协议有两种模式,它们分别是恢复模式(选主)和广播模式(同步)。当服务启动或者在领导者崩溃后,Zab就进入了恢复模式,当领导者被选举出来,且大多数Server完成了和leader的状态同步以后,恢复模式就结束了。状态同步保证了leader和Server具有相同的系统状...原创 2018-08-21 23:37:35 · 7646 阅读 · 0 评论 -
storm消息可靠机制(ack)的原理和使用
前言: storm的消息可靠机制可以确保spout发出的每条消息都会被完整的处理 当然,如果你的系统不是那么在乎那么精确的每条消息都要,那么这个机制可以适当忽略 本文主要讨论storm的消息可靠机制的原理和使用...原创 2018-08-28 22:37:40 · 8603 阅读 · 1 评论 -
storm的流分组策略
storm中有多个bolt和多个spout,他们之间会有多种连接方式,他们之间的tulpe也是多种传递方式,正是有了这些灵活的分组策略,才使得storm可以分层处理,每层bolt都只做自己的事情storm里面有7种 stream grouping1.shuffle grouping2.fields grouping3.all grouping4.global group...原创 2018-08-28 22:04:38 · 8821 阅读 · 0 评论 -
storm的并行度的解释--- ( 看完就能理解 )
关于storm的基础,参照我这篇文章:https://blog.csdn.net/java_zhangshuai/article/details/81462272 本文说的是对storm的并行理解和如何在代码中实际的设置1.Worker Worker是进程级别的,一个worker进程对应执行一个Topology服务 2.Executer Executer是线程级别,一个Worker进程...原创 2018-08-28 09:58:23 · 9769 阅读 · 2 评论 -
流式计算storm核心组件介绍以及入门案例---跟着就能在本地跑起来的storm项目
storm简介storm与其他流式计算框架的对比storm优缺点storm入门案例原创 2018-08-06 22:06:09 · 8863 阅读 · 0 评论