- 博客(122)
- 资源 (22)
- 收藏
- 关注
原创 数据平台的展望
企业都希望做到数据驱动,使用数据的一个重要卡点就是数据获取和数据应用成本太高,尽管有海量的数据,如果大家不会用,其实也没有效果 ,数据工具的价值就在于,将数据生产,处理,分析,可视化等步骤变得简单便捷,让数据驱动成为可实现的目标。2.标签的计算(随着标签体系变得日益庞大,标签计算只会越来越复杂,数据团队在用户标签系统的建设过程中,要不断优化数据模型和计算模型,提高标签计算效率)4.全局的数据访问行为的审计(对每个api访问次数,明确资源使用的情况,以及该api的数据血缘)3.可弹性扩展的架构以支持高并发。
2023-05-25 22:41:16 977
转载 oracle分页查询数据重复问题
在oracle分页查询中,我们采用类似以下所示的公认的比较高效的数据库分页查询语句(Effective Oracle by Design中有描述、众多oracle使用者也做过测试)。写道 SELECT * FROM ( SELECT A.*, ROWNUM RN FROM (SELECT * FROM TABLE_NAME) A WHERE ROWNUM <= n) WHERE RN > m 这里的ROWNUM是一个伪列,它是oracle为查询结果所编的一个号,第一行的ROWNUM...
2020-11-05 18:55:20 972
转载 深入理解SPI机制
一、什么是SPISPI ,全称为 Service Provider Interface,是一种服务发现机制。它通过在ClassPath路径下的META-INF/services文件夹查找文件,自动加载文件里所定义的类。这一机制为很多框架扩展提供了可能,比如在Dubbo、JDBC中都使用到了SPI机制。我们先通过一个很简单的例子来看下它是怎么用的。1、小栗子首先,我们需要定义一个接口,SPIServicepackage com.viewscenes.netsupervisor.sp.
2020-09-16 17:52:01 256
转载 ES 5亿订单查询 演进过程
京东到家订单中心系统业务中,无论是外部商家的订单生产,或是内部上下游系统的依赖,订单查询的调用量都非常大,造成了订单数据读多写少的情况。我们把订单数据存储在MySQL中,但显然只通过DB来支撑大量的查询是不可取的。同时对于一些复杂的查询,MySQL支持得不够友好,所以订单中心系统使用了Elasticsearch来承载订单查询的主要压力。Elasticsearch作为一款功能强大的分布式搜索引擎,支持近实时的存储、搜索数据,在京东到家订单系统中发挥着巨大作用,目前订单中心ES集群...
2020-08-26 11:01:56 536
转载 Kafka 事务机制
Kafka 是一个高度可扩展的分布式消息系统,在海量数据处理生态中占据着重要的地位。数据处理的一个关键特性是数据的一致性。具体到 Kafka 的领域中,也就是生产者生产的数据和消费者消费的数据之间一对一的一致性。在各种类型的失败普遍存在的分布式系统环境下,保证业务层面一个整体的消息集合被原子的发布和恰好一次处理,是数据一致性在 Kafka 生态系统的实际要求。本文介绍了 Kafka 生态中的事务机制的概念和流程。Kafka 事务机制的概念Kafka 从 0.11 版本开始支持了事务机制。Ka
2020-08-20 15:19:11 2163
转载 数据模型设计
如果把指标⽐喻成⼀棵树上的果实,那模型就是这棵⼤树的躯⼲,想让果实结得好,必须让树⼲变得粗壮。真实场景举例:⼤多数公司的分析师会结合业务做⼀些数据分析(需要⽤到⼤量的数据),通过报表的⽅式服务于业务部⻔的运营。但是在数据中台构建之前,分析师经常发现⾃⼰没有可以复⽤的数据,不得不使⽤原始数据进⾏清洗、加⼯、计算指标。由于他们⼤多是⾮技术专业出⾝,写的SQL质量⽐较差,甚⾄⻅过5层以上的嵌套。这种SQL对资源消耗⾮常⼤,会造成队列阻塞,影响其他数仓任务,会引起数据开发的不满。数据开发会要求收回分析师的原
2020-08-19 11:40:08 4205
转载 全链路自动化监控相关概念和微服务应用监控
全链路监控的四部分:链路采集、指标采集、日志采集、深度分析 链路采集包括调用链和服务拓扑,是全链路分析的串联器。 指标采集整合到服务链路上,使全链路具备基础监控能力。 日志采集的数据源,也是全链路分析的数据源。 深度分析包括离线、在线模块,满足全链路的问题定位需求。 在微服务架构中,不同维度有不同的监控方式。(1)健康检查。健康检查是对应用本身健康状况的监控,检查服务是否还正常存活。(2)日志。日志是排查问题的主要方式,日志可以提供丰...
2020-08-19 11:19:45 699
原创 数据仓库与数据湖的区别
数据仓库平台逐步从BI报表为主到分析为主、到预测为主、再到操作智能为目标。从过去报表发生了什么--->分析为什么过去会发生---->将来会发生什么---->什么正在发生----->让正确的事情发生数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、集成的(Integrated)、相对稳定的(Non-Volatile)、反映历史变化的(Time Variant)数据集合,用于支持管理决策和信息的全局共享。所谓主题:是指用户使用数据仓库进
2020-08-18 15:49:07 799
转载 Data Lake的概念、特征、架构与案例
本文包括七个小节:1、什么是数据湖;2、数据湖的基本特征;3、数据湖基本架构;4、各厂商的数据湖解决方案;5、典型的数据湖应用场景;6、数据湖建设的基本过程;7、总结。受限于个人水平,谬误在所难免,欢迎同学们一起探讨,批评指正,不吝赐教。一、什么是数据湖数据湖是目前比较热的一个概念,许多企业都在构建或者计划构建自己的数据湖。但是在计划构建数据湖之前,搞清楚什么是数据湖,明确一个数据湖项目的基本组成,进而设计数据湖的基本架构,对于数据湖的构建至关重要。关于什么是数据湖?有不同的定义。Wikiped
2020-08-18 15:43:35 820
转载 注册中心ZooKeeper、Eureka、Consul 、Nacos对比
前言服务注册中心本质上是为了解耦服务提供者和服务消费者。对于任何一个微服务,原则上都应存在或者支持多个提供者,这是由微服务的分布式属性决定的。更进一步,为了支持弹性扩缩容特性,一个微服务的提供者的数量和分布往往是动态变化的,也是无法预先确定的。因此,原本在单体应用阶段常用的静态LB机制就不再适用了,需要引入额外的组件来管理微服务提供者的注册与发现,而这个组件就是服务注册中心。CAP理论CAP理论是分布式架构中重要理论一致性(Consistency) (所有节点在同一时间具有相同的数据)
2020-08-13 11:34:37 844
原创 消息队列pulsar和存储系统bookkeeper和SQL查询引擎Presto
pulsar和kafka最显而易见的区别是,pulsar支持多租户,有着资产和命名空间的概念,资产代表系统里的租户。假设有一个Pulsar集群用于支持多个应用程序(就像Yahoo那样),集群里的每个资产可以代表一个组织的团队、一个核心的功能或一个产品线。一个资产可以包含多个命名空间,一个命名空间可以包含任意个主题。分区:pulsar和kafka一样都支持主题的多分区。持久化:kafka文件存储,pulsar采用Apache BookKeeper存储。这也是pulsar的一个显著优点,k.
2020-08-13 11:06:09 1606
转载 ElasticSearch父子关联文档实现关系型数据库join操作
1. 非规范化数据比如mysql描述订单以及订单详情 :order(id, order_no, amount) ->order_detail(id, order_id, commodity, price) , 在关系型数据库中一个订单对应多个订单详情,详情表通过order_id与订单表关联。那么在es中可以通过冗余数据描述这种关系, 索引如下:PUT order {"mappings": {"order": {...
2020-06-03 14:59:40 657
原创 kafka中的ISR、AR又代表什么?ISR伸缩又是什么?
分区中的所有副本统称为AR(Assigned Repllicas)。所有与leader副本保持一定程度同步的副本(包括Leader)组成ISR(In-Sync Replicas),ISR集合是AR集合中的一个子集。消息会先发送到leader副本,然后follower副本才能从leader副本中拉取消息进行同步,同步期间内follower副本相对于leader副本而言会有一定程度的滞后。前面所说的“一定程度”是指可以忍受的滞后范围,这个范围可以通过参数进行配置。与leader副本同步滞后过多的副本(不包括
2020-06-02 19:33:05 1867
原创 Kafka时间轮(TimingWheel)和Kafka中的延时操作
kafka相关面试题:https://blog.csdn.net/qq_28900249/article/details/90346599Kafka中存在大量的延迟操作,比如延迟生产、延迟拉取以及延迟删除等。Kafka并没有使用JDK自带的Timer或者DelayQueue来实现延迟的功能,而是基于时间轮自定义了一个用于实现延迟功能的定时器(SystemTimer)。JDK的Timer和DelayQueue插入和删除操作的平均时间复杂度为O(nlog(n)),并不能满足Kafka的高性能要求,而基于时间
2020-06-01 18:33:56 4632 1
转载 kudu 的基本架构与存储结构
kudu 的基本架构与存储结构1. 基本架构TMaster and TServerTMaster 主要用来管理元数据,即tablet 和 表的基本信息,监听TServer的状态,TMaster之间通过raft协议进行数据同步TServer 主要用来管理tablet 。tablet 负责这一张表的某块内容的读写,接受其他tablet leader 传来的同步信息,至于什么是tablet,看下面。2. 存储结构kudu的整个存储架构可以看成这样:一张table 会分成若干个tabl
2020-05-14 15:25:04 1183
原创 ES搜索 term与match区别 bool查询
term 和 match 总结在实际的项目查询中,term和match 是最常用的两个查询,而经常搞不清两者有什么区别,趁机总结有空总结下。term用法先看看term的定义,term是代表完全匹配,也就是精确查询,搜索前不会再对搜索词进行分词拆解。这里通过例子来说明,先存放一些数据:{ "title": "love China", "content":...
2020-04-02 18:41:24 1954
原创 flink心得体会
保存点与检查点1.保存点由提交任务时指定,恢复时手动指定保存点路径来恢复存储的状态值2.检查点在程序中指定,设置时间间隔,自动保存存储状态值...
2020-03-26 16:59:37 977
转载 yarn基础详解
Yarn的基本介绍和模式:YARN的介绍Apache Hadoop YARN (Yet Another Resource Negotiator,另一种资源协调者)是一种新的 Hadoop 资源管理器,它是一个通用资源管理系统,可为上层应用提供统一的资源管理和调度,它的引入为集群在利用率、资源统一管理和数据共享等方面带来了巨大好处。YARN是再MRv1发展过来的,它克服了NRv1的各种限制,...
2020-01-14 20:03:01 340
转载 hive LLAP
LLAP提供了一种混合模型,它包含一个长驻进程,用于直接与DataNode 进行IO交互,并紧密地集成在基于DAG的框架中。Caching,pre-fetching,部分query的执行,以及 access control被移动到此进程执行。大部分Small/short queries被此进程直接处理。而如果是大型任务(如在reduce阶段中的大型shuffle) 则仍被标准的yarn con...
2020-01-14 14:33:43 1474
原创 推荐系统算法
常用的推荐任务分为两种,一种是评分预测,而另一种是 Top-N 推 荐。评分预测就是给那些没有评分的项目进行评分,主要依据目标用户的历史评 分行为以及相似度计算来预测目标项目的分数。 Top-N 推荐就是根据用户的偏好给 目标用户推荐其可能喜欢的 N 件物品。1.协同过滤算法协同过滤算法可分为基于用户的协同过滤(User-based CF)、基于物品的系统 过滤(Item-based CF...
2020-01-09 20:58:34 259
转载 一个宽表好还是多个维表好?
前言本篇的主题是关于数据模型的规范化和反规范化的讨论,其实也是一种常见的维度建模的设计和业务使用便捷性的冲突。Dimension Table概念多出现于数据仓库里面,维表与事实表想对应,比如一个 “销售统计表” 就是一个 事实表,而 “销售统计表” 里面统计数据的来源离不开 “商品价格表”,“商品价格表” 就是销售统计的一个维度表。事实数据和维度数据的识别必须依据具体的主题问题而定。“事实...
2019-12-24 11:38:10 2177
原创 hadoop性能调优
一、禁止文件系统记录时间Linux文件系统会记录文件创建、修改和访问操作的时间信息,这在读写操作频繁的应用中将带来不小的性能损失。在挂载文件系统时设置noatime和nodiratime可禁止文件系统记录文件和目录的访问时间,这对HDFS这种读取操作频繁的系统来说,可以节约一笔可观的开销。可以修改/etc/fstab文件中noatime和nodiratime来实现这个设置。如对/mnt/...
2019-11-27 12:27:58 349
原创 集群部署脚本
Linux报错:“/bin/bash^M: 坏的解释器原因是linux下的文件,在windows下面编辑过。在win下编辑的时候,换行结尾是\n\r , 而在linux下 是\n解决方法,将文件里面的内容做替换即可sed -i 's/\r$//' build.sh 免密登录#!/bin/bash#ssh免密登录shell脚本#配置免密登录的所有机子都要运行该脚本 ...
2019-11-07 16:06:35 415
转载 SpringBoot配置属性之Security
spring security是springboot支持的权限控制系统。 security.basic.authorize-mode 要使用权限控制模式. security.basic.enabled 是否开启基本的鉴权,默认为true security.basic.path 需要鉴权的path,多个的话以逗号分隔,默认为[/**] ...
2019-09-26 17:13:06 245
原创 领域驱动设计(ddd)domain driven design心得体会
原先如果开发一款斗地主游戏,可能所有的逻辑代码都会写在service层,逻辑一定相当复杂,精神需要高度集中才能保证代码的正确,日后如果新增功能,可能就会出现牵一发动全身的尴尬情况。现在利用领域驱动设计,把原有的业务逻辑沉淀成业务模型,利用模型与需求对应起来(例如在斗地主当中,需求指出每把游戏需要三位玩家,一个游戏桌子,一个记分机器人等逻辑需求,这时候我们只需要把逻辑需求转化为一个个dom...
2019-08-26 09:37:12 265
转载 HTTP1.0、HTTP1.1 和 HTTP2.0 的区别
一、HTTP的历史早在 HTTP 建立之初,主要就是为了将超文本标记语言(HTML)文档从Web服务器传送到客户端的浏览器。也是说对于前端来说,我们所写的HTML页面将要放在我们的 web 服务器上,用户端通过浏览器访问url地址来获取网页的显示内容,但是到了 WEB2.0 以来,我们的页面变得复杂,不仅仅单纯的是一些简单的文字和图片,同时我们的 HTML 页面有了 CSS,Javascrip...
2019-08-24 14:32:03 112
原创 IDAP出现的问题汇总
目录如何修改LDAP默认端口呢?修改phpldapadmin的默认端口https://www.ilanni.com/?p=14000如何查看yum安装了那些软件如何查看yum安装的软件在哪里?LINUX所有服务的启动脚本都存放在___目录中 /etc/init.dlinux 将自己的服务添加到系统service服务LDAP错误码 ...
2019-08-23 18:26:22 1178
转载 LDAP基本应用
目录安装LDAP链接:https://segmentfault.com/a/1190000014683418转载自LDAP入门概念阐述LDAP编程操作JNDI连接LDAP服务器 Spring LDAP的使用 Spring ldap ODM LdapQuery:高级构...
2019-08-22 17:51:24 1595
转载 JAVA堆外内存的简介和使用
文章涉及JVM的垃圾回收,主要讲的是通过使用「堆外内存」对Young GC进行优化。文章中介绍,MsgBroker消息中间件会对消息进行缓存,JVM需要为被缓存的消息分配内存,首先会被分配到年轻代。当缓存中的消息由于各种原因,一直投递不成功,这些消息会进入老年代。最终呈现的问题是YGC时间太长。随着新特性的开发和消息量的增长,我们发现 MsgBroker 的 YGC 平均耗时已缓...
2019-08-20 20:01:33 464
原创 HBase基本架构知识
一、HBase组成1.Client:利用 RPC 机制与 HMaster 和HRegionServer通信;2.Zookeeper: 协调,避免 HMaster 单点问题;HMaster没有单点问题,HBase 中可以启动多个HMaster,通过 ZooKeeper 的 Master Election 机制保证总有一个 Master 在运行。3.HMaster:负责 Table 和 R...
2019-08-16 14:28:50 296
转载 Exchanger两个线程交换数据
转载自:JUC之ExchangerJUC中的Exchanger允许成对的线程在指定的同步点上通过exchange方法来交换数据。如果第一个线程先执行exchange方法,它会一直等待第二个线程也 执行exchange方法,当两个线程都到达同步点时,这两个线程就可以交换数据,将当前线程生产 出来的数据传递给对方。Exchanger示例两个线程通过Exchanger交换数据的简单示例:...
2019-08-13 17:24:55 232
原创 标准差和方差的区别
相同:标准差(StandardDeviation),在概率统计中最常使用作为统计分布程度(statisticaldispersion)上的测量。标准差定义是总体各单位标准值与其平均数离差平方的算术平均数的平方根。它反映组内个体间的离散程度。测量到分布程度的结果,原则上具有两种性质:为非负数值,与测量资料具有相同单位。一个总量的标准差或一个随机变量的标准差,及一个子集合样品数的标准差之间,有...
2019-08-12 10:54:21 14951
原创 分布式共享内存两种实现方式
分布式共享内存这里,我们介绍两种分布式共享内存,一种是分布式共享内存,另外一种是naive分布式共享内存简单的分布式共享内存所有的进程去访问一个共享内存,这个共享内存是虚拟的,他可能分布在不同的物理机上,其实可以理解为一种抽象,他整合了所有的存储资源,然后所有的调度、分配、读写都对程序员是隐藏的,他提供给程序员的就是一个虚拟的内存块(或者内存管理平台),程序员就可以向操作一块磁盘一样...
2019-08-07 16:54:48 4835
原创 一致性协议paxos算法
转载自 Zookeeper系列(3)--Paxos算法的原理及过程透彻理解Paxos中有三类角色Proposer(提议者)、Acceptor(决策者)及Learner(学习者或者认同人员),主要交互过程在Proposer和Acceptor之间。每个节点会有多种角色Paxos算法是基于消息传递且具有高度容错特性的一致性算法,是目前公认的解决分布式一致性问题最有效的算法之一,其解决的问题就...
2019-08-07 16:17:11 208
原创 Docker的技术原理介绍
Linux Namespaces机制提供一种资源隔离方案。PID,IPC,Network等系统资源不再是全局性的,而是属于某个特定的Namespace。每个namespace下的资源对于其他namespace下的资源都是透明,不可见的。因此在操作系统层面上看,就会出现多个相同pid的进程。系统中可以同时存在两个进程号为0,1,2的进程,由于属于不同的namespace,所以它们之间并不冲突。而...
2019-08-07 15:33:10 152
转载 oracle+myBatis ResultMap 类型为 map 时返回结果中存在 timestamp 时使用 jackson 转 json 报错
oracle+myBatis ResultMap 类型为 map 时返回结果中存在 timestamp 时使用 jackson 转 json 报错org.springframework.web.servlet.mvc.support.DefaultHandlerExceptionResolver.handleHttpMessageNotWritable Failed to write HTTP...
2019-08-07 14:50:05 1512 1
转载 hbase rowkey的设计和宽表,窄表的优势
一、引言HBase由于其存储和读写的高性能,在OLAP即时分析中越来越发挥重要的作用,在易观精细化运营产品--易观方舟也有广泛的应用。作为Nosql数据库的一员,HBase查询只能通过其Rowkey来查询(Rowkey用来表示唯一一行记录),Rowkey设计的优劣直接影响读写性能。HBase中的数据是按照Rowkey的ASCII字典顺序进行全局排序的,有伙伴可能对ASCII字典序印象不够深刻,...
2019-07-26 12:43:49 908
转载 开发高并发系统时有三把利器用来保护系统:缓存、降级和限流
目录限流1. 固定时间窗口算法2. 滑动时间窗口算法3. 漏桶算法(leaky bucket)4. 令牌桶算法(Token Bucket)服务降级1 、简介2 、使用场景3 、核心设计3.1 分布式开关3.2 自动降级3.3 配置中心3.4 处理策略4 、高级特性4.1 分级降级4.2 降级权值5 、总结与展望开发高并发系统时...
2019-07-25 18:46:02 724
互联巨头面试题.zip
2019-07-22
curl(url语法在windows系统的命令行)
2019-03-23
flume-ng-sql-source.jar
2019-03-23
ansj中文分词器源码
2018-08-07
敏捷开发的技术思想
2018-07-18
easyXdemo源代码
2018-07-17
c++应用程序,实现用鼠标拖动方式在窗口中画自由曲线,在鼠标拖动画线过程中,当光标设置为十字形。
2018-06-24
中文分词器IK Analyzer 2012
2018-06-22
常用数据库的jar集合,包含mysql,oracle,sqlserver,Access等数据库
2018-06-22
安卓反编译 apktool dex2jar jd-gui及详细教程
2018-06-09
Android编程实验报告数据存储和天气预报
2018-05-17
VC实验报告MFC应用程序设计中的常用控件
2018-05-17
VC实验报告之应用程序对键盘与鼠标的响应
2018-05-17
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人