自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

转载 深度|企业如何去做数据标准建设和应用

大数据时代下,随着数据应用和分析挖掘的逐步深入,由于数据标准不统一造成的数据使用问题越来越多。特别是对于企业而言,如果没有进行数据标准体系的建设,不同人员对于数据的理解很难达到完全一致,导致工作中经常出现数据统计口径偏差,系统开发与实际需求的偏差等问题。另外企业的各个系统一般都是不同厂商建设的,所...

2020-05-25 22:10:29 104 0

转载 系统吞吐量、TPS(QPS)、用户并发量、性能测试概念和公式

QPS:Queries Per Second意思是“每秒查询率”,是一台服务器每秒能够相应的查询次数,是对一个特定的查询服务器在规定时间内所处理流量多少的衡量标准。 TPS:是TransactionsPerSecond的缩写,也就是事务数/秒。它是软件测试结果的测量单位。一个事务是指一个客户机向...

2019-11-06 18:25:34 29 0

转载 QPS、TPS、PV、UV、GMV、IP、RPS

关于 QPS、TPS、PV、UV、GMV、IP、RPS 这些词语,看起来好像挺专业。但实际上,我认为是这是每个程序员必懂的知识点了,你可以搞不懂它们怎么计算的,但是你最少要知道它们分别代表什么意思吧?! QPS QPS:全名 Queries Per Second,意思是“每秒查询率”,是一...

2019-11-06 18:00:46 31 0

转载 IDEA快捷键功能说明及Eclipse对应操作

1.Ctrl+z是撤销快捷键 2.如果想恢复Ctrl+z 掉的内容,按快捷键为:Ctrl + Shift + Z。方可 3.Ctrl-H(Browse Type Hierarchy) Ctrl + Alt + H 2。Eclipse中的回车能自动跳到行尾,IDea怎么...

2019-08-29 18:03:53 42 0

转载 HBase表的基本结构和常用命令行操作mark下

一、HBase表的基本结构   1.概述:    平时常见的MySQL、Oracle数据库都是传统型关系数据库,它们都是按行查询、按行存储;而HBase为非关系型数据库,它是按列存储的的。    在HBase插入数据时,先输入数据的格式为rowkey => info => col...

2019-08-13 14:12:49 57 0

转载 分享30道Redis面试题,面试官能问到的我都找到了

============================================================================ 转自:https://www.cnblogs.com/lfs2640666960/p/9700706.html 1、什么是Redis?简述它...

2019-07-12 21:10:54 249 0

转载 Spark常见问题汇总

原文地址:https://my.oschina.net/tearsky/blog/629201 摘要:   1、Operation category READ is not supported in state standby   2、配置spark.deploy.recoveryMode选...

2019-07-09 19:43:27 253 0

转载 JAVA架构师面试题

基础题目 Java线程的状态 进程和线程的区别,进程间如何通讯,线程间如何通讯 HashMap的数据结构是什么?如何实现的。和HashTable,ConcurrentHashMap的区别 Cookie和Session的区别 索引有什么用?如何建索引? ...

2019-07-09 19:38:47 50 0

转载 高并发解决方案

一、什么是高并发 高并发(High Concurrency)是互联网分布式系统架构设计中必须考虑的因素之一,它通常是指,通过设计保证系统能够同时并行处理很多请求。高并发相关常用的一些指标有响应时间(Response Time),吞吐量(Throughput),每秒查询率QPS(Query Per...

2019-07-04 12:01:37 325 0

转载 Hadoop关于处理大量小文件的问题和解决方法

小文件指的是那些size比HDFS的block size(默认64M)小的多的文件。如果在HDFS中存储小文件,那么在HDFS中肯定会含有许许多多这样的小文件(不然就不会用Hadoop了)。而HDFS的问题在于无法很有效的处理大量小文件。 任何一个文件,目录和block,在HDFS中都会被表示为...

2019-07-01 15:37:35 566 0

转载 数据中台你想知道的都在这里!

导读,文章万字左右,重点内容导读如下: 数据中台是什么? 数据中台和数据仓库,数据平台的关系是什么? 数据中台和业务中台的区别是什么? 数据中台建设的最大挑战是什么? 数据中台的数据质量应该如何保障? 数据中台的典型架构是怎样的? ...

2019-06-30 11:38:38 2074 0

转载 OLTP和OLAP有何区别

OLTP和OLAP主要区别有: 1、基本含义不同:OLTP是传统的关系型数据库的主要应用,主要是基本的、日常的事务处理,记录即时的增、删、改、查,比如在银行存取一笔款,就是一个事务交易。OLAP即联机分析处理,是数据仓库的核心部心,支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果。典...

2019-06-30 10:59:00 109 0

转载 java线程安全问题原因及解决办法

1.为什么会出现线程安全问题 计算机系统资源分配的单位为进程,同一个进程中允许多个线程并发执行,并且多个线程会共享进程范围内的资源:例如内存地址。当多个线程并发访问同一个内存地址并且内存地址保存的值是可变的时候可能会发生线程安全问题,因此需要内存数据共享机制来保证线程安全问题。 对应到java...

2019-06-30 09:42:43 61 0

转载 数据中台到底是什么?

阿里提出了“大中台,小前台”,其中台事业部包括搜索事业部、共享业务平台、数据技术及产品部,数据技术及产品部应是数据中台建设的核心部门。 那么,数据中台到底是什么?具体包含哪些内容?跟大数据平台是什么关系?在架构层面是怎么体现的?数据中台跟产品又有什么关系? 阿里数据技术及产品部的掌门提倒了数据...

2019-06-29 20:01:05 1702 0

转载 数据仓库之分层模型

一、各行业使用的分层模型 不同的行业使用的分层也有所不同,但思想都差不多 1.电信通讯 stage层 ->bdl层 ->analysis层 2.传统金融/保险 ods层 ->pdm层 ->dm层 3.互联网金融/电商 odl层 ->bdl层 -...

2019-06-29 17:05:08 319 0

转载 数据仓库中的几种数据模型

数据仓库中常见的模型有:范式建模,雪花模型,星型建模,事实星座模型. 星型模型 星型模型是数据集市维度建模中推荐的建模方法。星型模型是以事实表为中心,所有的维度表直接连接在事实表上,像星星一样。星型模型的特点是数据组织直观,执行效率高。因为在数据集市的建设过程中,数据经过了预处理,比如按照...

2019-06-29 10:39:43 491 0

转载 Redis和Memcache区别,优缺点对比

1、 Redis和Memcache都是将数据存放在内存中,都是内存数据库。不过memcache还可用于缓存其他东西,例如图片、视频等等。 2、Redis不仅仅支持简单的k/v类型的数据,同时还提供list,set,hash等数据结构的存储。 3、虚拟内存–Redis当物理内存用完时,可以将一些很久...

2019-06-24 22:13:13 34 0

转载 HBase原理-数据读取流程解析

和写流程相比,HBase读数据是一个更加复杂的操作流程,这主要基于两个方面的原因:其一是因为整个HBase存储引擎基于LSM-Like树实现,因此一次范围查询可能会涉及多个分片、多块缓存甚至多个数据存储文件;其二是因为HBase中更新操作以及删除操作实现都很简单,更新操作并没有更新原有数据,而是使...

2019-06-23 22:28:34 39 0

转载 Spark SQL基本概念与基本用法

1. Spark SQL概述 1.1 什么是Spark SQL Spark SQL是Spark用来处理结构化数据的一个模块,它提供了两个编程抽象分别叫做DataFrame和DataSet,它们用于作为分布式SQL查询引擎。从下图可以查看RDD、DataFrames与DataSet的关系。 ...

2019-06-23 18:37:16 74 0

转载 Spark学习之路SparkSQL的自定义函数UDF

在Spark中,也支持Hive中的自定义函数。自定义函数大致可以分为三种: UDF(User-Defined-Function),即最基本的自定义函数,类似to_char,to_date等 UDAF(User- Defined Aggregation Funcation),用户自定义聚合函数,...

2019-06-23 17:22:44 72 0

转载 Spark学习之路 Spark分区

一、分区的概念   分区是RDD内部并行计算的一个计算单元,RDD的数据集在逻辑上被划分为多个分片,每一个分片称为分区,分区的格式决定了并行计算的粒度,而每个分区的数值计算都是在一个任务中进行的,因此任务的个数,也是由RDD(准确来说是作业最后一个RDD)的分区数决定。 二、为什么要进行分区 ...

2019-06-23 17:17:02 44 0

转载 Spark学习之路 SparkSQL简单使用

一、SparkSQL的进化之路 1.0以前: Shark 1.1.x开始: SparkSQL(只是测试性的) SQL 1.3.x: SparkSQL(正式版本)+Dataframe 1.5.x: SparkSQL 钨丝计划 1.6.x: SparkSQL+DataFra...

2019-06-23 17:02:15 38 0

转载 Apache 流框架 Flink,Spark Streaming,Storm对比分析

1.Flink架构及特性分析 Flink是个相当早的项目,开始于2008年,但只在最近才得到注意。Flink是原生的流处理系统,提供high level的API。Flink也提供 API来像Spark一样进行批处理,但两者处理的基础是完全不同的。Flink把批处理当作流处理中的一种特殊情况。在F...

2019-06-19 09:53:34 83 0

转载 Hbase读写流程和寻址机制

写操作流程 (1) Client通过Zookeeper的调度,向RegionServer发出写数据请求,在Region中写数据。 (2)数据被写入Region的MemStore,直到MemStore达到预设阈值。 (3) MemStore中的数据被Flush成一个StoreFile。 (4...

2019-06-18 22:44:52 76 0

转载 大数据在线和离线采集常用架构剖析

1 大数据处理的常用方法 大数据处理目前比较流行的是两种方法,一种是离线处理,一种是在线处理,基本处理架构如下: 在互联网应用中,不管是哪一种处理方式,其基本的数据来源都是日志数据,例如对于web应用来说,则可能是用户的访问日志、用户的点击日志等。 如果对于数据的分析结果在时间上有比较严...

2019-06-15 18:45:32 1079 0

转载 Spark中parallelize函数和makeRDD函数的区别

我们知道,在Spark中创建RDD的创建方式大概可以分为三种:(1)、从集合中创建RDD;(2)、从外部存储创建RDD;(3)、从其他RDD创建。   而从集合中创建RDD,Spark主要提供了两中函数:parallelize和makeRDD。我们可以先看看这两个函数的声明: def ...

2019-06-15 18:43:41 132 0

转载 Flume原理深度解析

一、Flume简介   flume 作为cloudera 开发的实时日志收集系统,受到了业界的认可与广泛应用。Flume 初始的发行版本目前被统称为 Flume OG(original generation),属于 cloudera。   但随着 FLume 功能的扩展,Flume OG 代码...

2019-06-15 18:26:18 288 0

原创 CDH: 请求 Service Monitor 超时。这可能会导致页面响应缓慢

您正在非生产模式下运行 Cloudera Manager,该模式使用嵌入式 PostgreSQL 数据库. 请求 Service Monitor 超时。这可能会导致页面响应缓慢 是因为jvm内存给的少了, 所有Monitor 当掉了, 解决方法如下: 1. 主页 -> 左边最下面的...

2019-05-31 18:58:38 437 0

原创 (idea scala) Error:scalac: Error: org.jetbrains.jps.incremental.scala.remote.ServerException

Error:scalac: Error: org.jetbrains.jps.incremental.scala.remote.ServerException Error compiling sbt component 'compiler-interface-2.10.0-52.0�...

2019-05-31 17:09:57 499 0

转载 Redis最全面试题

一、概述 Redis 是速度非常快的非关系型(NoSQL)内存键值数据库,可以存储键和五种不同类型的值之间的映射。 键的类型只能为字符串,值支持五种数据类型:字符串、列表、集合、散列表、有序集合。 Redis 支持很多特性,例如将内存中的数据持久化到硬盘中,使用复制来扩展读性能,使用分片来扩...

2019-05-31 00:08:34 86 0

原创 安装CM+CDH 主机运行状况不良完美解决方案

官方参考文档 参考官网说明:https://www.cloudera.com/documentation/enterprise/releasenotes/topics/cm_rn_known_issues.html#rn_OPSAPS-34847 查看官方文档: 解决办法 翻译过来...

2019-05-28 10:20:33 2546 0

原创 CDH搭建分发节点报错 解决

看问题 ,看日志 是找不到文件或目录,可是看了一圈都存在啊,然后日志有warning ,说hostname localhost.localdomain,感觉不对劲,于是查看自己的hostname,显示localhost.localdomain , 可我明明都配置了hosts文件 vim /etc/...

2019-05-28 09:46:14 402 0

转载 Kafka如何保证消息不丢失不重复

首先需要思考下边几个问题: 消息丢失是什么造成的,从生产端和消费端两个角度来考虑 消息重复是什么造成的,从生产端和消费端两个角度来考虑 如何保证消息有序 如果保证消息不重不漏,损失的是什么 大概总结下 消费端重复消费:建立去重表 消费端丢失数据:关闭自动提交offset,处理完之后受...

2019-05-22 09:48:48 367 0

原创 安装RedHat Linux 7.4

安装RedHat Linux 7.4 创建新的虚拟机 选择“自定义(高级)” 选择“下一步” 选择“稍后安装操作系统” 选择操作系统的类型 设置虚拟机名称和保存路径 下一步 下一步 设置网络类型,选择“使用仅主机模式...

2019-05-21 15:45:26 2097 0

原创 MySQL学习总结

MySQL学习总结 前言 春节期间看了一本mysql书《MySQL数据库应用从入门到精通》 觉得这本书相对简单、基础、实用、全面,我们大多数人喜欢搞一些高深的东西,而忽视一些简单基础的东西,在工作当中我们犯错的地方往往是那些简单基础的地方,有的时候一些基础的DDL、DML并不一定是信手拈...

2019-05-21 14:39:29 719 0

原创 CentOS挂载硬盘

提醒:挂载操作会清空数据,请确认挂载盘无数据或者未使用 第一步:列出所有磁盘 命令: ll /dev/disk/by-path 或者使用: fdisk -l 提示:如果无法确认数据盘设备名称,请使用df命令来确认系统盘的名称,从而排除挂错盘的情况。 第二步:格式化硬盘 命令: fdisk...

2019-05-21 14:35:48 108 0

原创 软件著作权申报中60页标准代码文档的写作经验谈(1)

软件著作权申报中60页标准代码文档的写作经验谈(1) 在申报著作权的工作中,都要提供软件的60页源代码。这是一种特殊要求的东西,它要求每页50行程序,并要求前30页是程序的前半部分有开头并连续,后30页是程序的后半部分包括结尾也要连续,30和31页之间可以不连续。这个文档的格式,一般要求有页眉上...

2019-05-21 14:33:03 2501 1

原创 软件著作权登记流程、时间、材料

软件著作权登记流程、时间、材料 一、软件著作权登记流程 填写申请表--→提交申请文件--→缴纳申请费--→登记机构受理申请--→补正申请文件(非必须程序)--→取得登记证书。 http://www.ccopyright.com.cn/; 上面填写申请表,然后微信公众号(CPCC1718)预约办...

2019-05-21 14:31:50 297 0

转载 倒排索引原理和实现

倒排索引原理和实现 关于倒排索引 搜索引擎通常检索的场景是:给定几个关键词,找出包含关键词的文档。 怎么快速找到包含某个关键词的文档就成为搜索的关键。这里我们借助单词——文档矩阵模型, 通过这个模型我们可以很方便知道某篇文档包含哪些关键词,某个关键词被哪些文档所包含。 单词-文档矩阵的具体数据...

2019-05-21 14:29:21 97 0

原创 Memcache,Redis,MongoDB数据缓存方案对比与分析

一、问题: 数据库表数据量极大(千万条),要求让服务器更加快速地响应用户的需求。 二、解决方案: 1.通过高速服务器Cache缓存数据库数据 2.内存数据库 (这里仅从数据缓存方面考虑,当然,后期可以采用Hadoop+HBase+Hive等分布式存储分析平台) 三、主流解C...

2019-05-21 14:27:50 73 0

提示
确定要删除当前文章?
取消 删除