大跃ET-CSDN博客

转载 git学习(九) idea git stash操作

在前面说过，git stash 命令的作用就是将目前还不想提交的但是已经修改的内容进行保存至堆栈中，后续可以在某个分支上恢复出堆栈中的内容；git stash 作用的范围包括工作区和暂存区中的内容，没有提交的内容都会保存至堆栈中；例如突然线上出现 bug，我们需要先切换到 master 分支，但当前分支的代码没有提交，直接切换分支，会将当前分支的新增的代码也会增加到 master 分支，而代码又不能此时 commit ，于是这时候就可以使用 git stash ； git stash 代码暂存　

2021-04-23 15:53:33 2534

转载 git学习(十) idea git reset 操作

git reset 是回滚操作，在 idea 中使用如下：　　　　　　　　　　　　　　　　　　　　　　　　Reset Type 有三种： Mixed 默认方式，只保留源码，回退 commit 和 index 信息 Soft 回退到某个版本，只回退了 commit 的信息，之前写的代码还是保留的，不会恢复到 index file 一级。如果还要提交，直接 commit Hard 彻底回退，本地源码也会变成上一个版本内容，不保留之前 commit 的代码...

2021-04-23 15:51:46 821

转载 Hadoop的元数据治理--Apache Atlas0.8

Hadoop的元数据治理--Apache AtlasApache Atlas是Hadoop社区为解决Hadoop生态系统的元数据治理问题而产生的开源项目，它为Hadoop集群提供了包括数据分类、集中策略引擎、数据血缘、安全和生命周期管理在内的元数据治理核心能力。Apache Atlas目前是Apache下的孵化项目，最新版本为Apache Atlas 0.8:本文将分以下部分为大家介绍Atlas的架构和核心功能：－概述－核心特性－架构与组件－部署与配置－类.

2021-04-14 11:55:13 629

转载什么是主数据

2021-04-13 16:02:57 135

转载 DataHub——实时数据治理平台

DataHub首先，阿里云也有一款名为DataHub的产品，是一个流式处理平台，本文所述DataHub与其无关。数据治理是大佬们最近谈的一个火热的话题。不管国家层面，还是企业层面现在对这个问题是越来越重视。数据治理要解决数据质量，数据管理，数据资产，数据安全等等。而数据治理的关键就在于元数据管理，我们要知道数据的来龙去脉，才能对数据进行全方位的管理，监控，洞察。DataHub是由LinkedIn的数据团队开源的一款提供元数据搜索与发现的工具。提到LinkedIn，不得不想到大名鼎鼎的Kafk.

2021-04-07 17:30:29 1699

转载数据治理方案技术调研 Atlas VS Datahub VS Amundsen

数据治理意义重大，传统的数据治理采用文档的形式进行管理，已经无法满足大数据下的数据治理需要。而适合于Hadoop大数据生态体系的数据治理就非常的重要了。大数据下的数据治理作为很多企业的一个巨大的难题，能找到的数据的解决方案并不多，但是好在近几年，很多公司已经进行了尝试并开源了出来，本文将详细分析这些数据发现平台，在国外已经有了十几种的实现方案。数据发现平台可以解决的问题为什么需要一个数据发现平台？在数据治理过程中，经常会遇到这些问题：数据都存在哪？该如何使用这些数据？数据是做什么的？数.

2021-04-07 16:11:11 1193

转载漫谈数据仓库之维度建模

0x00 前言下面的内容，是笔者在学习和工作中的一些总结，其中概念性的内容大多来自书中，实践性的内容大多来自自己的工作和个人理解。由于资历尚浅，难免会有很多错误，望批评指正！概述数据仓库包含的内容很多，它可以包括架构、建模和方法论。对应到具体工作中的话，它可以包含下面的这些内容：以Hadoop、Spark、Hive等组建为中心的数据架构体系。各种数据建模方法，如维度建模。调度系统、元数据系统、ETL系统、可视化系统这类辅助系统。我们暂且不管数据仓库的范围到底有多大，在数据仓库体

2020-12-17 10:26:03 322

转载数据仓库建模方法论

建模方法论数仓的建模或者分层，其实都是为了更好的去组织、管理、维护数据,所以当你站在更高的维度去看的话，所有的划分都是为了更好的管理。小到JVM 内存区域的划分，JVM 中堆空间的划分(年轻代、老年代、方法区等)，大到国家的省市区的划分，无一例外的都是为了更好的组织管理访问性能：能够快速查询所需的数据，减少数据I/O。数据成本：减少不必要的数据冗余，实现计算结果数据复用，降低大数据系统中的存储成本和计算成本。使用效率：改善用户应用体验，提高使用数据的效率。数据质量：改善数据统计口径的

2020-12-16 14:10:07 336

转载【数据仓库】维度建模的优缺点

维度建模就是：按照事实表，维度表来构建数据仓库，数据集市。这种方法的最被人广泛知晓的名字就是星型模式（Star-schema）、雪花模型（Snow-schema）。优点：a) 维度建模是可预测的标准框架。允许数据库系统和最终用户查询工具在数据方面生成强大的假设条件，这些数据主要在表现和性能方面起作用。——后期数据产品性能好b) 星型连接模式的可预测框架能够忍受不可预知的用户行为变化。——切换使用不同的维度查询很方便c) 具有非常好的可扩展性，以便容纳不可预知的新数据源和新的设计决策。可以很方

2020-12-16 11:44:29 1842 2

转载 MapReduce Shuffle 和 Spark Shuffle 原理概述

Shuffle的本意是洗牌、混洗的意思，把一组有规则的数据尽量打乱成无规则的数据。而在MapReduce中，Shuffle更像是洗牌的逆过程，指的是将map端的无规则输出按指定的规则“打乱”成具有一定规则的数据，以便reduce端接收处理。其在MapReduce中所处的工作阶段是map输出后到reduce接收前，具体可以分为map端和reduce端前后两个部分。在shuffle之前，也就是在map阶段，MapReduce会对要处理的数据进行分片（split）操作，为每一个分片分配一个MapTask任务。

2020-12-15 15:59:38 277

转载彻底搞懂spark的shuffle过程（shuffle write）

什么时候需要 shuffle writer假如我们有个 spark job 依赖关系如下我们抽象出来其中的rdd和依赖关系:E <-------n------, C <--n---D---n-----F--s---, A <-------s------ B <--n----`-- G对应的划分后的RDD结构为：最终我们得到了整个执行过程：中间就涉及...

2020-11-19 17:24:26 3678

转载适用于大数据的开源OLAP系统的比较：ClickHouse，Druid和Pinot

适用于大数据的开源OLAP系统的比较：ClickHouse，Druid和Pinot在这篇文章中，我想比较ClickHouse，Druid和Pinot，这三个开源数据存储区，他们通过交互延迟对大量数据运行分析查询。警告：这篇文章很大，您可能只想阅读最后的“摘要”部分。信息来源我从核心开发人员之一Alexey Zatelepin那里了解了ClickHouse的实现细节。用英语提供的最好的材料是本文档页面的最后四个部分，但是非常稀缺。我是Druid的提交者，但是我对这个系统没有既得利益（实际上

2020-11-17 16:12:36 1267

转载 Lambda架构，Kappa架构和去ETL化的IOTA架构

经过这么多年的发展，已经从大数据1.0的BI/Datawarehouse时代，经过大数据2.0的Web/APP过渡，进入到了IOT的大数据3.0时代，而随之而来的是数据架构的变化。▌Lambda架构在过去Lambda数据架构成为每一个公司大数据平台必备的架构，它解决了一个公司大数据批量离线处理和实时数据处理的需求。一个典型的Lambda架构如下：Lambda架构数据从底层的数据源开始，经过各种各样的格式进入大数据平台，在大数据平台中经过Kafka、Flume等数据组件进行收集，然后分成两

2020-11-15 18:21:10 430

转载大数据处理中的Lambda架构和Kappa架构

首先我们来看一个典型的互联网大数据平台的架构，如下图所示：在这张架构图中，大数据平台里面向用户的在线业务处理组件用褐色标示出来，这部分是属于互联网在线应用的部分，其他蓝色的部分属于大数据相关组件，使用开源大数据产品或者自己开发相关大数据组件。你可以看到，大数据平台由上到下，可分为三个部分：数据采集、数据处理、数据输出与展示。数据采集将应用程序产生的数据和日志等同步到大数据系统中，由于数据源不同，这里的数据同步系统实际上是多个相关系统的组合。数据库同步通常用 Sqoop，日志同步可以...

2020-11-15 18:08:45 370

转载 linux 书籍

入门篇《LINUX权威指南》书不错，写的很全面也比较广，涉及的不深，做为入门书籍不错，可以比较全面的了解linux 。另外比较热门的也可以看看《鸟哥的私房菜》等书，偏管理类的书。如果想做server方向的可以找来看看。驱动篇《LINUX设备驱动程序》就是网上说的“LDD”，经典之作，必备书籍。国产经典《Linux驱动详细解》也是一本非常不错的书，很实用，书中源代码分析比较

2014-12-04 17:16:40 680

转载 mysql书籍

MySQL技术内幕mysql使用大全，可以说方方面面都包括了。认真研读大概一本就差不多了MySQL开发者SQL权威指南这本应该是mysql的sql天书了。学mysql的sql语句，本书必不可少，缺点是看着有点别扭。高性能MySQL高可用MySQL:构建健壮的数据中心上面这俩本应该是提级必

2014-12-04 17:04:03 686

转载关于serveletContext.getRealPath()方法

关于serveletContext.getRealPath()方法1.关于request.getRealPath问题：String filename=request.getRealPath(filename)-------------------信息：warning: [deprecation] getRealPath(java.

2014-11-17 15:57:56 968

转载【oracle11g，】NLSRTL

Oracle NLS Runtime Library(NLSRTL)：与oracle的字符集文件以及字符支持有关。Oracle的全球支持是通过Oracle NLS Runtime Library(NLSRTL)来实施的， NLS运行库通过独立的函数来完成运行时与语言相关的转换及控制。

2014-10-17 06:57:05 1326 1

转载【oracle oem，1】oracle 11g和oracle 10g em乱码解决方法

http://www.itpub.net/thread-1244186-1-2.htmlORACLE11G EM乱码问题解决前几天有人发帖问到SUSE ORACLE11G RAC上搭建EM 乱码问题,查看了一下本人以前的文章,竟然找到了解决方法.em的乱码是由java引起的,em的按钮是由java生成的图,因此解决此问题变成了解决java的乱码问题.oracle 11

2014-10-06 11:58:06 1748

转载 oracle 11g 卸载

1.使用SQL*PLUS停止数据库[oracle@OracleTest oracle]$ sqlplus /nologSQL> connect / as sysdbaSQL> shutdown [immediate]SQL> exit 2.停止Listener[oracle@OracleTest oracle]$ lsnrctl stop

2014-09-23 22:32:44 698

转载【】oracle 11g 新特性

Oracle 11g于2007年7月11日美国东部时间11时（北京时间11日22时）正式发布，11g是甲骨文公司30年来发布的最重要的数据库版本，根据用户的需求实现了信息生命周期管理（Information Lifecycle Management）等多项创新。一．新特性提纲 1.数据库管理部分◆数据库重演(Database Replay) 这一特性可以捕捉整个数据的负

2014-09-23 17:54:23 1207

转载 RAC中如何备份归档日志

RAC中如何备份归档日志一、RMAN管理RAC归档方法如下：1）归档在本地run {ALLOCATE CHANNEL D1 TYPE DISK CONNECT 'SYS/oracle@doudou1';ALLOCATE CHANNEL D2 TYPE DISK CONNECT 'SYS/oracle@doudou2';crosscheck archivelog all;

2014-09-23 10:54:47 1769

转载【性能诊断工具，1】awr

1.Automatic Workload Repository 概念详解Automatic Workload Repository (AWR) 收集、处理和维护用于问题诊断的性能统计信息。该数据既存在于数据块中，也存在于内存中。AWR 收集的数据可以通过报告和视图进行查看。AWR官方文档位置：http://docs.oracle.com/cd/E11882_01/s

2014-09-07 07:17:12 898

转载【gearman，1】利用Gearman实现异步任务处理

利用Gearman实现异步任务处理0774一、问题分析问题：在性能测试过程中，发现用户管理平台在进行图片上传时，性能不佳。分析：经过代码分析得知，主要的瓶颈是图片上传后，还需要根据图片组件所在页面模块容器进行一系列处理：图片生成缩略图，裁剪图片，加水印等，这些处理在高并发的情况下，会消耗大量cpu资源，导致系统响应速度非常慢。旧的处理方式：

2013-12-08 14:40:24 2028

转载 corbarclient支持spring3.X

问题： CobarClient（https://github.com/alibaba/cobarclient 下面简称CC)在Spring2.5下的配置事务管理器 1id="transactionManager"2 class="com.alibaba.cobar.client.transaction

2013-12-06 21:40:41 1757

转载 Wireshark基本介绍和学习TCP三次握手

Wireshark基本介绍和学习TCP三次握手之前写过一篇博客：用 Fiddler 来调试HTTP，HTTPS。这篇文章介绍另一个好用的抓包工具wireshark，用来获取网络数据封包，包括http,TCP,UDP，等网络协议包。记得大学的时候就学习过TCP的三次握手协议，那时候只是知道，虽然在书上看过很多TCP和UDP的资料，但是从来没有真正见过这些数据包，老是感觉在云上飘

2013-03-27 13:53:43 976

转载 android各版本的区别

Android 1.0 第一版商用操作系统 Android 1.1 更新了部分API，新增一些功能，修正了一些错误，同时增加com.google.android.maps包Android 1.5智能虚拟键盘使用widgets实现桌面个性化在线文件夹(Live Folder)快速浏览在线数据视频录制和分享图片上传更快的标准兼容浏览器

2013-01-17 17:10:38 924

转载 android实现语音

苹果的iphone 有语音识别用的是Google 的技术，做为Google 力推的Android 自然会将其核心技术往Android 系统里面植入，并结合google 的云端技术将其发扬光大。所以Google Voice Recognition在Android 的实现就变得极其轻松。语音识别，借助于云端技术可以识别用户的语音输入，包括语音控制等技术，下面我们将利用Goog

2013-01-17 17:03:36 660

转载如何配置Hadoop的 Secondary节点 & NameNode节点失效恢复

第一部分：如何设置Secondary NameNode节点（单独的） 1. 在masters文件中添加 Secondary节点的主机名。 2. 修改hdfs-default.xml 文件 dfs.http.address client148.hado

2012-12-31 16:32:32 2213

转载 hadoop常见异常---ncompatible namespaceIDs

2010-07-21 10:12:11,987 ERROR org.apache.hadoop.hdfs.server.datanode.DataNode: java.io.IOException: Incompatible namespaceIDs in /home/admin/joe.wangh/hadoop/data/dfs.data.dir: namenode namespaceID =

2012-12-30 02:09:50 975

转载 hadoop常见错误-hadoop cannot assign requested address

hadoop cannot assign requested address：解决方法：namenode与JobTrack分开部署后，在namenode端启动hadoop时报错： Caused by: java.net.BindException: Cannot assign requested address 找了很久也没找到原因，最后发现是自己理解上的错误分开部署后其实是

2012-12-30 00:41:28 3420 1

转载 1.hadoop3: mkdir: cannot create directory `/usr/local/hadoop/bin/../logs': Permission denied

1.hadoop3: mkdir: cannot create directory `/usr/local/hadoop/bin/../logs': Permission denied把所有Datanode节点执行下面命令[hadoop@hadoop3 local]$ chown -R hadoop:hadoop hadoop-0.20.2/

2012-12-30 00:16:08 7558

转载 java 8种排序

转载：http://developer.51cto.com/art/201206/345156.htm 8种排序之间的关系:1，直接插入排序（1）基本思想：在要排序的一组数中，假设前面(n-1)[n>=2] 个数已经是排好顺序的，现在要把第n个数插到前面的有序数中，使得这n个数也是排好顺序的。如此反复循环，直到全部排好顺序。

2012-12-29 12:00:00 661

转载 jQuery1.7 新特性

转载 http://blog.csdn.net/aspwzmuma/article/details/6942359 jQuery 1.7 下载:http://code.jquery.com/jquery-1.7b1.jsjQuery 1.7 主要改进：1、新的事件.on() .off()旧的 API（jQuery 1.7之前）

2012-12-29 11:55:32 766

转载 java网络爬虫的实现

Java网络爬虫的实现记得在刚找工作时，隔壁的一位同学在面试时豪言壮语曾实现过网络爬虫，当时的景仰之情犹如滔滔江水连绵不绝。后来，在做图片搜索时，需要大量的测试图片，因此萌生了从Amazon中爬取图书封面图片的想法，从网上也吸取了一些前人的经验，实现了一个简单但足够用的爬虫系统。AD：记得在刚找工作时，隔壁的一位同学在面试时豪言壮语曾实现过网络爬虫，当时的景仰之情犹如滔滔江水连

2012-12-29 11:39:03 1308

转载 js中有两个相同的方法参数个数不相同加载时会先加载哪个

function a(a,b){ alert("2222222222222"); } function a(a){ alert("11111111111"); }js加载都是从前往后的，但是一样的函数名，前面的函数会被后面的覆盖掉，所以，调用函数a的时候，永远都是去执行第二个函数。例子： //第一个a函数 function a(a

2012-12-27 17:23:21 4087

转载 hadoop常见问题 -localhost: Error: JAVA_HOME is not set

localhost: Error: JAVA_HOME is not set.启动start-all.sh时出现如下错误:root@ubuntu:/home/chenwq/hadoop/hadoop-0.21.0/bin# start-all.shThis script is Deprecated. Instead use start-dfs.sh and start-mapred.sh

2012-12-26 23:14:12 4400

转载 HIVE Leaning

http://hadoop.apache.org/hive/把这里里面的东西看好，你也能成为半个hive的高手。Hive体系结构的目的就是：low-latency(低延迟)，batch-oriented(基于批处理的)It began its life at Facebook processing large amount of user and log data. 哈哈，Hi

2012-12-16 20:16:15 982

转载 FastJson

fastJsonFastJSON是一个很好的java开源json工具类库，相比其他同类的json类库，它的速度的确是fast，最快！但是文档做得不好，在应用前不得不亲测一些功能。实际上其他的json处理工具都和它差不多，api也有几分相似。一、JSON规范JSON是一个标准规范，用于数据交互，规范的中文文档如下：http://www.json.org/json-

2012-11-21 13:56:32 873

转载 beans 的default-autowire属性

自动装配,官方给出的定义是这样:Spring IoC容器可以自动装配（autowire）相互协作bean之间的关联关系。因此，如果可能的话，可以自动让Spring通过检查BeanFactory中的内容，来替我们指定bean的协作者（其他被依赖的bean）。由于autowire可以针对单个bean进行设置，因此可以让有些bean使用autowire，有些bean不采用。autowire的

2012-11-20 10:12:36 2098