2016年11月_leveretz

原创安全架构总体方案

信息安全是保证大数据平台安全稳定运行的关键，需要建设完善的信息安全主动防御体系和信息安全治理体系。大数据平台信息安全将遵循相关安全规范和安全策略，总体安全防护方案参照等级保护第三级系统安全要求进行设计（其等级将根据等级保护定级最终结果确定）。1.1.1. 应用安全应用安全从身份鉴别、访问控制、安全审计、剩余信息保护、通信完整性、通信保密性、抗抵赖、软件容错、资源控制和代码安全等几方面考

2016-11-23 11:56:09 28145

转载大数据综述

随着移动互联网､物联网和云计算技术的迅速发展，开启了移动云时代的序幕，大数据（BigData）也越来越吸引人们的视线｡正如1982年世界预测大师､未来学家约翰.奈斯比特（John.Naisbitt）在他的著作中所提到的：“我们现在大量生产信息，正如过去我们大量生产汽车一样”､“人类正被信息淹没，却饥渴知识”，等等诸的预言均在当下得到了充分的证实，这也恰恰说明，世界正处一个信息爆照的时代｡Int

2016-11-23 11:53:24 11058 1

原创虚拟化理解

虚拟现实是“通过由电脑提供的感官刺激（例如视觉和听觉），使用户产生一种人工环境的体验，并且在这人工环境中，用户的行动部分地由该环境中所发生的事情所决定”。虚拟化正是这样做的：虚拟机软件在一台真正的物理系统上创建一个或多个虚拟工作站或服务器。磁盘空间、处理器性能、网络适配器及大量随机访问存储器（RAM）均取决于真正物理机上的资源。一般的计算机模型可以抽象成为一定的物理资源和运行其上的计算机元件，

2016-11-23 11:51:44 1064

原创 flume+kafka

Flume 是一个分布式、可靠、和高可用的海量日志聚合的系统，支持在系统中定制各类数据发送方，用于收集数据；同时，Flume提供对数据进行简单处理，并写到各种数据接受方(可定制)的能力。Flume 的特点是可以通过手工配置，可以自动收集日志文件，在大数据处理及各种复杂的情况下，flume经常被用来作为数据处理的工具，Flume搜集日志的方式多种多样，比如可以检测文件夹的变化，可以监

2016-11-23 11:50:38 770

原创数据爬虫综述

随着大数据时代的来临，互联网对人类的生活影响越来越深入，已经成为人类获取信息的主要来源之一。互联网为用户带来海量数据的同时也带来了困扰，如何及时获得有效信息成为研究重点。搜索引擎根据预定的策略从互联网上发现和抓取数据，存入本地；对数据进行去噪、抽取和生成索引等处理，最终为用户提供信息检索服务，将相关信息展示给用户的系统。爬虫（Crawler）是搜索引擎架构中的最底层模块，以一定的策略从互联网上

2016-11-23 11:49:54 3740

原创 ETL综述

数据集成是现有企业系统间集成解决方案中最普遍的一种形式，主要指将不同来源、格式、特点性质的数据在逻辑上或物理上有机地集中，从而为企业提供全面的数据共享。数据集成发生在企业内的数据库和数据源级别，通过从一个数据源将数据移植到另外一个数据源来完成数据集成。ETL是对企业数据进行数据抽取（Extract）、转换（Transform）、装载（Load）的过程，负责将分布的、异构数据源中的数据如关系数据

2016-11-23 11:49:06 1392 1

原创 Storm研究综述

实时计算具备分布式、低延迟、高性能、可扩展、高容错、高可靠、消息严格有序、定制开发等特点。在整个计算过程中，实时计算引擎与各处理单元均处于运行状态，接收源源不断流进的消息，进行任务的分配、调度、路由、计算，最后将处理结果进行存储。通常，实时计算引擎由数据读取、模型转换、逻辑处理等组件组成，数据读取组件从外部数据源源源不断的读取数据，然后依据内容数据模型转换为内部源数据，让后交由逻辑处理组件进行

2016-11-23 11:48:19 1704

原创 Spark研究综述

Spark 是UC Berkeley AMPLab于2009年发起的，然后被Apache软件基金会接管的类Hadoop MapRe鄄duce通用性并行计算框架，是当前大数据领域最活跃的开源项目之一。Spark是基于MapReduce计算框架实现的分布式计算，拥有Hadoop MapReduce所具有的优点；但不同于MapReduce的是中间输出和结果可以保存在内存中，从而不再需要读写HDF

2016-11-23 11:47:41 2495

原创 Hadoop研究综述

大数据时代对于数据分析?管理都提出了不同程度的新要求，许多传统的数据分析技术和数据库技术已经不足以满足现代数据应用的需求。为了给大数据处理分析提供一个性能更高?可靠性更好的平台，Doug Cutting模仿GFS，为MapReduce开发了一个云计算开源平台Hadoop，用Java编写，可移植性强。现在Hadoop已经发展为一个包括分布式文件系统HDFS、分布式数据库HBase以及数据分析处理

2016-11-23 11:47:05 4235

原创 NoSql数据库

1.1. NoSql数据库传统的关系型分布式数据库已经不能适应大数据时代的数据存储要求：数据规模变大。大数据时代的特征之一“Volume”，就是指巨大的数据量，因此必须采用分布式存储方式。传统的数据库一般采用的是纵向扩展（scale-up）的方法，这种方法对性能的增加速度远远低于所需处理数据的增长速度，因此不具有良好的扩展性。大数据时代需要的是具备良好横向拓展（scale-out）性能的分

2016-11-23 11:46:01 821

原创数据仓库

数据仓库之父 Bill Inmon将数据仓库定义为：“数据仓库是一个面向主题的、集成的、时变的、非易失的数据集合。”经过 10多年的发展，Inmon 在技术发展及建设经验积累的基础上提出了数据仓库 2.0的概念。DW2.0体现了对数据的精细化管理：非结构化数据的引入完善了数据仓库的大数据处理能力；将数据按时间划分为三部分，可以有针对性地实施不同的更新策略，支持数据仓库的流数据能

2016-11-23 11:45:16 736

原创架构风格

云计算Google在2006年率先提出“云计算”的概念。所谓“云计算”，是一种大规模的分布式模型，通过网络将抽象的､可伸缩的､便于管理的数据能源､服务､存储方式等传递给终端用户。狭义云计算是指IT基础设施的交付和使用模式，指通过网络以按照需求量的方式和易扩展的方式获得所需资源。广义云计算指服务交付和使用模式，指通过网络以按照需求量和易扩展方式获得所需服务。目前，云计算可以认为包含3个层次的

2016-11-23 11:44:29 474

原创数据挖掘算法

方差分析在实际生活中，人们往往通过试验来了解各种因素对诸如产品销量、产品产量、产品质量等指标的影响，不仅如此，还要在各种因素中找出显著的因素以及这些因素在什么状态（水平）对改变产品质量，增加产品产量、产品销量最有利，从而选出最优的因素水平，为此，首先设计一个合适的实验方案，按照该实验方案进行试验，然后对试验结果进行分析，方差分析就是解决这项工作的有效方法。方差分析按照影响试验指标的个数分为单因

2016-11-15 12:11:38 1127

转载转载-dubbo-服务治理

在大规模服务化之前，应用可能只是通过RMI或Hessian等工具，简单的暴露和引用远程服务，通过配置服务的URL地址进行调用，通过F5等硬件进行负载均衡。(1) 当服务越来越多时，服务URL配置管理变得非常困难，F5硬件负载均衡器的单点压力也越来越大。此时需要一个服务注册中心，动态的注册和发现服务，使服务的位置透明。并通过在消费方获取服务提供方地址列表，实现软负载均衡和Failover

2016-11-14 12:54:28 323

原创 dubbo2.4.11-编译安装开发

准备zookeeper-3.4.9.tar.gztomcat-7.0.72.tar.gz 安装配置zookeeperwget http://mirrors.cnnic.cn/apache/zookeeper/zookeeper-3.4.9/zookeeper-3.4.9.tar.gztar -xvf zookeeper-3.4.9.tar.gzcd /usr/local

2016-11-08 16:56:42 1024

原创 Java端集成drools6.4.0.Final

web.xml<web-app xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xmlns="http://java.sun.com/xml/ns/javaee" xsi:schemaLocation="http://java.sun.com/xml/ns/javaee http://java.su

2016-11-03 10:31:30 756

原创构件组装-总结与展望

第六章总结与展望6.1总结本文深入研究了构件组装相关理论及其数学基础、SOA相关技术标准、OSGi相关技术标准、模型驱动相关技术标准、代码生成相关概念与技术以及领域工程相关理论，重点分析并揭示了构件组装的本质，以及构件组装的数学基础，分形理论，并提出了一种普适性的构件组装机制，建立起了构件与连接件的元模型，并提出了借助DSM来解决构件组装目前面临的“如何从高层的构件组装模型产生完整的程

2016-11-02 11:56:44 1092

原创构件组装-支持构件组装的开发环境

第五章支持构件组装的开发环境本章以上述相关理论与技术研究为基础，实现了一个支持构件组装的开发环境，MyWebFw，并详细说明了MyWebFw实现的指导思想、环境构成、关键技术以及开发流程等内容。MyWebFw是基于DSM的支持构件组装的开发环境，在实际应用中，可明显的提高软件开发效率与产品质量。5.1MyWebFw指导思想图5-1 MyWebFw概念层次MyWebFw是

2016-11-02 11:55:47 1121

原创构件组装-模型驱动的构件组装

第四章模型驱动的构件组装本章提出一种普适性的构件组装机制，建立起构件与连接件元模型，并对它们的性质进行了总结归纳，在此基础上建立起构件与连接件元模型的实现。基于DSM的构件组装，实现了从高层的构件组装建模到程序代码的完整映射。4.1构件元模型及特性构件通常分为原子构件与组装产生的复合构件，但本文使用DSM快速生成完整的代码级复合构件与构件模型，而代码级复合构件可视为原子构件并被再次

2016-11-02 11:54:49 1384

原创构件组装-特定领域建模与代码生成

第三章特定领域建模与代码生成本章首先归纳总结了创建特定领域元模型及其实现的方法与原则，介绍了使用GMF通过特定领域元模型快速定制生成特定领域建模工具的过程，并提出基于SA与SF创建覆盖不同业务类型的样例代码的方法与原则，然后总结归纳了特定领域建模与代码生成的整体过程，最后提出根据特定领域元模型将样例代码制作成代码模板的方法与原则，并介绍了通用代码生成引擎的组成部分以及代码生成的过程。本章提

2016-11-02 11:54:10 1424

原创构件组装-理论与技术

第二章相关理论与技术本章主要介绍了本文研究的相关理论与技术，包括构件组装相关理论、SOA相关技术标准、OSGi相关技术标准、模型驱动相关技术标准、代码生成相关概念与技术以及领域工程相关理论，这些理论与技术构成了本文研究的基础。2.1构件组装相关理论1968年的NATO软件工程会议上，Mcllroy在提交会议的论文《大量生产的软件构件》中，提出了“软件组装生产线”的思想【5】。简单的

2016-11-02 11:51:50 8672

原创构件组装-引言

第一章引言本章主要介绍了本文研究的背景、相关理论与技术的基本概念以及本文的研究意义和主要工作，包括软件开发目前面临的问题，构件、构件组装、MDA、DSM、SA、SF等基本概念，MDA的局限性，DSM的先进性，以及构件组装的研究现状等，同时对本文的内容与组织结构做了详细的说明。1.1软件开发目前面临的问题社会经济迅猛发展，推动信息化建设进程加快，对软件的需求也迅速增长，但目前软件生

2016-11-02 11:51:07 794

原创 CRM实施高失败率分析

摘要CRM的发展、市场的不断壮大，预示CRM将成为软件业中的新增长点。但CRM在实施中的失败率却极高，其中影响CRM实施的失败因素到底有哪些？而促使CRM实施的成功方案又是什么样子？引言2007年9月，Gartner发布预测：全球CRM软件总收入将以每年约10亿美元的速度递增，且势头将会延续到2011年，而2007年全球CRM软件总收入将超过74亿美元，较之2006年增长14个百分点。

2016-11-02 11:48:50 1014

原创 SOA研究综述

引言96年Gartner提出SOA，目的是让企业业务更加敏捷，软件系统变得更有弹性，使企业能快速响应需求的变化，这样的目的是有当时背景的。经济全球化要求企业的业务具备更大的灵活性，比以往能更快地响应市场变化，业务快速变化则要求软件系统具备更大的弹性，而对于企业已经普遍存在的遗留系统来说，这无疑是办不到的，不但办不到，而且遗留系统本身还存在信息孤岛问题。从资源利用的角度，企业为实现利益最大化，遗

2016-11-02 11:47:32 1109

原创分库分表

开源项目：TSharding-client原因1、单台数据库的数据量、数据处理能力是有限的。2、分库分表用于应对互联网常见的两大场景：大数据量、高并发。3、分库分表后，采用最终一致性的柔性事务居多，eventual consistency。策略1、垂直切分，将表按照功能模块、关系密切程度划分部署到不同库表上。2、水平切分，将表中的数据按照某种规则切分成结

2016-11-02 03:52:20 515

原创 jvm研究综述

jvm组成1、类加载器，class loader subsystem，加载类型，赋予唯一名字。2、执行引擎，execution engine，执行被加载类中包含的指令。3、数据区，data area，保存字节码、加载类的其他信息、对象、方法、参数、返回值、变量等。4、本地方法接口，其他编程语言交互的接口。5、垃圾回收，GC。jvm结构两个子系统：类加载子系统、执行引

2016-11-02 03:51:06 1595

原创 Java关键字

atomic1、包括AtomicInteger、AtomicLong、AtomicBoolean、AtomicReference。2、多线程并发操作同一资源时，保证操作的原子性，即所有操作步骤要么都成功要么都失败。3、采用Lock-free算法，比synchronize开销小、速度快。Lock-free基于CAS原子操作。4、CAS即CPU乐观锁，Compare and Swap。

2016-11-02 03:50:08 370

原创 smp mpp numa

SMP、NUMA、MPP体系结构介绍从系统架构来看，目前的商用服务器大体可以分为三类，即对称多处理器结构 (SMP ： Symmetric Multi-Processor) ，非一致存储访问结构 (NUMA ： Non-Uniform Memory Access) ，以及海量并行处理结构 (MPP ： Massive Parallel Processing) 。它们的特征分别描述如下

2016-11-02 03:49:18 381

原创 san nas das

DAS是存储中很古老的技术了，其代表是磁盘阵列（在服务器上加几个硬盘也属此类）。DAS的主要优势在于简单易用，只要把盘阵接在服务器后面，几乎不用怎么设置，就可使用。但是相对于NAS和SAN，DAS的缺点是很突出的：磁盘利用率很低，只有30％左右，而NAS和SAN可达70%；不易扩容，容量受磁盘BAY数影像，扩容只能再加一台盘阵或其他存储；如果用光纤盘阵，连接距离可以很远，但价格不菲(甚至和SAN

2016-11-02 03:48:34 272

原创常用Sql

select * from ((select * from im_idx)except all(select * from im_idx))select a.* from im_idx afull join im_idx_app b on b.app_id=a.app_idselect * from im_idx_appselect sum(

2016-11-02 03:47:20 318

原创分析挖掘

数据挖掘数据挖掘（Data Mining，DM）又称数据库中的知识发现（Knowledge Discover in Database，KDD）目录 1 数据挖掘概述 1.1 数据挖掘的定义 2 数据挖掘常用的方法 3 数据挖掘的功能 4 数据挖掘常用技术 5 数据挖掘的流程 6 数据挖掘与传统分析方法的区别 7

2016-11-02 03:46:38 2713

原创 drools6.4.0.Final-workbench安装

1、准备CentosMysql5.6 or aboveApache-tomcat-7.0.70.zip Jdk-1.7 or 1.8kie-drools-wb-6.4.0.Final-tomcat7.war 2、tomcat解压tomcat到/opt/tomcat-drools-wb。unzip Apache-tomcat-7.0.70.zipmv Apac

2016-11-02 03:14:00 1355

原创 nginx1.10.2集群安装

经典http://zyan.cc/nginx_php_v6/下载wget http://nginx.org/download/nginx-1.10.2.tar.gz准备yum install -y pcre-develyum install gcc gcc-c++ ncurses-devel perlyum -y install make gcc gcc-c++ncur

2016-11-02 03:11:25 5652

原创 sqoop1.4.6安装

Sqoop-1.4.6安装下载wget https://mirrors.tuna.tsinghua.edu.cn/apache/sqoop/1.4.6/sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz 解压tar -zxf sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz 改名mv sqoop-

2016-11-02 03:07:32 456

原创 spark2.1集群安装

规划cancer01 master/workercancer02 workercancer03 workercancer04 workercancer05 worker 准备su hadoop 安装scala每台机器上cd /usr/localwget http://downloads.lightbend.com/scala/2.11.8/sca

2016-11-02 03:06:25 3437

原创 hive2.1安装

切换用户su hadoop 下载wget http://mirror.bit.edu.cn/apache/hive/hive-2.1.0/apache-hive-2.1.0-bin.tar.gz 移动mv apache-hive-2.1.0-bin.tar.gz /usr/local/ 解压tar zxf apache-hive-2.1.0-bin.tar.

2016-11-02 03:05:49 503

原创 hadoop常用命令

Hadoop常用命令./bin/hdfsdfs 参数详细如下：-ls 查看指定路径的当前目录结构-ls -R 递归查看指定路径

2016-11-02 03:04:16 504

原创 hadoop2.7.2集群安装

1、下载Centos7Jdk-1.7 or 1.8hadoop-2.7.2.tar.gz2、准备主机规划家庭IP 主机名用户作用192.168.1.113 cancer01hadoopmaster192.168.1.115

2016-11-02 03:02:46 435

原创 hadoop2.7.2HA集群安装

1、下载Centos7Jdk-1.7 or 1.8hadoop-2.7.2.tar.gz2、准备主机规划IP主机名用户作用192.168.116.134 cancer01hadoopnamenoderesourcemanagerzk

2016-11-02 02:59:20 564

大数据平台关键功能设计

大数据资料整理

大数据平台建设实施方案

大数据平台建设关键技术

大数据平台建设背景介绍

zookeeper3.4.9集群安装

nginx1.10.2集群安装

Java端集成drools6.4.0.Final

HBase介绍介绍介绍

drools6.4.0.Final-workbench安装

spark2.1集群安装

hadoop2.7.2HA集群安装

空空如也