张--小涛涛-CSDN博客

原创 001、简单工厂模式

一、UML图 Factory：工厂类，简单工厂模式的核心，负责生产需要的对象。 IProduct：抽象产品类，简单工厂模式所创建的所有对象的上级类，它可以是一个父类，也可以是一个接口。(图中所示是接口形式) Product：具体产品类，继承父类或实现接口，具体化对象。二、实例1、Factorypackage com.designP...

2020-03-07 18:49:22 160

原创大数据（067）Storm【Storm DRPC】

一、什么是DRPC RPC （Remote Procedure Call Protocol）——远程过程调用协议 RPC（Remote Procedure Call）—远程过程调用，它是一种通过网络从远程计算机程序上请求服务，而不需要了解底层网络技术的协议。RPC协议假定某些传输协议的存在，如TCP或UDP，为通信程序之间携带信息数据。在OSI网络通信模型中，R...

2020-01-29 23:16:31 448

原创大数据（066）Storm【Storm计算模型】

一、Storm计算模型简介 DAG计算模型，一个阶段接另一个阶段再接另一个阶段，在这个有向无环图里面可以灵活的组合，DAG是由Spout和bolt组合起来的，它们都是节点，边就是stream数据流，数据流里面的数据单元就是Tuple，而grouping呢就是数据流里面的数据如何做分发。二、DAG模型介绍上图所示为DAG模型图，我们可以看到，每一个水龙...

2020-01-28 00:27:47 753

原创大数据（065）Storm【Storm详细讲解】

一、Storm中各个角色的作用 • Nimbus – 集群管理 – 调度topology • Supervisor – 启停worker • Worker – 一个JVM进程资源分配的单位 ...

2020-01-26 23:02:46 937

原创大数据（064）Storm【Storm安装】

一、安装过程概述 • 部署依赖环境 – Java 6+ – Python 2.6.6+ • 部署zookeeper – 3.4.5+ – ZK为什么要用3.4.5，因为它支持磁盘的快照和namenode的定期删除，避免磁盘被打满 ...

2020-01-26 22:07:50 213

原创大数据（063）Storm【Storm介绍】

一、什么是Storm Storm是Twitter开源的分布式实时大数据处理框架，最早开源于github，从0.9.1版本之后，归于Apache社区，被业界称为实时版Hadoop。随着越来越多的场景对Hadoop的MapReduce高延迟无法容忍，比如网站统计、推荐系统、预警系统、金融系统(高频交易、股票)等等，大数据实时处理解决方案（流计算）的应用日趋广泛，目前已是分布式技术领域...

2020-01-24 16:44:46 633

原创大数据（062）Scala【Akka框架】

一、什么是Akka Akka 是一个用 Scala 编写的库，用于简化编写容错的、高可伸缩性的 Java 和 Scala 的 Actor 模型应用。二、Akka特性 1.更加简单的并发策略Simpler Concurrency，通过ActorsSTM & Transactors能够简化编写可靠的并行计算。 2.EDA架构Event-driven Archit...

2020-01-01 22:23:33 353

原创大数据（061）Scala【Scala伴生对象】

一、什么是伴生机制 • 第一点，Scala语言中没有static成员存在，第二，Scala允许以某种方式去使用static成员 • 这个就是伴生机制，所谓伴生，就是在语言层面上，把static成员和非static成员用不同的表达方式，class和object，但双方具有相同的package和name，但是最终编译器会把他们编译到一起，这是纯粹从语法层面上的约定。通过javap可...

2020-01-01 18:09:09 147

原创大数据（060）Scala【Scala相关资源&基础语法】

一、下载资源 1、Scala 我们使用Scala2.10.4来学习Scala，下载链接如下。本站下载资源链接点我 http://www.scala-lang.org/download/2.10.4.html 2、Scala开发工具 Scala开发工具有Eclip...

2019-12-23 23:31:27 206

原创大数据（059）Scala【Scala介绍】

一、为啥子学Scala 因为不久的将来药学Spark了，Scala与Spark浑然天成。 – Scala可拓展 – 面向对象 – 函数式编程 – 兼容JAVA – 类库调用 – 互操作 – 语法简洁 – 代码行短 – 类型推断 ...

2019-12-23 22:23:50 203

原创大数据（058）分布式搜索和分析引擎【elasticsearch ik中文分词器安装】

一．下载编译从地址https://github.com/medcl/elasticsearch-analysis-ik下载elasticsearch中文分词器这里默认的是master的但是master的项目需要用gradle编译，这里选择1.8.0版本。而且从下面的介绍可以知道1.8.0正好对应elasticsearch的2.2.0版本 ...

2019-12-09 23:32:57 150

原创大数据（057）分布式搜索和分析引擎【elasticsearch 概念介绍】

Elasticsearch中的核心概念• cluster – 代表一个集群，集群中有多个节点，其中有一个为主节点，这个主节点是可以通过选举产生的，主从节点是对于集群内部来说的。es的一个概念就是去中心化，字面上理解就是无中心节点，这是对于集群外部来说的，因为从外部来看es集群，在逻辑上是个整体，你与任何一个节点...

2019-11-29 07:44:38 146

原创大数据（056）分布式搜索和分析引擎【elasticsearch使用】

一、前言前面我们已经介绍了elasticsearch及其插件的安装，本章我们来介绍下哦elasticsearch的使用。二、准备篇之---CURL命令 – 简单认为是可以在命令行下访问url的一个工具 – curl是利用URL语法在命令行方式下工作的开源文件传输工具，使用curl可以简单实现常见的get/post请求。 – ...

2019-11-17 00:04:27 240

原创大数据（055）分布式搜索和分析引擎【elasticsearch插件Kibana安装】

一、背景上一节，我们安装了elasticsearch，并且尝试了elasticsearch的rest风格接口。很容易发现，通过浏览器输入一个URL来查看elasticsearch状态的方式很LOW。因此，我们需要Kibana插件来对elasticsearch进行管理。二、环境与工具准备java版本要求：最低1.7 Kibana安装包下载地址：htt...

2019-10-30 23:22:44 198

原创大数据（041）机器学习【多元线性回归实例】

一、前言保险公司对个人投保时或根据历史数据生成的模型来计算个人保费，那么本次我们就以这个模型的求解过程为例来实践下多元线性回归。二、数据&简单分析我们已经获取到了一些数据（模拟数据），文件名为insurance.csv，文件内容如下。我们可以看出数据中共有六个维度：age（年龄）,sex（性别）,bmi（肥胖指数）,child...

2019-10-30 22:49:32 4244 6

原创大数据（054）分布式搜索和分析引擎【elasticsearch安装】

一、环境与工具准备java版本要求：最低1.7 elasticsearch安装包下载地址：https://www.elastic.co/downloads/二、安装1、将安装包上传至服务器/home/softWare/elasticsearch目录下2、执行下方命令解压安装包cd /home/softWare/elasticsearch/tar -zxvf el...

2019-10-12 00:12:19 153

原创大数据（053）分布式搜索和分析引擎【elasticsearch介绍】

一、介绍Elasticseach• Elasticsearch是一个基于Lucene的实时的分布式搜索和分析引擎。设计用于云计算中，能够达到实时搜索，稳定，可靠，快速，安装使用方便。基于RESTful接口。当前GitHub，Wikipedia，ebay等都使用了Elasticseach。二、Elasticseach和Solr对比全文检索技术 lucene（一）一个简...

2019-10-11 23:04:56 331

原创大数据（052）Oozie【Oozie介绍 & CDH安装Oozie】

一、什么是Oozie • Oozie是用于 Hadoop 平台的开源的工作流调度引擎。 • 用来管理Hadoop作业。 • 属于web应用程序，由Oozie client和Oozie Server两个组件构成。 • Oozie Server运行于Java Servlet容器（Tomcat）中的web程序。二、Oozie作用 – 统一调度hadoop系统中...

2019-09-25 23:45:35 667

原创大数据（051）Impala【Impala介绍 & CDH重点Impala】

一、什么是Impala• Cloudera公司推出，提供对HDFS、Hbase数据的高性能、低延迟的交互式SQL查询功能。• 基于Hive使用内存计算，兼顾数据仓库、具有实时、批处理、多并发等优点• 是CDH平台首选的PB级大数据实时查询分析引擎二、Impala特点• 1、基于内存进行计算，能够对PB级数据进行交互式实时查询、分析• 2、无需转换为MR，直接读取HDFS数据• ...

2019-09-08 11:11:49 1777

原创大数据（050）Zookeeper【Zookeeper 之 JAVA开发】

一、org.apache.zookeeper.ZooKeeper类主要方法列表» Watcher 在 ZooKeeper 是一个核心功能，Watcher 可以监控目录节点的数据变化以及子目录的变化，一旦这些状态发生变化，服务器就会通知所有设置在这个目录节点上的 Watcher，从而每个客户端都很快知道它所关注的目录节点的状态发生变化，而做出相应的反应» 可以设置观察的操作：exist...

2019-08-28 23:43:42 176

原创大数据（049）Zookeeper【CDH 中Zookeeper初体验】

一、前言我们之前已经搭建好了CDH，其中Zookeeper已经安装好，先在我们就可以去CDH集群中体验一下Zookeeper。二、体验 1、远程任意一台服务器。 2、进入CDH中Zookeeper安装目录 cd /opt/cloudera/parcels/CDH-5.4.0-1.cdh5.4.0.p0.2...

2019-08-17 22:17:23 1136

原创大数据（048）Zookeeper【介绍Zookeeper】

一、什么是Zookeeper(动物园管理员)Zookeeper 是 Google 的 Chubby一个开源的实现，是 Hadoop 的分布式协调服务它包含一个简单的原语集，分布式应用程序可以基于它实现同步服务，配置维护和命名服务等如上图所示，有5台服务器，其中一台Leader、其余的是Follower。这就是经典的主从架构。二、为什么要用Zookeeper» 大部分分布式应用...

2019-08-11 06:57:20 201

原创大数据（047）CDH【Cloudera Manager之HUE】

一、HUE是什么• Hue是一个开源的Apache Hadoop UI系统。• 通过使用Hue我们可以在浏览器端的Web控制台上与Hadoop集群进行交互来分析处理数据。 – 例如操作HDFS上的数据、运行Hive脚本、管理Oozie任务等等。• 是基于Python Web框架Django实现的• 支持任何版本Hadoop二、HUE功能– 基于文件浏览器（Fil...

2019-08-07 07:59:04 327

原创大数据（046）CDH【Cloudera Manager安装】

一、说明操作系统：CentOS 6JDK 版本：1.7.0_80所需安装包及版本说明： CDH-5.4.0-1.cdh5.4.0.p0.27-el6.parcel CDH-5.4.0-1.cdh5.4.0.p0.27-el6.parcel.sha manifest.json cloudera-manager-el6-cm5.4...

2019-07-31 22:57:11 357

原创大数据（045）CDH【Cloudera Manager介绍】

一、介绍• Cloudera Manager是一个管理CDH的端到端的应用。• 作用： – 管理 – 监控 – 诊断 – 集成二、Cloudera Manager初看三、 Cloudera Manager架构从上图可以看出Cloudera Manager是CS架构的。• Server...

2019-01-11 20:14:03 1124

原创大数据（044）CDH【CDH介绍】

一、痛点一个产品的出现肯定是为了解决用户的痛点，在大数据领域，我们这些使用Hadoop、Hive、Hbase等的开发者来说就是其用户。如果使用原生的ApacheHadoop，在工作中我总结出了如下痛点（部分）：1、集群规模很庞大时搭建Hadoop集群复杂度越来越高，工作量很大2、规模很大的集群下升级Hadoop版本很费时费力3、需要自己保证版本兼容，比如升级Hadoop版本后需要自...

2019-01-11 07:54:47 4197

原创大数据（043）机器学习【贝叶斯分类】

一、概念机器学习算法中，有种依据概率原则进行分类的朴素贝叶斯算法，正如气象学家预测天气一样，朴素贝叶斯算法就是应用先前事件的有关数据来估计未来事件发生的概率。二、理解朴素贝叶斯2.1 一个例子如果我们知道P（spam）[垃圾邮件概率]和P（ham）[非垃圾邮件概率]是相互独立的，分别为20%和80%。其中还有一种邮件是P（Viagra）[含有单词Viagra的邮件]。那么我们是...

2019-01-06 22:51:09 621

原创大数据（042）机器学习【神经网络】

一、生物学中的神经网络一只猫大约有10亿个神经元，一只老鼠大约有7500万个神经元，一只蟑螂大约有100万个神经元，而人类有140亿个神经元。相比之下，许多人工神经网络包含的神经元要少得多，通常只有几百个，所以我们在短期内创建的人工大脑是没有危险的。二、由生物神经元到人工神经元过去我们在宏观角度模拟生物发明了很多东西，比如模拟鸟发明的飞机，模拟蝙蝠发明的雷达。随着对生物微观的深入研究，...

2018-12-26 23:45:41 1660 1

原创深入理解JVM学习笔记(三十三、JVM 内存分配----虚拟机工具介绍（jinfo））

一、概念jinfo是jdk自带的命令，可以用来查看正在运行的Java应用程序的扩展参数，甚至支持在运行时，修改部分参数。通常会先使用jps查看java进程的id，然后使用jinfo查看指定pid的jvm信息。二、用法jinfo依赖于jps，因为要使用Jstat首先要使用jps获取java进程的进程号。格式 jinfo...

2018-12-13 08:09:08 536

原创深入理解JVM学习笔记(三十二、JVM 内存分配----虚拟机工具介绍（Jstat））

一、概念Jstat（Java Virtual Machine statistics monitoring tool）是JDK自带的一个轻量级小工具。它位于java的bin目录下，主要利用JVM内建的指令对Java应用程序的资源和性能进行实时的命令行的监控，包括了对Heap size和垃圾回收状况的监控。二、用法Jstat依赖于jps，因为要使用Jstat首先要使用jps获取java进程...

2018-12-12 23:40:31 263

原创深入理解JVM学习笔记(三十一、JVM 内存分配----虚拟机工具介绍（JPS））

一、概念JPS 名称: jps 全称是Java Virtual Machine Process Status Tool。jps是用于查看有权访问的hotspot虚拟机的进程. 当未指定hostid时，默认查看本机jvm进程，否者查看指定的hostid机器上的jvm进程，此时hostid所指机器必须开启jstatd服务。 jps可以列出jvm进程lvmid，主类类名，main函数参数, jvm参...

2018-11-21 08:29:48 363

原创深入理解JVM学习笔记(三十、JVM 内存分配----逃逸分析与栈上分配）

一、概念我们之前提到过，JVM堆已经不是对象内存分配的唯一选择。栈上分配就是java虚拟机提供的一种优化技术，基本思想是对于那些线程私有的对象（指的是不可能被其他线程访问的对象），可以将它们打散分配在栈上，而不是分配在堆上。分配在栈上的好处是可以在函数调用结束后自行销毁，而不需要垃圾回收器的介入，从而提供系统的性能。栈上分配的一个技术基础是进行逃逸分析。逃逸分析的目的是判断对象的作用域...

2018-11-14 08:28:23 417

原创深入理解JVM学习笔记(二十九、JVM 内存分配----空间分配担保策略)

一、概念空间分配担保我们在二十六章也提到过，当内存分配过程中内存不够，JVM会向老年代借用内存，这就是内存分配担保策略。内存分配担保策略JVM默认是启用的，我么可以用-XX:HandlePromotionFailure来禁用内存分配担保策略。开启：-XX:+HandlePromotionFailure关闭：-XX:-HandlePromotionFailure二、策略1、当新生...

2018-11-13 08:16:25 1097

原创深入理解JVM学习笔记(二十八、JVM 内存分配----长期存活的对象分配到老年代)

一、长期存活的对象我们讲到长期存活的对象分配到老年代，那么到底怎么样算是长期存活的对象呢。和上一章的大对象一样，JVM也给我们提供了参数去进行配置：-XX:MaxTenu ringThresho。参数默认是15.二、对象年龄机制我们每一个对象有一个AGE属性。当垃圾回收被调用一次AGE+1。当AGE达到15或-XX:MaxTenu ringThresho所指定的值时，JVM便认为对象是...

2018-11-13 08:05:48 364

原创深入理解JVM学习笔记(二十七、JVM 内存分配----大对象直接分配到老年代)

一、验证首先我们编写如下程序package com.zjt.test.jvm008;public class Main { public static void main(String[] args) { byte [] b4 = new byte[40 * 1024 * 1024]; }}打开GC控制台输出运行程序，可以看到如下运行结果。从上图可以看出，在...

2018-11-11 17:10:06 6578 4

原创深入理解JVM学习笔记(二十六、JVM 内存分配----优先分配到eden&空间分配担保)

一、优先分配到eden我们写一个程序来验证对象优先分配到eden，源码如下：package com.zjt.test.jvm008;public class Main { public static void main(String[] args) { byte [] b1 = new byte[4 * 1024 * 1024]; }} 在运行main方法前进行如下配...

2018-11-10 17:51:28 831 1

原创深入理解JVM学习笔记(二十五、JVM 内存分配----概述)

前面我们已经讲到JVM的垃圾回收策略，但是回收的前提是堆内存中有对象数据。那么接下来我们就讲讲JVM在构造对象时候在堆中的内存是如何分配的。内存分配的整体策略：接下来几章我们会详细介绍上述策略。...

2018-10-19 07:29:14 201

原创深入理解JVM学习笔记(二十四、JVM 垃圾回收机制---主流垃圾收集器介绍)

JAVA的跨平台性决定了其部署的服务器类型各异，其内存结构也是大不相同的。因此针对不同的内存结构适用于不同的垃圾收集策略。因此也需要各种各样的垃圾收集器来满足需求。接下来，我们介绍下市场上主流的几个垃圾收集器。一、Serial收集器特点：1、最基本、发展最悠久2、单线程垃圾收集器要理解单线程垃圾收集器，可以举例如下图所示。从图中我们可以看出，当JVM需要进行垃圾回收时候，需要将...

2018-09-16 23:16:53 395

原创深入理解JVM学习笔记(二十三、JVM 垃圾回收机制---如何回收垃圾---回收策略【标记整理算法&分代收集算法】)

可能大家已经注意到了，前几节说的算法都是针对新生代的，那么本节我们来说说老年代的回收算法。老年代与新生代不同，我们之前提到过，新生代中大约有10%是不可被会收的对象。在老年代恰恰相反，只有大约10%的对象可以被回收。这中特点也就决定了老年代垃圾回收算法会和新生代不同。一、标记整理算法标记整理算法分为两步：（1）、标记...

2018-09-16 17:18:56 289 2

原创深入理解JVM学习笔记(二十二、JVM 垃圾回收机制---如何回收垃圾---回收策略【复制算法】)

上一节我们讲到了标记-清除算法因为需要进行两次内存扫描导致效率不高，那么这一节我们介绍一种复制算法，比较好的解决了这个问题。讲复制算法前，我们先回顾一下JVM的内存结构。JVM内存大体分为两大块，分别为线程共享区、线程独占区。其中线程共享区主要包括堆内存、方法区。线程独占区主要包括栈内存、本地方法栈、程序计数器。而我们垃圾回收主要针对的是线程共享区的堆内存。 ...

2018-09-16 15:22:04 210