JankoWilliam-CSDN博客

原创大数据018——Spark(一)

1. Spark 数据分析简介1.1 Spark 是什么Spark 是一个用来实现快速而通用的集群计算的平台。在速度方面，Spark 扩展了广泛使用的 MapReduce 计算模型，而且高效地支持更多计算模式，包括交互式查询和流处理。Spark 的一个主要特点就是能够在内存中进行计算，因而更快。不过即使是必须在磁盘上进行的复杂计算，Spark 依然比 MapReduce 更加高效。Spar...

2019-02-22 16:34:33 490

原创大数据017——Scala进阶

Scala 基础语法_第二阶段1. 类和对象1.1 类1）、简单类和无参方法如下定义Scala类最简单形式：class Counter { private var value = 0 // 必须初始换字段 def increment () { // 方法默认是公有的 value += 1 } def current () = value}...

2019-02-15 15:19:41 309

Scala 是一门以 java 虚拟机（JVM）为目标运行环境并将面向对象和函数式编程语言的最佳特性结合在一起的编程语言。你可以使用Scala 编写出更加精简的程序，同时充分利用并发的威力。由于scala 运行于 JVM 之上，因此它可以访问任何 Java 类库并且与 Java 框架进行相互操作。1. Scala 解释器1.1 安装Scala1）、Scala 官网下载最新版本https://...

2019-02-07 19:13:52 785

原创大数据016——Kafka

1. Kafka 简介Kafka 是一个高吞吐量、低延迟分布式的消息队列系统。kafka 每秒可以处理几十万条消息，它的延迟最低只有几毫秒。Kafka 也是一个高度可扩展的消息系统，它在LinkedIn 的中央数据管道总扮演着十分重要的角色。1.1 Kafka 的主要设计目标Kafka 作为一种分布式的、基于发布/订阅的消息系统，其主要设计目标如下：以时间复杂度为O（1）的方式提供消息持...

2019-01-28 21:31:18 246

原创大数据014——Storm 集群及入门案例

分布式实时数据处理框架——Storm1. Storm 集群1.1 Storm 版本变更版本编写语言重要特性 HA 高可用 0.9.x java+clojule 改进与Kafka、HDFS、HBase的集成不支持，storm集群只支持一...

2019-01-28 21:30:32 431

原创大数据015——Elasticsearch深入

1. Elasticsearch 核心概念1.1 cluster代表一个集群，集群中有多个节点，其中有一个为主节点，这个主节点是可以通过选举产生的，主从节点是对于集群内部来说的。es的一个重要概念就是去中心化，字面上理解就是无中心节点，这是对于集群外部来说的，因为从外部来看es集群，在逻辑上是个整体，你与任何一个节点的通信和与整个es集群通信是等价的。主节点的职责是负责管理集群状态，包括...

2019-01-28 09:01:23 172

原创大数据015——Elasticsearch基础

1. Elasticsearch 简介Elasticsearch是一个基于Lucene的实时的分布式搜索和分析引擎。设计用于云计算中，能够达到实时搜索，稳定，可靠，快速，安装使用方便。基于RESTful接口。1.1 Lucene与ES关系1）Lucene只是一个库。想要使用它，你必须使用Java来作为开发语言并将其直接集成到你的应用中，更糟糕的是，Lucene非常复杂，你需要深入了解检索的...

2019-01-28 08:47:28 283

原创 Hive与HBase整合详解

参考之前小节的大数据010——Hive与大数据012——HBase成功搭建Hive和HBase的环境，并进行了相应的测试，并且在大数据011——Sqoop中实现Hive、HBase与MySQL之间的相互转换；本文讲述如何将Hive与HBase进行整合。1. Hive与HBase整合概述1.1 整合原理Hive与HBase整合的实现是利用两者本身对外的API接口互相通信来完成的，其具体工作交由...

2019-01-28 08:45:51 556

原创大数据014——Storm 简介及入门案例

分布式实时数据处理框架——Storm1. Storm简介与核心概念1.1 Storm 简介全称为 Apache Storm，是一个分布式实时大数据处理系统。它是一个流数据框架，具有最高的获取率。它比较简单，可以并行地对实时数据执行各种操作。它通过Apache ZooKeeper 集群管理分布式环境和集群状态。Apache Storm 继续成为实时数据分析的领导者。Storm 易于设置和操作，...

2019-01-23 21:33:24 1392

原创 Hadoop源码分析——计算模型MapReduce

MapReduce 是一个计算模型，也是一个处理和生成超大数据集的算法模型的相关实现。用户首先创建一个Map函数处理一个基于key/value pair的数据集合，输出中间的基于 key/value pair 的数据集合；然后在创建一个Reduce函数用来合并所有的具有相同中间 Key 值得中间Value值。1. Map 处理过程1.1 Mapper 概述Mapper函数最核心的作用就是对...

2019-01-21 22:49:10 415

原创大数据013——Flume

1. Flume 简介Flume是由Cloudera软件公司提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统，后与2009年被捐赠了apache软件基金会，为hadoop相关组件之一。 Flume 是一个从可以收集例如日志，事件等数据资源，并将这些数量庞大的数据从各项数据资源中集中起来存储的工具/服务。flume具有高可用，分布式，配置工具，其设计的原理也是基于将数据流，如日...

2019-01-18 22:47:29 254

原创 Hadoop源码分析——MapReduce输入和输出

Hadoop中的MapReduce库支持集中不同的格式的输入数据。例如，文本模式的输入数据的每一行被视为一个key/value键值对。key是文件的偏移量，value是那一行的内容。另一种常见的格式是以key进行排序来存储key/value键值对的序列。每种输入类型的实现都必须能够把数据分割成数据片段，并能够由单独的Map任务来对数据片段进行后续处理。1. 输入格式-InputFormat当...

2019-01-18 16:56:42 711

原创大数据012——HBase

1. HBase 简介HBase-Hadoop Database，是一个高可靠性、高性能、面向列、可伸缩、实时读写的分布式数据库；在Hadoop生态圈中，它是其中一部分且利用Hadoop HDFS作为其文件存储系统,利用Hadoop MapReduce来处理HBase中的海量数据,利用Zookeeper作为其分布式协同服务,主要用来存储非结构化和半结构化的松散数据（NoSQL非关系型数据库有...

2019-01-16 20:14:38 334

原创大数据011——Sqoop

1. Sqoop 概述Sqoop是Hadoop和关系数据库服务器之间传送数据的一种工具。它是用来从关系数据库如：MySQL，Oracle到Hadoop的HDFS，并从Hadoop的文件系统导出数据到关系数据库。传统的应用管理系统，也就是与关系型数据库的使用RDBMS应用程序的交互，是产生大数据的来源之一。当大数据存储器和分析器，如MapReduce, Hive, HBase, Cassandr...

2019-01-16 20:12:54 338

原创大数据010——Hive

1. Hive 概述Hive 是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具，可以用来进行数据提取转化加载（ETL），这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。Hive 定义了简单的类 SQL 查询语言，称为 QL，它允许熟悉 SQL 的用户查询数据。同时，这个语言也允许熟悉 MapReduce 开发者的开发自定义的 mapper 和 reduc...

2019-01-14 22:16:41 2830 5

原创 Hadoop源码分析——JobClient

1. MapReduce作业处理过程概述当用户使用Hadoop的Mapreduce计算模型来进行处理问题时，用户只需要定义所需的Mapper和Reduce处理函数，还有可能包括的Combiner、Comparator、Partition等函数；之后，新建一个Job对象，并Job的运行环境进行相应的配置，最后调用Job的waitForCompletion或者submit方法提交作业。具体代码结构如...

2019-01-14 22:15:05 889 1

原创 MapReduce实例——好友推荐

1. 实例介绍好友推荐算法在实际的社交环境中应用较多，比如qq软件中的“你可能认识的好友”或者是Facebook中的好友推介。好友推荐功能简单的说是这样一个需求，预测某两个人是否认识，并推荐为好友，并且某两个非好友的用户，他们的共同好友越多，那么他们越可能认识。2. 数据流程3. 具体实现3.1 上传数据qq.txttom cat hadoop hellohello mr tom...

2019-01-14 22:13:49 4611 2

原创 MapReduce实例——wordcount（单词统计）

1. MR实例开发整体流程最简单的MapReduce应用程序至少包含 3 个部分：一个 Map 函数、一个 Reduce 函数和一个 main 函数。在运行一个mapreduce计算任务时候，任务过程被分为两个阶段：map阶段和reduce阶段，每个阶段都是用键值对（key/value）作为输入（input）和输出（output）。main 函数将作业控制和文件输入/输出结合起来。2. 环境...

2019-01-14 22:11:32 4430 1

原创大数据009——MapReduce

分布式离线计算框架MapReduceMapReduce是一种编程模型。Hadoop MapReduce采用Master/slave 结构。只要按照其编程规范，只需要编写少量的业务逻辑代码即可实现一个强大的海量数据并发处理程序。核心思想是：分而治之。Mapper负责分，把一个复杂的业务，任务分成若干个简单的任务分发到网络上的每个节点并行执行，最后把Map阶段的结果由Reduce进行汇总，输出到HD...

2019-01-09 20:56:19 407

原创大数据008——YARN

1. YARN概述YARN是Hadoop 2.0中的资源管理系统，它的基本设计思想是将MRv1中的JobTracker拆分成了两个独立的服务：一个全局的资源管理器ResourceManager和每个应用程序特有的ApplicationMaster。其中ResourceManager负责整个系统的资源管理和分配，而ApplicationMaster负责单个应用程序的管理。YARN总体上仍然是ma...

2019-01-08 22:19:11 286

原创大数据007——HDFS2.0

1. Hadoop 2.01.1 Hadoop1.0于Hadoop2.0的区别1）. 从整体框架来说 a. Hadoop1.0即第一代Hadoop，由分布式存储系统HDFS和分布式计算框架MapReduce组成，其中HDFS由一个NameNode和多个DateNode组成，MapReduce由一个JobTracker和多个TaskTracker组成。 b. Hadoop2.0即第二代...

2019-01-08 21:33:26 317

原创大数据006——Zookeeper

1. 前言1.1 Zookeeper简介ZooKeeper是一个分布式的，开源的分布式应用程序协调服务，是Google的Chubby一个开源的实现，是Hadoop和Hbase的重要组件。目前，大部分应用需要开发私有的一个主控、协调器或控制器的协调程序来管理物理分布的子进程（如资源、任务分配等）。而协调程序的反复编写浪费，且难以形成通用、伸缩性好的协调器,所以zookeeper应用而生。它是...

2019-01-08 21:30:29 363

原创大数据005——HDFS1.0

HDFS即可作为Hadoop集群的一部分，也可以作为一个独立的分布式文件系统。上一小节实现了Hadoop安装，伪分布式搭建HDFS，这一小节使用完全分布式搭建Hadoop-HDFS集群。1. 环境准备1.1 JDK安装并配置环境变量echo $JAVA_HOME #查看JDK环境变量1.2 准备至少3台Linux虚拟机、通过VMware的克隆虚拟机功能；配置好网络JDK 时间 h...

2019-01-08 15:34:45 180

原创大数据004——Hadoop

大数据004——Hadoop1. 前言Hadoop是一个开源框架，它允许在整个集群使用简单编程模型计算机的分布式环境存储并处理大数据。它的目的是从单一的服务器到上千台机器的扩展，每一个台机都可以提供本地计算和存储。1.1 什么是大数据？大数据是不能用传统的计算技术处理的大型数据集的集合。它不是一个单一的技术或工具，而是涉及的业务和技术的许多领域。大数据包含通过不同设备和应用程序所产生的数据...

2018-12-22 21:05:18 518

原创大数据003——nginx

大数据003——nginx1. 虚拟主机虚拟主机是指在网络服务器上分出一定的磁盘空间，用户可以租用此部分空间，以供用户放置站点及应用组件，提供必要的数据存放和传输功能。nginx可以配置基于域名和基于端口的虚拟主机：1.1 基于域名的虚拟主机编辑/usr/local/nginx/conf（注意是安装目录，非源码包目录）下的nginx.conf：http { upstream ...

2018-12-20 21:04:57 215

原创 Spring xml 配置详解

Spring xml 配置详解前言我们使用的Spring框架作为Bean的管理容器，其最经典最基础的Bean配置方式就是纯XML配置，这样做使得结构清晰明了，适合大型项目使用。Spring的XML配置虽然很繁琐，而且存在简洁的注解方式，但读懂XML配置文件对我们来说依然很重要，尚且对于老系统维护必不可少的面对XML配置。 Spring的xml配置文件是其IOC容器启动时传入的重要配置文...

2018-12-19 11:27:27 1938

原创大数据002——Linux、nginx

大数据002——Linux、nginx文章目录大数据002——Linux、nginx1. 服务操作2. linux进程操作3. 其他常用命令4. JDK部署5. 部署Tomcat6. nginx6.1 负载均衡6.2 安装Nginx6.3 Nginx默认配置详解6.4 负载均衡配置6.4.1 默认负载平衡配置6.4.2 加权负载平衡6.4.3 最少连接负载平衡6.4.4 会话持久性6.5 Ngi...

2018-12-18 22:50:23 333

原创 Java Web工程中的web.xml配置文件

Java Web工程中的web.xml配置文件前言1. xml文件xml文件：Extentsible Markup Language即可扩展标记语言，是用来定义其它语言的一种元语言，其前身是SGML(标准通用标记语言)。xml文件是互联网数据传输的重要工具，因为不受编程语言和操作系统的限制，所以可以跨越互联网的任何平台，非常适合Web传输。XML提供统一的方法来描述和交换独立于应用程序或供应...

2018-12-18 08:57:01 8668

原创大数据001——Linux

大数据——Linux学习第一天文章目录大数据——Linux学习第一天1. 环境准备1.1 VMware1.2 Linux安装1.3 网络配置1.3.1 查看虚拟机网关1.3.2 配置Liunx静态IP(NAT模式)Ⅰ. 编辑配置文件Ⅱ. 修改完后执行以下命令Ⅲ. 验证是否配置成功1.3.3 XShell xftp安装与使用2. Linux文件系统2.1 目录操作2.2 文件操作2.3 文本编辑2...

2018-12-17 20:10:30 357

原创 Web页面分页显示+局部刷新

Web页面分页展示+局部刷新整合handlebars.js+自定义分页按钮jquery设计背景：在日常的Web开发中，我们经常做的一件事就是分页设计；Web页面分页展示可以给用户非常良好的体验，所以做好分页将是程序员的一项基本功。分页的后台设计，使用过MyBatis、Hibernate、JFinal等框架的童鞋都知道，后台分页查询只需要套用模板代码，操作极其简单，如果用原生sql语句编写对于...

2018-12-15 21:53:17 3991

原创 Java与设计模式一

Java与设计模式设计模式是解决问题的方案，学习现有的设计模式可以做到经验复用；使用设计模式可以重用代码，让代码更容易被他人理解，也保证了代码的可靠性。Java设计模式总体上分为三大类：创建型模式、结构型模式、行为型模式，而每一大类都细分有多种设计模式，每种模式都有相应的原理与之对应。1. 单例模式（Singleton）1.1 单例模式的特点单例类只能有一个实例；单例类必须自己创建自己...

2018-12-11 22:22:50 130

原创 Spring AOP+AspectJ注解实例

Spring AOP+AspectJ注解实例文章目录Spring AOP+AspectJ注解实例1. 启用AspectJ2. AspectJ @Before3. AspectJ @After4. AspectJ @AfterReturning5. AspectJ @AfterReturning6. AspectJ @Around总结Spring AOP+AspectJ在XML配置实例完整的 XM...

2018-12-05 16:13:02 319

原创 AOP面向切面编程

AOP面向切面编程文章目录AOP面向切面编程一、Spring AOP 通知——Advice1. 前置通知2.返回后通知3.抛出后通知4.环绕通知二、Spring AOP(Pointcut,Advisor)切入点的例子1. 切入点 - 名称匹配的例子2. 切入点 - 正则表达式的例子三、Spring自动代理创建者实例1. BeanNameAutoProxyCreator示例2. Defaul...

2018-12-05 16:12:31 137

原创 Spring Bean基础

Spring Bean基础文章目录Spring Bean基础一、Spring Bean引用例子1. Bean在不同的XML 文件2. 在同一个XML文件中的Bean二、如何注入值到Spring Bean属性1. 正常方式2. 快速方式3. “p”模式方式三、Spring Bean加载多个配置文件四、Spring 内部Bean实例五、Spring Bean作用域实例1. 单例实例2. 原...

2018-12-05 16:11:54 466

原创 Spring自动组件扫描

Spring自动组件扫描通常情况下，在XML bean配置文件声明所有的Bean类或组件，这样Spring容器可以检测并注册Bean类或组件。其实，Spring是能够自动扫描，检测和预定义的项目包并实例化bean，不再有繁琐的Bean类声明在XML文件中。1. 开启Spring自动扫描功能在bean配置文件中配置“context:component”表亲啊，这意味着，在 Spring 中...

2018-12-05 16:11:22 277

原创 Spring JavaConfig实例

Spring JavaConfig实例从Spring 3起，JavaConfig功能已经包含到Spring核心模块，他允许开发者以另一种方式定义装配Bean，并且仍然允许经典的XML配置文件方式来定义装配Bean ；所以JavaConfig是另一种替代解决方案，来看一下经典的XML定义和JavaConfig的不同，如下定义Spring容器中的Bean：Spring XML File——appl...

2018-12-05 16:09:43 163

原创 Spring 依赖注入（DI）

Spring 依赖注入（DI）在Spring框架中，依赖注入（DI）的设计模式是用来定义对象之间的依赖关系，它主要有两种类型：Setter方法注入构造器注入一、Setter方法注入这是Spring最流行的注入方式。二、构造器注入&lt;beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi="htt...

2018-12-05 16:09:03 135

原创 Spring自动封装Bean

Spring 自动封装Bean文章目录Spring 自动封装Bean一、Auto-Wiring ‘no’二、Auto-Wiring ‘byName’三、Auto-Wiring ‘byType’四、Auto-Wiring ‘constructor’五、Auto-Wiring ‘autodetect’六、Spring使用@Autowired注解自动装配1. 注册AutowiredAnno...

2018-12-05 16:07:48 714

原创 Java面试练习与总结第一回（spring+方法的重写与重载）

Java面试练习总结第一回（spring+方法的重写与重载）临近Java面试的练习与总结。1.SpringMVC的常用注解@RequestMapping：处理请求地址映射的注解，常用在类和方法上，若用在类上表示作为类中方法的父路径；属性：value：指定请求的实际 url；method：指定请求的method类型（get、post、put、delete）；params：指定Re...

2018-12-04 13:19:45 708

原创 Java操作MongoDB数据库CRUD（增删查改）

Java操作MongoDB数据库CRUD（增删查改）借助mongo-java-driver包，对MongoDB数据库的集合（DataTable）及文档（BSON对象数据）进行增删查改操作。本文的核心在于查询操作，善用mongo-java-driver包下的Iterable迭代器、fing()方法、aggregate()方法，理解Document对象映射BSON对象的底层实现，可完成类似窗口命令行...

2018-12-01 17:10:11 6459 3

scala-2.12.8 源码包

空空如也