JankoWilliam
码龄9年
关注
提问 私信
  • 博客:54,137
    54,137
    总访问量
  • 42
    原创
  • 1,667,000
    排名
  • 94
    粉丝

个人简介:年少如你,不曾奢望今夕,就像我们不曾奢望今生能够与你相遇,人生中一切的遇见或许都是命中注定。命中注定你心属耶稣,命中注定你信仰上帝。时光可以改变你阳光的面庞,却无法改变你虔诚的信仰,因为永远仰望天空,因为笃定的深情,我们才有幸与最好的你在2007年相遇。那也是你最好的样子那也是你永远的样子。我们爱你那时的样子,也爱那时的我们爱你的样子。

IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:上海市
  • 加入CSDN时间: 2016-02-22
博客简介:

sinat_34045444的博客

查看详细资料
个人成就
  • 获得94次点赞
  • 内容获得12次评论
  • 获得196次收藏
  • 代码片获得314次分享
创作历程
  • 23篇
    2019年
  • 19篇
    2018年
成就勋章
TA的专栏
  • Linux
    6篇
  • MongoDb
    3篇
  • Java
    12篇
  • Java面试题
    1篇
  • Spring框架
    8篇
  • Web前端
  • nginx
    2篇
  • Hadoop
    10篇
  • 大数据
    23篇
  • Zookeeper
  • YARN
    1篇
  • MapReduce
    6篇
  • Hive
    2篇
  • Sqoop
    1篇
  • HBase
    2篇
  • Flulme
    2篇
  • Storm
    2篇
  • Elasticsearch
    2篇
  • Kafka
    1篇
  • Scala
    2篇
  • Spark
    1篇
兴趣领域 设置
  • 大数据
    hadoophivesparketl
创作活动更多

超级创作者激励计划

万元现金补贴,高额收益分成,专属VIP内容创作者流量扶持,等你加入!

去参加
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

大数据018——Spark(一)

1. Spark 数据分析简介1.1 Spark 是什么Spark 是一个用来实现快速而通用的集群计算的平台。在速度方面,Spark 扩展了广泛使用的 MapReduce 计算模型,而且高效地支持更多计算模式,包括交互式查询和流处理。Spark 的一个主要特点就是能够在内存中进行计算,因而更快。不过即使是必须在磁盘上进行的复杂计算,Spark 依然比 MapReduce 更加高效。Spar...
原创
发布博客 2019.02.22 ·
555 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

scala-2.12.8 源码包

发布资源 2019.02.15 ·
gz

大数据017——Scala进阶

Scala 基础语法_第二阶段1. 类和对象1.1 类1)、简单类和无参方法如下定义Scala类最简单形式:class Counter { private var value = 0 // 必须初始换字段 def increment () { // 方法默认是公有的 value += 1 } def current () = value}...
原创
发布博客 2019.02.15 ·
377 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

大数据017——Scala基础

Scala 是一门以 java 虚拟机(JVM)为目标运行环境并将面向对象和函数式编程语言的最佳特性结合在一起的编程语言。你可以使用Scala 编写出更加精简的程序,同时充分利用并发的威力。由于scala 运行于 JVM 之上,因此它可以访问任何 Java 类库并且与 Java 框架进行相互操作。1. Scala 解释器1.1 安装Scala1)、Scala 官网下载最新版本https://...
原创
发布博客 2019.02.07 ·
819 阅读 ·
2 点赞 ·
0 评论 ·
1 收藏

大数据016——Kafka

1. Kafka 简介Kafka 是一个高吞吐量、低延迟分布式的消息队列系统。kafka 每秒可以处理几十万条消息,它的延迟最低只有几毫秒。Kafka 也是一个高度可扩展的消息系统,它在LinkedIn 的中央数据管道总扮演着十分重要的角色。1.1 Kafka 的主要设计目标Kafka 作为一种分布式的、基于发布/订阅的消息系统,其主要设计目标如下:以时间复杂度为O(1)的方式提供消息持...
原创
发布博客 2019.01.28 ·
270 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

大数据014——Storm 集群及入门案例

分布式实时数据处理框架——Storm1. Storm 集群1.1 Storm 版本变更 版本 编写语言 重要特性 HA 高可用 0.9.x java+clojule 改进与Kafka、HDFS、HBase的集成 不支持,storm集群只支持一...
原创
发布博客 2019.01.28 ·
485 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

大数据015——Elasticsearch深入

1. Elasticsearch 核心概念1.1 cluster代表一个集群,集群中有多个节点,其中有一个为主节点,这个主节点是可以通过选举产生的,主从节点是对于集群内部来说的。es的一个重要概念就是去中心化,字面上理解就是无中心节点,这是对于集群外部来说的,因为从外部来看es集群,在逻辑上是个整体,你与任何一 个节点的通信和与整个es集群通信是等价的。主节点的职责是负责管理集群状态,包括...
原创
发布博客 2019.01.28 ·
196 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

大数据015——Elasticsearch基础

1. Elasticsearch 简介Elasticsearch是一个基于Lucene的实时的分布式搜索和分析 引擎。设计用于云计算中,能够达到实时搜索,稳定,可靠,快速,安装使用方便。基于RESTful接口。1.1 Lucene与ES关系1)Lucene只是一个库。想要使用它,你必须使用Java来作为开发语言并将其直接集成到你的应用中,更糟糕的是,Lucene非常复杂,你需要深入了解检索的...
原创
发布博客 2019.01.28 ·
318 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

Hive与HBase整合详解

参考之前小节的大数据010——Hive与大数据012——HBase成功搭建Hive和HBase的环境,并进行了相应的测试,并且在大数据011——Sqoop中实现Hive、HBase与MySQL之间的相互转换;本文讲述如何将Hive与HBase进行整合。1. Hive与HBase整合概述1.1 整合原理Hive与HBase整合的实现是利用两者本身对外的API接口互相通信来完成的,其具体工作交由...
原创
发布博客 2019.01.28 ·
596 阅读 ·
0 点赞 ·
0 评论 ·
6 收藏

大数据014——Storm 简介及入门案例

分布式实时数据处理框架——Storm1. Storm简介与核心概念1.1 Storm 简介全称为 Apache Storm,是一个分布式实时大数据处理系统。它是一个流数据框架,具有最高的获取率。它比较简单,可以并行地对实时数据执行各种操作。它通过Apache ZooKeeper 集群管理分布式环境和集群状态。Apache Storm 继续成为实时数据分析的领导者。Storm 易于设置和操作,...
原创
发布博客 2019.01.23 ·
1514 阅读 ·
1 点赞 ·
0 评论 ·
12 收藏

Hadoop源码分析——计算模型MapReduce

MapReduce 是一个计算模型,也是一个处理和生成超大数据集的算法模型的相关实现。用户首先创建一个Map函数处理一个基于key/value pair的数据集合,输出中间的基于 key/value pair 的数据集合;然后在创建一个Reduce函数用来合并所有的具有相同中间 Key 值得中间Value值。1. Map 处理过程1.1 Mapper 概述Mapper函数最核心的作用就是对...
原创
发布博客 2019.01.21 ·
469 阅读 ·
1 点赞 ·
0 评论 ·
1 收藏

大数据013——Flume

1. Flume 简介Flume是由Cloudera软件公司提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,后与2009年被捐赠了apache软件基金会,为hadoop相关组件之一。 Flume 是一个从可以收集例如日志,事件等数据资源,并将这些数量庞大的数据从各项数据资源中集中起来存储的工具/服务。flume具有高可用,分布式,配置工具,其设计的原理也是基于将数据流,如日...
原创
发布博客 2019.01.18 ·
279 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

Hadoop源码分析——MapReduce输入和输出

Hadoop中的MapReduce库支持集中不同的格式的输入数据。例如,文本模式的输入数据的每一行被视为一个key/value键值对。key是文件的偏移量,value是那一行的内容。另一种常见的格式是以key进行排序来存储key/value键值对的序列。每种输入类型的实现都必须能够把数据分割成数据片段,并能够由单独的Map任务来对数据片段进行后续处理。1. 输入格式-InputFormat当...
原创
发布博客 2019.01.18 ·
781 阅读 ·
1 点赞 ·
0 评论 ·
1 收藏

大数据012——HBase

1. HBase 简介HBase-Hadoop Database,是一个高可靠性、高性能、面向列、可伸缩、实时读写的分布式数据库;在Hadoop生态圈中,它是其中一部分且利用Hadoop HDFS作为其文件存储系统,利用Hadoop MapReduce来处理HBase中的海量数据,利用Zookeeper作为其分布式协同服务,主要用来存储非结构化和半结构化的松散数据(NoSQL非关系型数据库有...
原创
发布博客 2019.01.16 ·
381 阅读 ·
2 点赞 ·
0 评论 ·
2 收藏

大数据011——Sqoop

1. Sqoop 概述Sqoop是Hadoop和关系数据库服务器之间传送数据的一种工具。它是用来从关系数据库如:MySQL,Oracle到Hadoop的HDFS,并从Hadoop的文件系统导出数据到关系数据库。传统的应用管理系统,也就是与关系型数据库的使用RDBMS应用程序的交互,是产生大数据的来源之一。当大数据存储器和分析器,如MapReduce, Hive, HBase, Cassandr...
原创
发布博客 2019.01.16 ·
402 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

大数据010——Hive

1. Hive 概述Hive 是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。Hive 定义了简单的类 SQL 查询语言,称为 QL,它允许熟悉 SQL 的用户查询数据。同时,这个语言也允许熟悉 MapReduce 开发者的开发自定义的 mapper 和 reduc...
原创
发布博客 2019.01.14 ·
2918 阅读 ·
15 点赞 ·
5 评论 ·
50 收藏

Hadoop源码分析——JobClient

1. MapReduce作业处理过程概述当用户使用Hadoop的Mapreduce计算模型来进行处理问题时,用户只需要定义所需的Mapper和Reduce处理函数,还有可能包括的Combiner、Comparator、Partition等函数;之后,新建一个Job对象,并Job的运行环境进行相应的配置,最后调用Job的waitForCompletion或者submit方法提交作业。具体代码结构如...
原创
发布博客 2019.01.14 ·
958 阅读 ·
2 点赞 ·
1 评论 ·
6 收藏

MapReduce实例——好友推荐

1. 实例介绍好友推荐算法在实际的社交环境中应用较多,比如qq软件中的“你可能认识的好友”或者是Facebook中的好友推介。好友推荐功能简单的说是这样一个需求,预测某两个人是否认识,并推荐为好友,并且某两个非好友的用户,他们的共同好友越多,那么他们越可能认识。2. 数据流程3. 具体实现3.1 上传数据qq.txttom cat hadoop hellohello mr tom...
原创
发布博客 2019.01.14 ·
4815 阅读 ·
12 点赞 ·
2 评论 ·
63 收藏

MapReduce实例——wordcount(单词统计)

1. MR实例开发整体流程最简单的MapReduce应用程序至少包含 3 个部分:一个 Map 函数、一个 Reduce 函数和一个 main 函数。在运行一个mapreduce计算任务时候,任务过程被分为两个阶段:map阶段和reduce阶段,每个阶段都是用键值对(key/value)作为输入(input)和输出(output)。main 函数将作业控制和文件输入/输出结合起来。2. 环境...
原创
发布博客 2019.01.14 ·
4511 阅读 ·
1 点赞 ·
1 评论 ·
26 收藏

大数据009——MapReduce

分布式离线计算框架MapReduceMapReduce是一种编程模型。Hadoop MapReduce采用Master/slave 结构。只要按照其编程规范,只需要编写少量的业务逻辑代码即可实现一个强大的海量数据并发处理程序。核心思想是:分而治之。Mapper负责分,把一个复杂的业务,任务分成若干个简单的任务分发到网络上的每个节点并行执行,最后把Map阶段的结果由Reduce进行汇总,输出到HD...
原创
发布博客 2019.01.09 ·
477 阅读 ·
1 点赞 ·
0 评论 ·
2 收藏
加载更多