vinfly_li-CSDN博客

原创 Kafka全解析

kafka标签（空格分隔）： Kafka一. ConceptsKafka is used for building real-time data pipelines and streaming apps分布式消息传递网站活跃数据跟踪日志聚合流式数据处理数据存储事件源……Kafka terminology 术语1.TopicsKafka...

2018-02-28 10:28:22 47636 10

原创 Flume + Kafka + TridentStorm + Hbase项目实战

2018-02-28 10:21:10 1733

原创 Spark基础全解析

SPARK全解析标签（空格分隔）： SparkSPARK全解析Spark是什么？Spark 源码编译Spark本地模式安装配置及Spark Shell基本使用Spark集群Spark Application开发、运行及监控（IDEA）Spark 日志监控（HistoryServer）配置Spark RDDSpark共享变量Spark 内核Spark 依赖Spa...

2018-02-28 10:05:32 24144

原创 Actor模型与Akka

Actor模型与Akka一. Actor模型Actor模型概念一个概念模型,用于处理并发计算Actor模型内部的状态由自己的行为维护,外部线程不能直接调用对象的行为,必须通过消息才能激发行为,这样就保证Actor内部数据只有被自己修改Actor模型组成Actor模型详解在Actor模型中,一切都可以抽象为Actor,一个Actor指的是一个最基本的计...

2018-03-02 16:29:59 1711 1

原创 Solr语法解析及SolrJ使用

Solr语法解析及SolrJ使用标签（空格分隔）： Solr官方指南:http://lucene.apache.org/solr/quickstart.htmlSolrj 之HttpSolrClient旧版本的连接服务HttpSolrServer在solr5版本后已经停用，被新的HttpSolrClient取代，大家可以从下面的url中查看相关的API,了解更详细的变动。 A...

2018-03-01 17:37:49 4891 1

原创 Windows系统Solr单机安装

Windows系统Solr单机安装标签（空格分隔）： SolrSolr概览1, 什么是SolrSolr是一个独立的企业级搜索应用服务器，它对外提供类似于Web-service的API接口。用户可以通过http请求，向搜索引擎服务器提交一定格式的XML文件，生成索引；也可以通过Http Get操作提出查找请求，并得到XML格式的返回结果。2,Solr特点Sol...

2018-03-01 17:36:00 986

原创 Spark开发性能调优

Spark开发性能调优标签（空格分隔）： Spark–Write By Vin1. 分配资源调优Spark性能调优的王道就是分配资源,即增加和分配更多的资源对性能速度的提升是显而易见的,基本上,在一定范围之内,增加资源与性能的提升是成正比的,当公司资源有限,能分配的资源达到顶峰之后,那么才去考虑做其他的调优如何分配及分配哪些资源在生产环境中,提交spark作业时...

2018-03-01 17:26:44 17463 6

原创 Redis DB开发指南

Redis DB标签（空格分隔）： Redis 1,概述：Redis是一个开源的使用ANSI C语言编写、支持网络、可基于内存亦可持久化的日志型、Key-Value数据库，并提供多种语言的API2,安装、编译Redis安装、编译[hadoop@bigdata01 sdb4]$ lsapache app eclipse idea-141 l...

2018-02-28 10:31:09 2335

原创 Azkaban基础指南

Azkaban标签（空格分隔）： AzkabanAzkaban is a batch workflow job scheduler created at LinkedIn to run Hadoop jobs. Azkaban resolves the ordering through job dependencies and provides an easy to use web u...

2018-02-28 10:26:45 1374

原创 Hive基础指南

Hive指南标签（空格分隔）： HiveHIVE基本介绍Hive是由FaceBook开源的用于解决海量结构化日志的数据统计，后成为Apache Hive的一个开源项目，Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射成一张表，并提供类SQL（也成为HQL）查询功能，它的本质是将HQL转化为MapReduce程序，灵活性和扩展性比较好，支持自定义函数（UDF）...

2018-02-28 10:23:45 711

原创 Flume指南

Flume基础标签（空格分隔）： FlumeFlume概述Flume是一个分布式的,可靠的,可用的,非常有效率的对大数据量的日志数据进行收集,聚集,移动信息的服务,Flume仅仅运行在linux环境下,它是一个基于流式的数据的灵活的架构,具有健壮和容错性,官网中这样解释健壮和容错: The events are staged in a channel on each agen...

2018-02-28 10:15:51 1271

原创 Apache Beam指南

Apache Beam标签（空格分隔）： Hadoop1. What is Beam ?前世今生:诞生背景: 分布式数据处理发展迅猛 –> 新的分布式数据处理技术越来越多 –> Hadoop MapReduce，Apache Spark，Apache Storm，Apache Flink，Apache Apex –> 新技术高性能 , 受欢迎,人们喜...

2018-02-28 10:12:37 13344 2

原创 Scala基础语法指南

Scala标签（空格分隔）： Scala By VinflyScalaScala介绍Scala语法声明变量数据类型与操作符函数调用和apply()函数条件控制和循环函数数组数组转换Map与Tuple面对对象编程之–类面向对象编程之对象面向对象之继承面向对象编程之Trait函数式编程引言语法函数式编程之集合操作模式匹配类型参数隐式转...

2018-02-28 10:08:26 4812

原创 Hbase基础全解析

HBASE基础全解析标签：大数据生态本文使用版本 hbase-0.98.6-cdh5.3.6 源码库： https://github.com/apache/hbase/releases 注：rel = release即发行版本， RC=Release Candidate即候选发行版 Write By VinFlyHBASE概述HBASE概述HBASE是...

2018-02-28 09:40:56 6022 2

vinfly_li的博客