程序小蚂蚁-CSDN博客

原创 nginx安装和应用

Nginx 功能介绍基本HTTP服务器功能其他HTTP服务器功能邮件代理服务器功能TCP/UDP代理服务器功能体系结构和可扩展性测试的操作系统和平台Nginx下载NGINX下载地址：WINDOW版下载，LINUX安装Nginx 配置详解 #运行用户 user root; #启动进程,通常和cpu的数量相等 worker_proces...

2019-02-13 15:27:27 157

原创 KAFKA安装

KAFKA概念ApacheKafka®是一个分布式流媒体平台。这到底是什么意思呢？流媒体平台有三个关键功能：发布和订阅记录流，类似于消息队列或企业消息传递系统。以容错的持久方式存储记录流。记录发生时处理流。Kafka通常用于两大类应用：构建可在系统或应用程序之间可靠获取数据的实时流数据管道构建转换或响应数据流的实时流应用程序要了解Kafka如何做这些事情，让我...

2018-12-29 11:19:16 149

原创 Redis安装

Redis简述Redis是一个开源的使用ANSI C语言编写、支持网络、可基于内存亦可持久化的日志型、Key-Value数据库，并提供多种语言的API。Redis是一个key-value存储系统。和Memcached类似，它支持存储的value类型相对更多，包括string(字符串)、list(链表)、set(集合)、zset(sorted set --有序集合)和hash（哈希类型...

2018-11-08 11:41:36 161

原创 Elasticsearch安装

Elasticsearch概念ElasticSearch是一个基于Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎，基于RESTful web接口。Elasticsearch是用Java开发的，并作为Apache许可条款下的开放源码发布，是当前流行的企业级搜索引擎。设计用于云计算中，能够达到实时搜索，稳定，可靠，快速，安装使用方便。我们建立一个网站或应用程序，并...

2018-11-07 12:00:19 145

原创 JAVA反射详解

反射概念在运行状态中，对于任意一个类，都能够获取到这个类的所有属性和方法，对于任意一个对象，都能够调用它的任意一个方法和属性(包括私有的方法和属性)，这种动态获取的信息以及动态调用对象的方法的功能就称为java语言的反射机制。通俗点讲，通过反射，该类对我们来说是完全透明的，想要获取任何东西都可以。想要使用反射机制，就必须要先获取到该类的字节码文件对象(.class)，通过字节码文件对象...

2018-11-02 10:10:56 127

原创 spark RDD常用算子（三）

- first、take、collect、count、top、takeOrdered、foreach、fold、reduce、countByValue、lookup算法解释first：返回第一个元素take：rdd.take(n)返回第n个元素collect：rdd.collect() 返回 RDD 中的所有元素count：rdd.count() 返回 RDD 中的元素个数...

2018-11-01 11:17:09 444

原创我的博客目录

目录spark RDD常用算子（一）spark RDD常用算子（二）spark RDD算子 parallelize，makeRDD，textFilewindows系统上运行spark、hadoop报错Could not locate executable null\bin\winutils.exe in the Hadoop binariesnginx待写kafka待写elas...

2018-10-31 16:28:14 187

原创 spark RDD常用算子（二）

- reduceByKey算法解释reduceByKey 是比 combineByKey 更简单的一种情况，只是两个值合并成一个值，（ Int， Int V）to （Int， Int C），比如叠加。所以 createCombiner reduceBykey 很简单，就是直接返回 v，而 mergeValue和 mergeCombiners 逻辑是相同的，没有区别。源文件val rdd...

2018-10-31 15:28:49 246

原创 spark RDD常用算子（一）

- filter算法解释filter 函数功能是对元素进行过滤，对每个元素应用 f 函数，返回值为 true 的元素在RDD 中保留，返回值为 false 的元素将被过滤掉。内部实现相当于生成 FilteredRDD(this，sc.clean(f))。源文件过滤文件中的INFO日志 scala代码var rdd = sc.textFile...

2018-10-31 10:30:41 370

原创 spark RDD算子 parallelize，makeRDD，textFile

1. parallelize**调用SparkContext 的 parallelize()，将一个存在的集合，变成一个RDD，这种方式试用于学习spark和做一些spark的测试 **scala版：第一个参数一是一个 Seq集合第二个参数分区数 var array = List(1, 2, 3, 4, 5, 6, 7, 8) var rdd = sc.paralleliz...

2018-10-30 11:21:51 866

原创 windows系统上运行spark、hadoop报错Could not locate executable null\bin\winutils.exe in the Hadoop binaries

1.下载 winutils.exe：http://download.csdn.net/download/ypsong2011/9109143或者https://github.com/srccodes/hadoop-common-2.2.0-bin2.将此文件放置在某个目录下，比如C:\winutils\bin\中。3.在程序的一开始声明：System.setProperty(“hadoop....

2018-10-26 10:58:14 626

logstash ELK

Logstash 是一个开源的数据收集引擎，它具有备实时数据传输能力。它可以统一过滤来自不同源的数据，并按照开发者的制定的规范输出到目的地。

2018-11-05

Spark快速大数据分析

数据分析完整版，内容包含spark、sparkSQL、spark Streamming和spark优化等内容

2018-11-02

winuilts.rar

支持一下多种hadoop版本：hadoop-2.6.3、hadoop-2.6.4、hadoop-2.7.1、hadoop-2.8.0-RC3、hadoop-2.8.1、hadoop-2.8.3、hadoop-3.0.0

2018-10-26

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人