后打开撒打发了-CSDN博客

原创 hadoop上安装hive2.3.2学习总结—hive安装+mysql以及碰到坑点

一、环境准备hapdoop版本：基于hadoop2.8.1，本教程是基于hadoop2.8.1上安装的hivehive版本：apache-hive-2.3.2-bin.tar.gz二、安装配置hive+mysql（远程模式）1、首先安装好mysql数据库2、去hive官网下载hive安装包：apache-hive-2.3.2-bin.tar.gztar -zxvf ap

2018-01-29 00:30:18 4547

原创 nginx 编写简单HTTP模块以及nginx http handler的hello world示例编写

编写nginx http handler模块以便开发自己模块，本文提供hello编写到编译的详细步骤 , 文章最后提供整个示例代码编写http handler模块的几个组成部分讲解：1、ngx_command_t示例：static ngx_command_t ngx_http_mytest_commands[] ={ { ngx_string("mytest"),

2018-01-19 09:55:12 1249

转载 Spark RDD使用详解--RDD原理

RDD简介在集群背后，有一个非常重要的分布式数据架构，即弹性分布式数据集（Resilient Distributed Dataset，RDD）。RDD是Spark的最基本抽象,是对分布式内存的抽象使用，实现了以操作本地集合的方式来操作分布式数据集的抽象实现。RDD是Spark最核心的东西，它表示已被分区，不可变的并能够被并行操作的数据集合，不同的数据集格式对应不同的RDD实

2018-01-16 15:47:47 8642 1

转载 Linux进程间通信——使用共享内存

下面将讲解进程间通信的另一种方式，使用共享内存。一、什么是共享内存顾名思义，共享内存就是允许两个不相关的进程访问同一个逻辑内存。共享内存是在两个正在运行的进程之间共享和传递数据的一种非常有效的方式。不同进程之间共享的内存通常安排为同一段物理内存。进程可以将同一段共享内存连接到它们自己的地址空间中，所有进程都可以访问共享内存中的地址，就好像它们是由用C语言函数malloc

2018-01-10 15:23:18 381 1

转载 Linux进程间通信——使用信号量

这篇文章将讲述别一种进程间通信的机制——信号量。注意请不要把它与之前所说的信号混淆起来，信号与信号量是不同的两种事物。有关信号的更多内容，可以阅读我的另一篇文章：Linux进程间通信——使用信号。下面就进入信号量的讲解。一、什么是信号量为了防止出现因多个程序同时访问一个共享资源而引发的一系列问题，我们需要一种方法，它可以通过生成并使用令牌来授权，在任一时刻只能有一个执行

2018-01-10 15:19:59 363

原创 lucene学习总结篇--lucene全文检索的基本原理和lucene API简单的使用

一、常用的jar包先介绍一下常用的几个文件jar包。下面有maven pom.xml参考lucene-core：其中包括了常用的文档，索引，搜索，存储等相关核心代码lucene-analyzers-common：这里面包含了各种语言的词法分析器，用于对文件内容进行关键字切分，提取。lucene-highlighter：这个jar包主要用于搜索出的内容高亮显示。

2018-01-05 18:59:16 4065

转载 HBase原理和设计

简介HBase —— Hadoop Database的简称，Google BigTable的另一种开源实现方式，从问世之初，就为了解决用大量廉价的机器高速存取海量数据、实现数据分布式存储提供可靠的方案。从功能上来讲，HBase不折不扣是一个数据库，与我们熟悉的Oracle、MySQL、MSSQL等一样，对外提供数据的存储和读取服务。而从应用的角度来说，HBase与一般的数据库又有所区别，H

2018-01-03 10:23:52 473

转载 Scala—— Set、Map、Tuple、队列操作实战

本节主要内容mutable、immutable集合Set操作实战Map操作实战Tuple操作实战队列操作实战栈操作实战mutable、immutable集合以下内容来源于scala官方文档： http://www.scala-lang.org/docu/files/collections-api/collections.htmlScala collections s

2018-01-02 11:10:50 704

原创运行hadoop作业 No job jar file set. User classes may not be found. See Job or

气死人，之前都是好好的，突然出现这个问题，莫名奇妙；明明在代码中设置了：job.setJarByClass(xxxxxxx.class);还是报错：No job jar file set.错误WARN mapreduce.JobResourceUploader: No job jar file set. User classes may not be found. See Job

2017-12-31 21:38:00 5633

原创 Spark算子：RDD基本转换操作map、flatMap

import org.apache.spark._object rdd_test { System.setProperty("hadoop.home.dir", "C:\\hadoop_home\\") def main(args: Array[String]) { /* * Spark算子：RDD基本转换操作之 map、flatMap、

2017-12-29 18:11:18 13551

原创 Spark算子：RDD行动Action操作学习–countByKey、foreach、sortBy

package chenimport org.apache.spark._object rdd_test { System.setProperty ("hadoop.home.dir", "C:\\hadoop_home\\") def main(args: Array[String]) { /* * countByKey fo

2017-12-28 19:39:11 469

原创 windows下使用idea maven配置spark运行环境、运行WordCount例子以及碰到的问题

# 一、安装JAVA JDK 、Maven 、scala 这些安装都比较简单都可以去官网下载最新版本的安装包一一安装就可以了。scala官网下载地址：http://www.scala-lang.org/download/ # 二、安装idea scala 插件 setting—>plugins页面点击下面的角Browse repositories… 选项搜

2017-12-28 17:05:50 3819

转载 IDEA使用Maven搭建spark开发环境（scala）

如何一步一步地在Intellij IDEA使用Maven搭建spark开发环境，并基于scala编写简单的spark中wordcount实例。1.准备工作首先需要在你电脑上安装jdk和scala以及开发工具Intellij IDEA，本文中使用的是win7系统，环境配置如下：jdk1.7.0_15 scala2.10.4scala官网下载地址：http://www

2017-12-27 18:45:11 6096 2

原创 redis源码分析（二）、sds动态字符串学习总结

sds字符串Redis 只会使用 C 字符串作为字面量，在大多数情况下， Redis 使用 SDS （Simple Dynamic String，简单动态字符串）作为字符串表示。比起 C 字符串， SDS 具有以下优点：常数复杂度获取字符串长度。杜绝缓冲区溢出。减少修改字符串长度时所需的内存重分配次数。二进制安全。兼容部分 C 字符串函数。根据传统， C 语言使用长度为

2017-12-20 16:33:04 411

原创 redis源码分析（一）复习redis命令、持久化方案、主从同步原来、配置

源码分析之前复习一下redis知识，好久没用过redis有点生疏了。一、redis的数据结构　　redis可以存储键与5种不同数据结构类型之间的映射，这5种数据类型就是string（字符串）、list（列表）、set（集合）、hash（散列）、zset（有序集合）。redis命令对于这5种结构都是通用的，如del、type、range等。1、string操作：string是re

2017-12-20 16:25:13 458

原创 redis源码分析（9）redis源码链表学习总结 adlist.h adlist.c

adlist的实现就比较常规了，比较ziplist简单多了。每个链表节点使用一个 adlist.h/listNode 结构来表示：typedef struct listNode { // 前置节点 struct listNode *prev; // 后置节点 struct listNode *next; // 节点的值 vo

2017-12-20 16:21:18 489

原创 redis源码分析（八）、redis数据结构之压缩ziplist--------ziplist.c ziplist.h学习笔记

一、介绍ziplist/* The ziplist is a specially encoded dually linked list that is designed * to be very memory efficient. * Ziplist 是为了尽可能节约内存而设计相当特许的双端队列 *It stores both strings and integer values,

2017-12-20 16:20:29 724

原创 redis源码分析（七）、redis命令学习总结—Redis 有序集合(sorted set)

一、介绍Redis 有序集合和集合一样也是string类型元素的集合,且不允许重复的成员。不同的是每个元素都会关联一个double类型的分数。redis正是通过分数来为集合中的成员进行从小到大的排序。有序集合的成员是唯一的,但分数(score)却可以重复。集合是通过哈希表实现的，所以添加，删除，查找的复杂度都是O(1)。集合中最大的成员数为 232 - 1 (4294967295,

2017-12-20 16:19:43 458

原创 redis源码分析（六）、redis命令学习总结—Redis 集合(Set)

一、介绍：Redis的Set是string类型的无序集合。集合成员是唯一的，这就意味着集合中不能出现重复的数据。Redis 中集合是通过哈希表实现的，所以添加，删除，查找的复杂度都是O(1)。集合中最大的成员数为 232 - 1 (4294967295, 每个集合可存储40多亿个成员)。二、命令学习。1、 SaddRedis Sadd 命令将一个或

2017-12-20 16:19:02 971

原创 redis源码分析（五）、redis命令学习总结—哈希Hash

一、介绍hasp：大多数编程语言中的map数据结构一样，Redis是键值对的集合，也就是说它存放的是字符串和字符串之间的映射。由于这个特性，hash特别适用于存储一个对象。将一个对象存储在hash中会占用更少的内存，并且可以方便地存取整个对象。二、命令学习1、HsetRedis Hset 命令用于为哈希表中的字段赋值。如果哈希表不存在，一个新的哈希表被创建

2017-12-20 16:18:25 483

原创 redis源码分析（四）、redis命令学习总结—链表List

一、链表List链表被广泛用于实现 Redis 的各种功能，比如列表键，发布与订阅，慢查询，监视器，等等。每个链表节点由一个 listNode 结构来表示，每个节点都有一个指向前置节点和后置节点的指针，所以 Redis 的链表实现是双端链表。每个链表使用一个 list 结构来表示，这个结构带有表头节点指针、表尾节点指针、以及链表长度等信息。因为链表表头节点的前置节点和表尾节

2017-12-20 16:17:37 412

原创 redis源码分析（三）redis命令学习总结—string字符串

一、描述字符串类型是Redis中最为基础的数据存储类型，它在Redis中是二进制安全的，这便意味着该类型可以接受任何格式的数据，如JPEG图像数据或Json对象描述信息等。在Redis中字符串类型的Value最多可以容纳的数据长度是512M二、redis字符串命令介绍1.set 命令：Redis SET 命令用于设置给定 key 的值。如果 key 已经存储其他值，

2017-12-20 16:15:56 454

原创 Open-falcon安装（Open-Falcon超级详细安装步骤）

一、go环境部署1、go环境的安装，安装open-falcon之前配置go环境下载go包，http://www.golangtc.com/download 老被墙没办法，百度最新安装包，云盘之类的下载一个对应系统版本下载即可。https://pan.baidu.com/s/1pL0Ca4V?errno=0&errmsg=Auth Login Sucess&&bduss=&ssn

2017-12-20 15:38:20 12105

转载 http://blog.csdn.net/blwinner/article/details/53637932

http://blog.csdn.net/blwinner/article/details/53637932Apache Kafka 0.10.0正式发布了，此版本带来了一系列新特性和bug修复，本文介绍新特性Kafka Stream一、概述Kafka Streams是一套类库，它使得Apache Kafka可以拥有流处理的能力，通过使用Kafka Stream

2017-12-04 10:09:07 373

原创 Elasticsearch、Logstash、Kibana、Filebeat的使用总结

ELK是什么？ELK Stack是软件集合Elasticsearch、Logstash、Kibana的简称，由这三个软件及其相关的组件可以打造大规模日志实时处理系统。ElasticSearch：是一个基于Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎，基于RESTful web接口。Elasticsearch是用Java开发的，并作为Apache许可条款下的开放源码发

2017-12-01 17:15:31 5058 2

原创 log4j2通过tcp发送json日志到logstash Elasticsearch

参考资料（官网）：https://www.elastic.co/guide/en/logstash/6.0/plugins-inputs-tcp.html通过tcp的发送数据到logstash需要设置好ip+port就好，用你熟悉的方式发送数据即可。log4j2 tcp 方式发送json数据到logstashlog4j2.xml的配置参考Configuration>

2017-11-28 10:04:11 5193 2

原创 ELK系统设计：Elasticsearch+logstash + Kibana+Grafana技术架构

项目组要设计一套数据监控平台，一下是本人初步设计的技术架构图。各个组件怎么使用请关注后续文章。消息通过3中方式导入集群：1、消息解析之后直接通过Client API接口导入ES集群。2、消息解析存储到文件，存储格式为json、csv等等格式，通过logstash 监控文件收集数据到ES集群。3、消息解析之后直接通过log4j2的tcp传送到logstash，logstash过滤采样

2017-11-27 15:42:18 3091

转载 Logstash学习记录--logstash input output filter 插件总结

https://www.elastic.co/guide/en/logstash/current/index.html一：什么是Logstash1. logstash 是什么？Logstash 是有管道输送能力的开源数据收集引擎。它可以动态地从分散的数据源收集数据，并且标准化数据输送到你选择的目的地。它是一款日志而不仅限于日志的搜集处理框架，将分散多样的数据搜集自定义处理并

2017-11-22 17:32:57 6398 1

原创 logstash的安装使用、收集json日志、csv日志总结

1、logstash在官网直接下载解压即可使用[elk_test@hadoop2 14:20 ~]$tar -zxvf logstash-5.6.3.tar.gz [elk_test@hadoop2 14:21 ~]$cd logstash-5.6.3启动logstash监控文件。./bin/logstash -f my.config其中 -f 参数后面接你配置文

2017-11-22 17:15:58 4155

转载 Filebeat中文指南

一、概述Filebeat是一个日志文件托运工具，在你的服务器上安装客户端后，filebeat会监控日志目录或者指定的日志文件，追踪读取这些文件（追踪文件的变化，不停的读），并且转发这些信息到elasticsearch或者logstarsh中存放。以下是filebeat的工作流程：当你开启filebeat程序的时候，它会启动一个或多个探测器（prospectors）去检测你指定的日志

2017-11-22 15:46:21 2447

原创 elasticsearch bulk数据--ES批量导入json数据

一、Bulk API官网给出的介绍：https://www.elastic.co/guide/en/elasticsearch/reference/6.0/docs-bulk.htmlThe REST API endpoint is /_bulk, and it expects the following newline delimited JSON (NDJSON) structur

2017-11-22 15:13:45 11541 2

原创 Logstash收集json格式日志文件如何写配置文件

1、日志格式{"10190":0,"10071":0,"10191":0,"10070":0,"48":"136587","type":"136587","10018":0}我们如果收集这个日志只是做简单的配置。如下：input { file { path => ["/home/elk/logstash-5.6.3/request"] ty

2017-11-22 15:05:52 5087

原创 ES优化总结（特别是在bulk大量数据到ES的时候），持续续更新中。。。。

1、refresh时间间隔优化点：减少刷新频率，降低潜在的写磁盘性能损耗，默认的刷新时间间隔是1s，对于写入量很大的场景，这样的配置会导致写入吞吐量很低，适当提高刷新间隔，可以提升写入量，代价就是让新写入的数据在60s之后可以被搜索，新数据可见的及时性有所下降。在bulk大量数据到ES集群的时候可以关闭刷新频率，把其值设置为-1就是关闭了刷新频率，在导入完之后设置成合理的值即可，例

2017-11-22 13:45:11 37244

转载日志收集器Filebeat详解

一、简介1、Beats是elastic公司的一款轻量级数据采集产品，它包含了几个子产品：1）packetbeat(用于监控网络流量)2）filebeat(用于监听日志数据，可以替代logstash-input-file)3）topbeat(用于搜集进程的信息、负载、内存、磁盘等数据)4）winlogbeat(用于搜集windows事件日志)注：社区还

2017-11-22 13:38:28 7972 2

原创 redis源码分析（二）、redis源码分析之sds字符串

sds字符串根据传统， C 语言使用长度为N+1的字符数组来表示长度为 N 的字符串，并且字符数组的最后一个元素总是空字符 ‘\0’ 。C 语言使用的这种简单的字符串表示方式，并不能满足 Redis 对字符串在安全性、效率、以及功能方面的要求，本节接下来的内容将详细对比 C 字符串和 SDS 之间的区别，并说明 SDS 比 C 字符串更适用于 Redis 的原因。SDS又叫简单动态字符串，

2017-11-12 00:35:37 1071 1

原创 ELK研究（一）:elasticsearch java api接口操作ES集群 ---TransportClient的使用介绍 bulk批量提交数据

Java client操作ES： 1：配置集群对象信息；2：创建客户端；3：查看集群信息 1、设置集群名字默认集群名为elasticsearch，如果集群名称和指定的不一致则在使用节点资源时会报错。Settings settings = Settings.builder() .put("cluster.name", "myClusterName").build();T

2017-11-09 21:00:56 5153

原创 ELK研究（一）:elasticsearch java api接口操作ES集群 ---TransportClient的使用介绍 bulk批量提交数据

Java client操作ES： 1：配置集群对象信息；2：创建客户端；3：查看集群信息1：集群名称默认集群名为elasticsearch，如果集群名称和指定的不一致则在使用节点资源时会报错。In order to enable sniffing, set client.transport.sniff to true:Settin

2017-11-09 11:13:23 2572

原创 ElasticSearch5.6.3的安装部署以及集群部署、ElasticSearch-head的安装

一、ElasticSearch5.6.3下载安装步骤说明：ElasticSearch的运行不能用root执行，自己用useradd命令新建一个用户如下所示：sueradd chenpasswd chen 然后根据提示输入密码即可下载地址：https://www.elastic.co/downloads/elasticsearch 下载最新的安装包并解压、然后执行、命令如下：wget http

2017-11-03 17:38:01 12147

原创 redis源码分析（一）复习redis命令、持久化方案、主从同步原理、配置

源码分析之前复习一下redis知识，好久没用过redis有点生疏了。一、redis的数据结构　　redis可以存储键与5种不同数据结构类型之间的映射，这5种数据类型就是string（字符串）、list（列表）、set（集合）、hash（散列）、zset（有序集合）。redis命令对于这5种结构都是通用的，如del、type、range等。 1、string操作： string是redis

2017-11-03 01:43:39 522

转载 net/http包的使用模式和源码解析

目录：一、http包的3个关键类型二、HTTP服务器的使用模式三、HTTP服务器的执行过程四、重定向五、客户端的实现一、http包的3个关键类型：Handler接口：所有请求的处理器、路由ServeMux都满足该接口；123type Handler interface { ServeHTT

2017-10-20 16:46:16 730

人脸检测，能检测出人脸

基于opecv的肤色检测

C++获取计算机的CPU ID，硬盘序列号等硬件信息

空空如也