2017年06月_绛门人

09月 08月 07月 06月 05月 04月 02月 01月

原创 VM中安装centos6.7过程

参考：http://www.linuxidc.com/Linux/2016-05/131701.htm 镜像百度网盘

2017-06-30 22:32:30 276

原创 CDH参考文档

参考：http://www.cnblogs.com/zlslch/p/6675024.html

2017-06-30 09:32:03 525

原创 MAPREDUCE使用(整理)

copy by： czbk papermapreduce是hadoop中的分布式运算编程框架，只要按照其编程规范，只需要编写少量的业务逻辑代码即可实现一个强大的海量数据并发处理程序。import java.io.IOException;import java.util.HashMap;import org.apache.hadoop.io.IntWritable;import or

2017-06-29 17:37:37 269

原创关于地理数据坐标转换

数据首先需要确定有没有坐标系，没有坐标系需要先定义坐标系， define projection，如果坐标为7,8 位，需要定义到投影。确定到多少度带，那个投影坐标系，地理坐标系为什么。 ArcGIS中定义坐标系　　ArcGIS中所有地理数据集均需要用于显示、测量和转换地理数据的坐标系，该坐标系在 ArcGIS 中使用。如果某一数据集的坐标系未知或不正确，可以使用定

2017-06-19 15:44:20 3151

转载 logstash的配置

flow-es：input { file { type => "flow" path => "/var/nginx_logs/*.log" discover_interval => 5 start_position => "beginning" }}output { if [type] == "flow" { elasticsearc

2017-06-17 19:46:03 1310

转载 logstash中的坑

kafka server.properties hostname问题https://discuss.elastic.co/t/logstash-kafka-output-plugins-not-working-on-windows/25253"\t"问题https://github.com/elastic/logstash/issues/1645grok/big

2017-06-17 19:14:59 992

转载 es与kibana插件安装

#es离线安装head插件，进入es安装目录bin/plugin install file:///home/bigdata/elasticsearch-head-master.zip#kibana离线安装插件bin/kibana plugin --install marvel --url file:///path/to/file/marvel-2.3.1.tar.gz

2017-06-17 18:33:19 1017

转载 ElasticSearch安装配置

http://www.elastic.co/guide/en/elasticsearch/reference/current/setup-configuration.htmlhttps://github.com/elastic/elasticsearch###【在多台机器上执行下面的命令】####es启动时需要使用非root用户，所有创建一个bigdata用户：useradd bigdat

2017-06-17 18:03:19 316

转载 Linux关于时间同步命令

Linux时间同步设置时区cp /usr/share/zoneinfo/Asia/Shanghai /etc/localtime联网情况：ntpdate us.pool.ntp.org修改时间date -s 11:21:00查看NTP状态service ntpd statusyum install -y ntpdchkconfig ntpd on#查看时区date -R

2017-06-17 17:54:47 1837

转载 logstash安装

https://www.elastic.co/guide/en/logstash/current/index.html首先现在logstash，上传到服务器logstash是用JRuby语言开发的，所以要安装JDKtar -zxvf logstash-2.3.1.tar.gz -C /bigdata/bin/logstash -e 'input {

2017-06-17 17:41:21 341

转载 swing中对panel的切换

import java.awt.BorderLayout;import java.awt.CardLayout;import java.awt.Color;import java.awt.Insets;import java.awt.event.ActionEvent;import java.awt.event.ActionListener;import javax.swing.JBu

2017-06-11 00:02:42 4789 1

转载 kafka中server.properties说明

#broker的全局唯一编号，不能重复broker.id=0#用来监听链接的端口，producer或consumer将在此端口建立连接port=9092#处理网络请求的线程数量num.network.threads=3#用来处理磁盘IO的线程数量num.io.threads=8#发送套接字的缓冲区大小socket.send.buffer.bytes=102400#接受

2017-06-08 23:41:52 845

转载 Spark-窗口函数

package cn.itcast.spark.day5import org.apache.spark.SparkConfimport org.apache.spark.streaming.{Milliseconds, Seconds, StreamingContext}/** * Created by ZX on 2016/4/19. */object WindowOpts

2017-06-08 00:27:23 664

转载 Zookeeper昨天还可以启动今天提示: Cannot open channel to 1 at election address /192.168.253.130:3888 java.net.Co

转： http://blog.csdn.net/qq_26840065/article/details/51002992?locationNum=3&fps=1

2017-06-07 14:52:59 10069

转载 Spark-Streaming与Kafka整合

package cn.itcast.spark.day5import org.apache.spark.storage.StorageLevelimport org.apache.spark.{HashPartitioner, SparkConf}import org.apache.spark.streaming.kafka.KafkaUtilsimport org.apache.spa

2017-06-07 11:26:29 505

原创 Zookeeper安装

Zookeeper安装解压：tar -zxvf zookeeper-3.4.5.tar.gz -C /home/hadoop/zookeeper切换到cd zookeeper/conf复制：cp zoo_sample.cfg zoo.cfg编辑：vi zoo.cfg存放数据放的位置： dataDir=/home/hadoop/zkdata当前机器产生数据存放的目录

2017-06-07 10:46:05 205

原创 kafka集群搭建

参考： http://blog.csdn.net/lovehuangjiaju/article/details/50143325

2017-06-07 10:44:50 197

原创 Spark-stream 主动poll数据

import java.net.InetSocketAddressimport org.apache.spark.SparkConfimport org.apache.spark.storage.StorageLevelimport org.apache.spark.streaming.flume.FlumeUtilsimport org.apache.spark.streaming.{

2017-06-06 22:12:16 366

原创 Spark-Streaming 使用flume的push方式进行流式处理

import org.apache.spark.SparkConfimport org.apache.spark.streaming.flume.FlumeUtilsimport org.apache.spark.streaming.{Seconds, StreamingContext}/** * Created by ZX on 2015/6/22. */object Flum

2017-06-06 22:03:27 485

转载 Spark-Streaming中累加

import org.apache.spark.streaming.{Seconds, StreamingContext}import org.apache.spark.{HashPartitioner, SparkConf, SparkContext}/** * Created by root on 2016/5/21. */object StateFulWordCount {

2017-06-06 21:12:08 2265

原创 Spark-Streaming的最简单使用

org.apache.spark spark-streaming_2.10 ${spark.version} org.apache.spark spark-streaming-kafka_2.10 1.6.1

2017-06-06 18:42:03 1111

原创 Linux中nc命令的安装使用

在Linux中有一个级强大的网络工具netcat，在默认情况下面都是没有安装的，现在介绍一下安装过程其实安装很简单切换到root用户：yum install -y nc测试使用在一个终端上输入 nc -lk 9999 输入数据。。。新开启一个终端输入 nc ip:9999 就可以看到上一个终端输入的数据

2017-06-06 18:27:49 26453 3

原创 Spark的Master,Worker调试

start-all.sh -> start-master.sh -> start-slaves.sh//Master启动的脚本start-master.sh -> spark-daemon.sh start org.apache.spark.deploy.master.Master//Worer的启动过程salves.sh -> 通过读取slaves 通过ssh的

2017-06-06 15:03:02 958

转载 Spark、hadoop源码编译

CentOS6.7-64bit编译hadoop2.6.41.下载maven（apache-maven-3.3.3-bin.tar.gz）http://archive.apache.org/dist/maven/maven-3/3.3.3/binaries/apache-maven-3.3.3-bin.tar.gz2.安装maventar -zxvf apache-maven-3

2017-06-06 12:31:24 601

原创 Linux下配置maven

1.下载maven（apache-maven-3.3.3-bin.tar.gz）http://archive.apache.org/dist/maven/maven-3/3.3.3/binaries/apache-maven-3.3.3-bin.tar.gz2.安装maventar -zxvf apache-maven-3.3.3-bin.tar.gz -C /usr/local3

2017-06-06 12:06:00 234

原创 Spark-sql与hive的结合环境配置

转：zx老师########################################alter database hive character set latin1;ALTER TABLE hive.* DEFAULT CHARACTER SET latin1;########################################1.安装hiveC

2017-06-06 10:59:55 1798

原创 Spark-sql结果保存指定位置

//1.读取数据，将每一行的数据使用列分隔符分割val lineRDD = sc.textFile("hdfs://node1.itcast.cn:9000/person.txt", 1).map(_.split(" "))//2.定义case class（相当于表的schema）case class Person(id:Int, name:String, age:Int)

2017-06-06 08:18:13 8060

原创 spark-通过StructType直接指定Schema

package cn.itcast.spark.sqlimport org.apache.spark.sql.{Row, SQLContext}import org.apache.spark.sql.types._import org.apache.spark.{SparkContext, SparkConf}/** * Created by ZX on 2015/12/11.

2017-06-05 21:27:39 29275 4

原创 Spark-编程执行Spark SQL查询

首先在maven项目的pom.xml中添加Spark SQL的依赖。dependency> groupId>org.apache.sparkgroupId> artifactId>spark-sql_2.10artifactId> version>1.5.2version>dependency>package cn.itcast.spark.sql

2017-06-05 21:25:28 1119

原创 Spark SQL入门

在Spark SQL中SQLContext是创建DataFrames和执行SQL的入口，在spark-1.5.2中已经内置了一个sqlContext1.在本地创建一个文件，有三列，分别是id、name、age，用空格分隔，然后上传到hdfs上hdfs dfs -put person.txt / 2.在spark shell执行下面命令，读取数据，将每一行的数据使用列分隔符分割

2017-06-05 21:12:46 440

原创 Spark中CheckPoint操作

参考：http://www.tuicool.com/articles/bQVRryr/** * Mark this RDD for checkpointing. It will be saved to a file inside the checkpoint * directory set with `SparkContext#setCheckpointDir` and all

2017-06-05 19:41:22 3685

转载 Spark中mapPartitions使用

转：http://blog.csdn.net/lsshlsw/article/details/48627737与map方法类似，map是对rdd中的每一个元素进行操作，而mapPartitions(foreachPartition)则是对rdd中的每个分区的迭代器进行操作。如果在map过程中需要频繁创建额外的对象(例如将rdd中的数据通过jdbc写入数据库,map需要为每个元素创建一个

2017-06-05 14:38:17 25539

原创 Spark的Debug调试

Spark调试：本地模式调试集群模式调试第一种：val conf = new SparkConf().setAppName("WC").setMaster("local[2]")第二种import org.apache.spark.{SparkConf, SparkContext}/** * Created by root on 2016/5/1

2017-06-05 13:53:31 3660

转载 Spark RDD概念学习系列之RDD的转换图解

转：http://www.cnblogs.com/zlslch/p/5723764.html 参考

2017-06-05 08:21:49 521

转载 Spark从数据库读数据操作

package cn.itcast.spark.day3import java.sql.DriverManagerimport org.apache.spark.rdd.JdbcRDDimport org.apache.spark.{SparkConf, SparkContext}/** * Created by ZX on 2016/4/12. */object Jdbc

2017-06-03 15:04:08 467

原创 Spark中广播的使用

import org.apache.spark.{SparkConf, SparkContext}/** * Created by root on 2016/5/18. */object IPLocation { def ip2Long(ip: String): Long = { val fragments = ip.split("[.]") var ipNum

2017-06-02 16:18:31 1992

转载 IP转为十进制

import java.io.{BufferedReader, FileInputStream, InputStreamReader}import scala.collection.mutable.ArrayBufferobject IPLocationDemo { def ip2Long(ip: String): Long = { val fragments = ip.sp

2017-06-02 15:34:29 1928

原创 Spark中自定义排序

import org.apache.spark.{SparkConf, SparkContext}object OrderContext { implicit val girlOrdering = new Ordering[Girl] { override def compare(x: Girl, y: Girl): Int = { if(x.faceValue >

2017-06-02 14:35:45 336

原创 Spark中分区使用

import java.net.URLimport org.apache.spark.{HashPartitioner, Partitioner, SparkConf, SparkContext}import scala.collection.mutable/** * Created by root on 2016/5/18. */object UrlCountPartiti

2017-06-02 12:00:50 421

转载根据指定的学科, 取出点击量前三的

import java.net.URLimport org.apache.spark.{SparkConf, SparkContext}/** * 根据指定的学科, 取出点击量前三的 * Created by root on 2016/5/16. */object AdvUrlCount { def main(args: Array[String]) { //

2017-06-01 21:25:42 264