- 博客(45)
- 资源 (13)
- 收藏
- 关注
原创 VM中安装centos6.7过程
参考:http://www.linuxidc.com/Linux/2016-05/131701.htm 镜像百度网盘
2017-06-30 22:32:30 276
原创 MAPREDUCE使用(整理)
copy by: czbk papermapreduce是hadoop中的分布式运算编程框架,只要按照其编程规范,只需要编写少量的业务逻辑代码即可实现一个强大的海量数据并发处理程序。import java.io.IOException;import java.util.HashMap;import org.apache.hadoop.io.IntWritable;import or
2017-06-29 17:37:37 269
原创 关于地理数据坐标转换
数据首先需要确定有没有坐标系,没有坐标系需要先定义坐标系, define projection, 如果坐标为7,8 位, 需要定义到 投影。 确定到多少度带,那个投影坐标系, 地理坐标系为什么。 ArcGIS中定义坐标系 ArcGIS中所有地理数据集均需要用于显示、测量和转换地理数据的坐标系,该坐标系在 ArcGIS 中使用。如果某一数据集的坐标系未知或不正确,可以使用定
2017-06-19 15:44:20 3151
转载 logstash的配置
flow-es:input { file { type => "flow" path => "/var/nginx_logs/*.log" discover_interval => 5 start_position => "beginning" }}output { if [type] == "flow" { elasticsearc
2017-06-17 19:46:03 1310
转载 logstash中的坑
kafka server.properties hostname问题https://discuss.elastic.co/t/logstash-kafka-output-plugins-not-working-on-windows/25253"\t"问题https://github.com/elastic/logstash/issues/1645grok/big
2017-06-17 19:14:59 992
转载 es与kibana插件安装
#es离线安装head插件,进入es安装目录bin/plugin install file:///home/bigdata/elasticsearch-head-master.zip#kibana离线安装插件bin/kibana plugin --install marvel --url file:///path/to/file/marvel-2.3.1.tar.gz
2017-06-17 18:33:19 1017
转载 ElasticSearch安装配置
http://www.elastic.co/guide/en/elasticsearch/reference/current/setup-configuration.htmlhttps://github.com/elastic/elasticsearch###【在多台机器上执行下面的命令】####es启动时需要使用非root用户,所有创建一个bigdata用户:useradd bigdat
2017-06-17 18:03:19 316
转载 Linux关于时间同步命令
Linux时间同步设置时区cp /usr/share/zoneinfo/Asia/Shanghai /etc/localtime联网情况:ntpdate us.pool.ntp.org修改时间date -s 11:21:00查看NTP状态service ntpd statusyum install -y ntpdchkconfig ntpd on#查看时区date -R
2017-06-17 17:54:47 1837
转载 logstash安装
https://www.elastic.co/guide/en/logstash/current/index.html首先现在logstash,上传到服务器logstash是用JRuby语言开发的,所以要安装JDKtar -zxvf logstash-2.3.1.tar.gz -C /bigdata/bin/logstash -e 'input {
2017-06-17 17:41:21 341
转载 swing中对panel的切换
import java.awt.BorderLayout;import java.awt.CardLayout;import java.awt.Color;import java.awt.Insets;import java.awt.event.ActionEvent;import java.awt.event.ActionListener;import javax.swing.JBu
2017-06-11 00:02:42 4789 1
转载 kafka中server.properties说明
#broker的全局唯一编号,不能重复broker.id=0#用来监听链接的端口,producer或consumer将在此端口建立连接port=9092#处理网络请求的线程数量num.network.threads=3#用来处理磁盘IO的线程数量num.io.threads=8#发送套接字的缓冲区大小socket.send.buffer.bytes=102400#接受
2017-06-08 23:41:52 845
转载 Spark-窗口函数
package cn.itcast.spark.day5import org.apache.spark.SparkConfimport org.apache.spark.streaming.{Milliseconds, Seconds, StreamingContext}/** * Created by ZX on 2016/4/19. */object WindowOpts
2017-06-08 00:27:23 664
转载 Zookeeper昨天还可以启动今天提示: Cannot open channel to 1 at election address /192.168.253.130:3888 java.net.Co
转: http://blog.csdn.net/qq_26840065/article/details/51002992?locationNum=3&fps=1
2017-06-07 14:52:59 10069
转载 Spark-Streaming与Kafka整合
package cn.itcast.spark.day5import org.apache.spark.storage.StorageLevelimport org.apache.spark.{HashPartitioner, SparkConf}import org.apache.spark.streaming.kafka.KafkaUtilsimport org.apache.spa
2017-06-07 11:26:29 505
原创 Zookeeper安装
Zookeeper安装解压:tar -zxvf zookeeper-3.4.5.tar.gz -C /home/hadoop/zookeeper切换到cd zookeeper/conf复制:cp zoo_sample.cfg zoo.cfg编辑:vi zoo.cfg存放数据放的位置: dataDir=/home/hadoop/zkdata当前机器产生数据存放的目录
2017-06-07 10:46:05 205
原创 kafka集群搭建
参考: http://blog.csdn.net/lovehuangjiaju/article/details/50143325
2017-06-07 10:44:50 197
原创 Spark-stream 主动poll数据
import java.net.InetSocketAddressimport org.apache.spark.SparkConfimport org.apache.spark.storage.StorageLevelimport org.apache.spark.streaming.flume.FlumeUtilsimport org.apache.spark.streaming.{
2017-06-06 22:12:16 366
原创 Spark-Streaming 使用flume的push方式进行流式处理
import org.apache.spark.SparkConfimport org.apache.spark.streaming.flume.FlumeUtilsimport org.apache.spark.streaming.{Seconds, StreamingContext}/** * Created by ZX on 2015/6/22. */object Flum
2017-06-06 22:03:27 485
转载 Spark-Streaming中累加
import org.apache.spark.streaming.{Seconds, StreamingContext}import org.apache.spark.{HashPartitioner, SparkConf, SparkContext}/** * Created by root on 2016/5/21. */object StateFulWordCount {
2017-06-06 21:12:08 2265
原创 Spark-Streaming的最简单使用
org.apache.spark spark-streaming_2.10 ${spark.version} org.apache.spark spark-streaming-kafka_2.10 1.6.1
2017-06-06 18:42:03 1111
原创 Linux中nc命令的安装使用
在Linux中有一个级强大的网络工具netcat,在默认情况下面都是没有安装的,现在介绍一下安装过程 其实安装很简单切换到root用户:yum install -y nc测试使用 在一个终端上 输入 nc -lk 9999 输入数据。。。新开启一个终端 输入 nc ip:9999 就可以看到上一个终端输入的数据
2017-06-06 18:27:49 26453 3
原创 Spark的Master,Worker调试
start-all.sh -> start-master.sh -> start-slaves.sh//Master启动的脚本start-master.sh -> spark-daemon.sh start org.apache.spark.deploy.master.Master//Worer的启动过程salves.sh -> 通过读取slaves 通过ssh的
2017-06-06 15:03:02 958
转载 Spark、hadoop源码编译
CentOS6.7-64bit编译hadoop2.6.41.下载maven(apache-maven-3.3.3-bin.tar.gz)http://archive.apache.org/dist/maven/maven-3/3.3.3/binaries/apache-maven-3.3.3-bin.tar.gz2.安装maventar -zxvf apache-maven-3
2017-06-06 12:31:24 601
原创 Linux下配置maven
1.下载maven(apache-maven-3.3.3-bin.tar.gz)http://archive.apache.org/dist/maven/maven-3/3.3.3/binaries/apache-maven-3.3.3-bin.tar.gz2.安装maventar -zxvf apache-maven-3.3.3-bin.tar.gz -C /usr/local3
2017-06-06 12:06:00 234
原创 Spark-sql与hive的结合环境配置
转:zx老师########################################alter database hive character set latin1;ALTER TABLE hive.* DEFAULT CHARACTER SET latin1;########################################1.安装hiveC
2017-06-06 10:59:55 1798
原创 Spark-sql结果保存指定位置
//1.读取数据,将每一行的数据使用列分隔符分割val lineRDD = sc.textFile("hdfs://node1.itcast.cn:9000/person.txt", 1).map(_.split(" "))//2.定义case class(相当于表的schema)case class Person(id:Int, name:String, age:Int)
2017-06-06 08:18:13 8060
原创 spark-通过StructType直接指定Schema
package cn.itcast.spark.sqlimport org.apache.spark.sql.{Row, SQLContext}import org.apache.spark.sql.types._import org.apache.spark.{SparkContext, SparkConf}/** * Created by ZX on 2015/12/11.
2017-06-05 21:27:39 29275 4
原创 Spark-编程执行Spark SQL查询
首先在maven项目的pom.xml中添加Spark SQL的依赖。dependency> groupId>org.apache.sparkgroupId> artifactId>spark-sql_2.10artifactId> version>1.5.2version>dependency>package cn.itcast.spark.sql
2017-06-05 21:25:28 1119
原创 Spark SQL入门
在Spark SQL中SQLContext是创建DataFrames和执行SQL的入口,在spark-1.5.2中已经内置了一个sqlContext1.在本地创建一个文件,有三列,分别是id、name、age,用空格分隔,然后上传到hdfs上hdfs dfs -put person.txt / 2.在spark shell执行下面命令,读取数据,将每一行的数据使用列分隔符分割
2017-06-05 21:12:46 440
原创 Spark中CheckPoint操作
参考:http://www.tuicool.com/articles/bQVRryr/** * Mark this RDD for checkpointing. It will be saved to a file inside the checkpoint * directory set with `SparkContext#setCheckpointDir` and all
2017-06-05 19:41:22 3685
转载 Spark中mapPartitions使用
转:http://blog.csdn.net/lsshlsw/article/details/48627737与map方法类似,map是对rdd中的每一个元素进行操作,而mapPartitions(foreachPartition)则是对rdd中的每个分区的迭代器进行操作。如果在map过程中需要频繁创建额外的对象(例如将rdd中的数据通过jdbc写入数据库,map需要为每个元素创建一个
2017-06-05 14:38:17 25539
原创 Spark的Debug调试
Spark调试:本地模式调试集群模式调试第一种:val conf = new SparkConf().setAppName("WC").setMaster("local[2]")第二种import org.apache.spark.{SparkConf, SparkContext}/** * Created by root on 2016/5/1
2017-06-05 13:53:31 3660
转载 Spark RDD概念学习系列之RDD的转换图解
转:http://www.cnblogs.com/zlslch/p/5723764.html 参考
2017-06-05 08:21:49 521
转载 Spark从数据库读数据操作
package cn.itcast.spark.day3import java.sql.DriverManagerimport org.apache.spark.rdd.JdbcRDDimport org.apache.spark.{SparkConf, SparkContext}/** * Created by ZX on 2016/4/12. */object Jdbc
2017-06-03 15:04:08 467
原创 Spark中广播的使用
import org.apache.spark.{SparkConf, SparkContext}/** * Created by root on 2016/5/18. */object IPLocation { def ip2Long(ip: String): Long = { val fragments = ip.split("[.]") var ipNum
2017-06-02 16:18:31 1992
转载 IP转为十进制
import java.io.{BufferedReader, FileInputStream, InputStreamReader}import scala.collection.mutable.ArrayBufferobject IPLocationDemo { def ip2Long(ip: String): Long = { val fragments = ip.sp
2017-06-02 15:34:29 1928
原创 Spark中自定义排序
import org.apache.spark.{SparkConf, SparkContext}object OrderContext { implicit val girlOrdering = new Ordering[Girl] { override def compare(x: Girl, y: Girl): Int = { if(x.faceValue >
2017-06-02 14:35:45 336
原创 Spark中分区使用
import java.net.URLimport org.apache.spark.{HashPartitioner, Partitioner, SparkConf, SparkContext}import scala.collection.mutable/** * Created by root on 2016/5/18. */object UrlCountPartiti
2017-06-02 12:00:50 421
转载 根据指定的学科, 取出点击量前三的
import java.net.URLimport org.apache.spark.{SparkConf, SparkContext}/** * 根据指定的学科, 取出点击量前三的 * Created by root on 2016/5/16. */object AdvUrlCount { def main(args: Array[String]) { //
2017-06-01 21:25:42 264
skyline球初始化
2016-09-23
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人