长胖的wo一定特美-CSDN博客

原创菜鸟成长之Storm学习总结

有一个星期没有更新啦,说明是好事,至少开始做项目了,把所有的知识点放在项目上,果然会让人成长的更快;项目的隐私度比较高就不公开了~今天总结一下新的内容,学习都有一个过程:从菜鸟到鸟人到大神;所以fighting就对了!1.离线计算是什么? 离线计算:批量获取数据,批量传输数据,周期性批量计算数据,数据展示代表技术:sqoop批量导入数据,HDFS批量存储数据,MapRedu

2017-11-13 22:01:19 409

原创 Spark源码解读--任务生成和提交过程

Application 把APP打包上传到集群: $SPARK_HOME/spark-submit \ –class com.sparktest \ –master spark://minimaster:7077 \ /home/wc.jarDriver端: 1.调用SparkSubmit类,内部执行submit → doRunMain → 通过反射获取应用

2017-11-05 19:06:25 643

原创 Elasticsearch[es]的命令总结

http://www.elastic.co/guide/en/elasticsearch/reference/current/setup-configuration.html https://github.com/elastic/elasticsearch 什么是Elasticsearch?? Elasticsearch是一个实时的分布式搜索分析引擎,以一个之前从未有过的速度和规模,去探

2017-11-04 21:19:13 4463

原创 Logstash日志分析的配置和使用

https://www.elastic.co/guide/en/logstash/current/index.html 首先下载logstash，上传到服务器logstash 日志分析的配置和使用 logstash是一个数据分析软件,主要目的是分析log日志;整套软件可以当做一个mvc模型.logstash是controller层,Elasticsearch是一个model层,kabana

2017-11-04 12:05:50 872

原创 Redis主从与集群配置

Redis持久化 rdb方式: RDB方式的持久化是通过快照完成的,当符合一定条件时Redis会自动将内存中的数据进行快照并持久化到硬盘 RDB是Redis默认采用的持久化方式,在redis.conf配置文件中默认有此下配置: save 900 1 save 300 10 save 60 10000 save开头的一行就是持久化配

2017-11-03 21:01:31 656

原创 Redis个人总结及代码实现

了解: 什么是NoSQL?? 为了解决高并发,高可扩展,高可用,大数据存储问题而产生的数据库解决方案,就是NoSQL数据库 NoSQL,泛指非关系型的数据库,NoSQL即Not-Only SQL,它可以作为关系型数据库的良好补充;但是它不能替代关系型数据库,而且它是存储在内存中,所以它的访问速度很快NoSQL的数据库分类: 1.键值(key-value)存储

2017-11-02 22:49:21 6395

原创 Spark Streaming

什么是Spark Streaming?? 用于流式数据的处理,具有高吞吐量和容错能力强等的特点SparkStreaming: 是一个可扩展的,高吞吐量,实时的流式处理可以和多个数据源进行整合将数据流分批次的进行处理,每一个批次就是一个时间段 DStream是一个离散流,是SparkStreaming的基本数据抽象,它由连续的RDD构成 DStream之间是有依赖关系的什么是

2017-10-31 22:47:44 405

原创 Spark on Yarn及相关问题解决

官方文档: http://spark.apache.org/docs/latest/running-on-yarn.html配置安装 1.安装hadoop:需要安装HDFS模块和YARN模块,HDFS必须安装,spark运行时要把jar包存放到HDFS上2.安装Spark:解压Spark安装程序到一台服务器上,修改spark-env.sh配置文件,sparh程序将作为YARN的客户端用于提交任务

2017-10-31 15:48:09 1010

原创 Hive on Spark

一.Spark安装过程比较简单: 1.直接上传解压安装包 tar -zxvf spark-1.6.1-bin-hadoop2.6.tgz mv spark-1.6.1-bin-hadoop2.6.tgz spark-1.6.12.cd /usr/local/spark-1.6.1/conf/ mv spark-env.sh.template spark-env.sh vi

2017-10-29 20:04:17 544

原创 Linux上三种方式--ntp时间同步

Linux时间同步方式一: 设置时区 cp /usr/share/zoneinfo/Asia/Shanghai /etc/localtime 联网情况：ntpdate us.pool.ntp.org运行结果: 方式二: 查看NTP状态 service ntpd status yum install -y ntpd chkconfig ntpd on 查看时区: date

2017-10-29 16:50:43 937

原创 You get it --> Spark SQL 中的JDBC

Spark SQL 可以通过JDBC从关系型数据库中读取数据的方式创建DataFrame,通过对DataFrame一系列的计算后,还可以将数据再写回关系型数据库中从MySQL中加载数据(Spark Shell方式)1.启动Spark Shell,必须指定mysql连接驱动jar包 /usr/local/spark-1.6.1/bin/spark-shell \--master spark://mi

2017-10-28 17:16:26 403

原创 Kafka常用操作命令及生产者与消费者的代码实现

查看当前服务器中的所有topic cd /usr/local/kafka/bin ./kafka-topics.sh –list –zookeeper minimaster:2181创建topic ./kafka-topics.sh –create –zookeeper minimaster:2181 –replication-factor 1 –partitions 1 –topic tes

2017-10-28 14:37:55 7286

原创弹性分布式数据集RDD(代码实现)

统计用户对每个学科的各个模块访问的次数,取top3 RDD(textFile) -> RDD(map) -> RDD(reduceByKey) -> RDD(groupBy) -> RDD(sortBy).reverse.taskimport java.net.URLimport org.apache.spark.rdd.RDDimport org.apache.spark.{SparkConf

2017-10-28 12:15:47 504

原创弹性分布式数据集RDD(概念)

RDD概述: RDD(Resilient DistributedDataset)叫做分布式数据集是Spark中最基本的数据抽象,它代表一个不可变,可分区,里面的元素可并行计算的集合 RDD具有数据流模型的特点:自动容错;位置感知性调度和可伸缩性. RDD允许用户在执行多个查询时显式地将工作集缓存在内存中,后续的查询能够重用工作集,这极大地提升了查询速度RDD的属性: 1.一组分片(Par

2017-10-28 10:35:28 706

原创 kafka集群部署

kafka集群部署的基本流程: 下载安装包,解压安装包,修改配置文件,分发安装包,启动集群1.下载安装包 http://kafka.apache.org/downloads.html2.解压安装包 tar -zxvf /usr/local/kafka_2.11-0.9.0.1.tgz //对包名进行修改 mv ./kafka_2

2017-10-27 21:11:19 343

原创你所不知道的那些知识点--kafka

你所不知道的消息(Message): StreamMessage: java数据流信息,用标准流操作来顺序的填充和读取 MapMessage:一个Map类型的消息,名称为string类型,而值为java的基本类型 TextMessage:普通字符串消息,包含一个String ObjectMessage:对象消息,包含一个可序列化的java对象 Byt

2017-10-27 21:01:22 349

原创我只是小小知识点--JMS

JMS是什么??JMS是java提供的一套技术规范 JMS用来异构系统,集成通信,缓解系统瓶颈,提高系统的伸缩性增强系统用户体验,使得系统模块化和组件化变得可行并更加灵活通过生产消费者模式(生产者,服务器,消费者)的方式JMS消息传输模型: 点对点模式: 一对一,消费者主动拉取数据,消费收到后消息清除特点:发送到队列的消息被一个且只有一个接收者接收处理发布/订阅模式:

2017-10-27 20:04:35 888

原创你所熟悉的Kafka

Kafka是什么?? 在流式计算中,Kafka一般用来缓存数据,Storm通过消费Kafka的数据进行计算Kafka是一个分布式消息队列:生产者,消费者的功能;它提供了类似于JMS的特性,但是在设计实现上完全不同我只是小小的知识点–JMSKafka对消息保存时根据Topic进行归类,发送消息者称为Producer,消息接受者称为Consumer; kafka集群有多个ka

2017-10-27 19:52:22 949

原创 Spark SQL 个人总结

Spark SQL 是Spark用来处理结构化数据的一个模块,它提供了一个编程抽象叫做DataFrame,并且作为分布式SQL查询引擎的作用什么是DataFrames?? 与RDD类似,DataFrames也是一个分布式数据容器;然而DataFrame更像传统数据库的二维表格,除了数据以外,还记录数据的结构信息,即schema; 同时与Hive类似,DataFr

2017-10-26 20:58:57 3684 1