- 博客(19)
- 收藏
- 关注
原创 菜鸟成长之Storm学习总结
有一个星期没有更新啦,说明是好事,至少开始做项目了,把所有的知识点放在项目上,果然会让人成长的更快;项目的隐私度比较高就不公开了~今天总结一下新的内容,学习都有一个过程:从菜鸟到鸟人到大神;所以fighting就对了!1.离线计算是什么? 离线计算:批量获取数据,批量传输数据,周期性批量计算数据,数据展示 代表技术:sqoop批量导入数据,HDFS批量存储数据,MapRedu
2017-11-13 22:01:19 383
原创 Spark源码解读--任务生成和提交过程
Application 把APP打包上传到集群: $SPARK_HOME/spark-submit \ –class com.sparktest \ –master spark://minimaster:7077 \ /home/wc.jarDriver端: 1.调用SparkSubmit类,内部执行submit → doRunMain → 通过反射获取应用
2017-11-05 19:06:25 621
原创 Elasticsearch[es]的命令总结
http://www.elastic.co/guide/en/elasticsearch/reference/current/setup-configuration.html https://github.com/elastic/elasticsearch 什么是Elasticsearch?? Elasticsearch是一个实时的分布式搜索分析引擎,以一个之前从未有过的速度和规模,去探
2017-11-04 21:19:13 4430
原创 Logstash日志分析的配置和使用
https://www.elastic.co/guide/en/logstash/current/index.html 首先下载logstash,上传到服务器logstash 日志分析的配置和使用 logstash是一个数据分析软件,主要目的是分析log日志;整套软件可以当做一个mvc模型.logstash是controller层,Elasticsearch是一个model层,kabana
2017-11-04 12:05:50 840
原创 Redis主从与集群配置
Redis持久化 rdb方式: RDB方式的持久化是通过快照完成的,当符合一定条件时Redis会自动将内存中的数据进行快照并持久化到硬盘 RDB是Redis默认采用的持久化方式,在redis.conf配置文件中默认有此下配置: save 900 1 save 300 10 save 60 10000 save开头的一行就是持久化配
2017-11-03 21:01:31 629
原创 Redis个人总结及代码实现
了解: 什么是NoSQL?? 为了解决高并发,高可扩展,高可用,大数据存储问题而产生的数据库解决方案,就是NoSQL数据库 NoSQL,泛指非关系型的数据库,NoSQL即Not-Only SQL,它可以作为关系型数据库的良好补充;但是它不能替代关系型数据库,而且它是存储在内存中,所以它的访问速度很快NoSQL的数据库分类: 1.键值(key-value)存储
2017-11-02 22:49:21 6356
原创 Spark Streaming
什么是Spark Streaming?? 用于流式数据的处理,具有高吞吐量和容错能力强等的特点SparkStreaming: 是一个可扩展的,高吞吐量,实时的流式处理 可以和多个数据源进行整合 将数据流分批次的进行处理,每一个批次就是一个时间段 DStream是一个离散流,是SparkStreaming的基本数据抽象,它由连续的RDD构成 DStream之间是有依赖关系的什么是
2017-10-31 22:47:44 373
原创 Spark on Yarn及相关问题解决
官方文档: http://spark.apache.org/docs/latest/running-on-yarn.html配置安装 1.安装hadoop:需要安装HDFS模块和YARN模块,HDFS必须安装,spark运行时要把jar包存放到HDFS上2.安装Spark:解压Spark安装程序到一台服务器上,修改spark-env.sh配置文件,sparh程序将作为YARN的客户端用于提交任务
2017-10-31 15:48:09 987
原创 Hive on Spark
一.Spark安装过程比较简单: 1.直接上传解压安装包 tar -zxvf spark-1.6.1-bin-hadoop2.6.tgz mv spark-1.6.1-bin-hadoop2.6.tgz spark-1.6.12.cd /usr/local/spark-1.6.1/conf/ mv spark-env.sh.template spark-env.sh vi
2017-10-29 20:04:17 528
原创 Linux上三种方式--ntp时间同步
Linux时间同步 方式一: 设置时区 cp /usr/share/zoneinfo/Asia/Shanghai /etc/localtime 联网情况:ntpdate us.pool.ntp.org运行结果: 方式二: 查看NTP状态 service ntpd status yum install -y ntpd chkconfig ntpd on 查看时区: date
2017-10-29 16:50:43 893
原创 You get it --> Spark SQL 中的JDBC
Spark SQL 可以通过JDBC从关系型数据库中读取数据的方式创建DataFrame,通过对DataFrame一系列的计算后,还可以将数据再写回关系型数据库中从MySQL中加载数据(Spark Shell方式)1.启动Spark Shell,必须指定mysql连接驱动jar包 /usr/local/spark-1.6.1/bin/spark-shell \--master spark://mi
2017-10-28 17:16:26 386
原创 Kafka常用操作命令及生产者与消费者的代码实现
查看当前服务器中的所有topic cd /usr/local/kafka/bin ./kafka-topics.sh –list –zookeeper minimaster:2181创建topic ./kafka-topics.sh –create –zookeeper minimaster:2181 –replication-factor 1 –partitions 1 –topic tes
2017-10-28 14:37:55 7225 3
原创 弹性分布式数据集RDD(代码实现)
统计用户对每个学科的各个模块访问的次数,取top3 RDD(textFile) -> RDD(map) -> RDD(reduceByKey) -> RDD(groupBy) -> RDD(sortBy).reverse.taskimport java.net.URLimport org.apache.spark.rdd.RDDimport org.apache.spark.{SparkConf
2017-10-28 12:15:47 480
原创 弹性分布式数据集RDD(概念)
RDD概述: RDD(Resilient DistributedDataset)叫做分布式数据集 是Spark中最基本的数据抽象,它代表一个不可变,可分区,里面的元素可并行计算的集合 RDD具有数据流模型的特点:自动容错;位置感知性调度和可伸缩性. RDD允许用户在执行多个查询时显式地将工作集缓存在内存中,后续的查询能够重用工作集,这极大地提升了查询速度RDD的属性: 1.一组分片(Par
2017-10-28 10:35:28 665
原创 kafka集群部署
kafka集群部署的基本流程: 下载安装包,解压安装包,修改配置文件,分发安装包,启动集群1.下载安装包 http://kafka.apache.org/downloads.html2.解压安装包 tar -zxvf /usr/local/kafka_2.11-0.9.0.1.tgz //对包名进行修改 mv ./kafka_2
2017-10-27 21:11:19 321
原创 你所不知道的那些知识点--kafka
你所不知道的消息(Message): StreamMessage: java数据流信息,用标准流操作来顺序的填充和读取 MapMessage:一个Map类型的消息,名称为string类型,而值为java的基本类型 TextMessage:普通字符串消息,包含一个String ObjectMessage:对象消息,包含一个可序列化的java对象 Byt
2017-10-27 21:01:22 329
原创 我只是小小知识点--JMS
JMS是什么??JMS是java提供的一套技术规范 JMS用来异构系统,集成通信,缓解系统瓶颈,提高系统的伸缩性增强系统用户体验,使得系统模块化和组件化变得可行并更加灵活 通过 生产消费者模式(生产者,服务器,消费者)的方式JMS消息传输模型: 点对点模式: 一对一,消费者主动拉取数据,消费收到后消息清除 特点:发送到队列的消息被一个且只有一个接收者接收处理发布/订阅模式:
2017-10-27 20:04:35 715
原创 你所熟悉的Kafka
Kafka是什么?? 在流式计算中,Kafka一般用来缓存数据,Storm通过消费Kafka的数据进行计算Kafka是一个分布式消息队列:生产者,消费者的功能;它提供了类似于JMS的特性,但是在设计实现上完全不同 我只是小小的知识点–JMSKafka对消息保存时根据Topic进行归类,发送消息者称为Producer,消息接受者称为Consumer; kafka集群有多个ka
2017-10-27 19:52:22 915
原创 Spark SQL 个人总结
Spark SQL 是Spark用来处理结构化数据的一个模块,它提供了一个编程抽象叫做DataFrame,并且作为分布式SQL查询引擎的作用什么是DataFrames?? 与RDD类似,DataFrames也是一个分布式数据容器;然而DataFrame更像传统数据库的二维表格,除了数据以外,还记录数据的结构信息,即schema; 同时与Hive类似,DataFr
2017-10-26 20:58:57 3651 1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人