2018年12月_-无妄-

原创 Storm学习笔记（5）- 并行度 **

文章目录并行度概念详解Storm作业运行UI页面上的参数详解并行度设置worker数量的设置executor数量的设置task数量的设置acker的设置并行度案例讲解及并行度动态调整官方链接http://storm.apache.org/releases/1.2.2/Understanding-the-parallelism-of-a-Storm-topology.html并行度概念详解...

2018-12-29 10:24:35 454

原创 Storm学习笔记（4）- Storm架构及部署 **

文章目录Storm架构详解Storm单机部署改写Storm作业并提交到Storm单节点集群运行Storm架构详解Storm架构　　类似于Hadoop的架构，主从(Master/Slave)　　Nimbus: 主　　　　集群的主节点，负责任务(task)的指派和分发、资源的分配　　Supervisor: 从　　　　可以启动多个Worker，具体几个呢？可以通过配置来指定(后面笔记整理...

2018-12-27 09:34:14 564

原创 Storm学习笔记（3）- Storm编程 **

文章目录Storm开发环境搭建Storm核心接口ISpout详解IComponent详解IBolt详解Storm求和案例编程Storm词频案例编程Storm开发环境搭建本地环境配置： jdk: 1.8 windows: exe linux/mac(dmg): tar ..... 把jdk指定到系统环境变量(~/.bash_profile) export JAVA_HOM...

2018-12-26 16:28:19 309 1

原创 Storm学习笔记（2）- Storm核心概念 **

文章目录Storm核心概念理解记忆之地铁运行模型Storm核心概念理解记忆之StormStorm核心概念总结官方链接：http://storm.apache.org/releases/1.2.2/Concepts.html核心概念Topologies拓扑，将整个流程串起来Streams流，数据流，水流Spouts产生数据/水的东西Bolts处理数据/水的东西水壶/水...

2018-12-26 14:51:45 222 1

原创 Storm学习笔记（1） - 初识实时流处理Storm **

Strom是什么为什么使用stormApache Storm是一个免费的开源分布式实时计算系统。Storm使得可靠地处理无边界的数据流变得非常容易，就像Hadoop处理批处理一样，能够实时处理数据流。Storm很简单，可以和任何编程语言一起使用，使用起来很有趣!Storm有很多用例:实时分析、在线机器学习、连续计算、分布式RPC、ETL等等。Storm非常快**:一个基准测试记录了它在每个节...

2018-12-26 11:28:25 1182

转载 HBase Rowkey 设计指南

为什么Rowkey这么重要我们常说看一张 HBase 表设计的好不好，就看它的 RowKey 设计的好不好。可见 RowKey 在 HBase 中的地位。那么 RowKey 到底是什么？RowKey 的特点如下：类似于 MySQL、Oracle中的主键，用于标示唯一的行；完全是由用户指定的一串不重复的字符串；HBase 中的数据永远是根据 Rowkey 的字典排序来排序的。...

2018-12-26 09:21:06 281

转载 Apache Kafka：优化部署的 10 种最佳实践

本文要点Kafka 低开销和友好水平扩展的设计使它可以使用廉价的日用硬件仍能保持成功运行。使用最好的磁盘、分别存储日志、隔离 ZooKeeper 进程，以及禁用交换以减少延迟，从而为 ZooKeeper 提供强大的网络带宽。将 Kafka 的默认复制因子从两个增加到三个，这适用于大多数生产环境。更多的分区意味着更好的并行化和吞吐量，但分区也意味着更多的复制延迟、平衡，以及打...

2018-12-24 10:52:48 182

原创 SparkStreaming实战-用户行为日志

需求说明今天到现在为止实战课程的访问量今天到现在为止从搜索引擎引流过来的实战课程访问量用户行为日志介绍用户行为日志：用户每次访问网站时所有的行为数据（访问、浏览、搜索、点击…）用户行为轨迹、流量日志典型的日志来源于Nginx和Ajax日志数据内容：1）访问的系统属性：操作系统、浏览器等等2）访问特征：点击的url、从哪个url跳转过来的(referer)、页面上的停留时间等...

2018-12-19 17:02:06 2581 2

原创 linux中各种软件环境问题

网络配置cd /etc/sysconfig/network-scripts/TYPE=&amp;quot;Ethernet&amp;quot;PROXY_METHOD=&amp;quot;none&amp;quot;BROWSER_ONLY=&amp;quot;no&amp;quot;BOOTPROTO=&amp;quot;dhcp&amp;quot;DEFROUTE

2018-12-18 17:18:17 498

原创 Sparksql实战 - 用户行为日志

用户行为日志概述用户行为日志：用户每次访问网站时所有的行为数据（访问、浏览、搜索、点击…）用户行为轨迹、流量日志典型的日志来源于Nginx和Ajax日志数据内容：1）访问的系统属性：操作系统、浏览器等等2）访问特征：点击的url、从哪个url跳转过来的(referer)、页面上的停留时间等3）访问信息：session_id、访问ip(访问城市)等比如2013-05-19 13:...

2018-12-15 15:56:40 6998 1

原创 --- HBase学习笔记（伍）- Phoenix & Sqoop **

Phoenix简介构建在Apache HBase之上的一个SQL中间层可以在Apache HBase上执行SQL查询,性能强劲较完善的查询支持,支持二级索引,查询效率较高Phoenix优势Put the SQL back in NoSQL, 程序员熟知SQL语句具有完整ACID事务功能的标准SQL和JDBC API的强大功能完全可以和其他Hadoop产品例如Spark, Hiv...

2018-12-14 15:56:19 963

转载 Redis面试题

什么是应用服务雪崩雪崩问题分布式系统都存在这样一个问题，由于网络的不稳定性，决定了任何一个服务的可用性都不是 100% 的。当网络不稳定的时候，作为服务的提供者，自身可能会被拖死，导致服务调用者阻塞，最终可能引发雪崩连锁效应。缓存雪崩当缓存服务器重启或者大量缓存集中在某一个时间段失效，这样在失效的时候，也会给后端系统(比如DB)带来很大压力，造成数据库后端故障，从而引起应用服务器雪崩。雪...

2018-12-13 19:21:30 748

原创 ---HBase学习笔记（肆）- 容灾与监控 **

Hbase备份与恢复◆Export / Import ◆CopyTable ●Replication ●SnapshotCopyTable支持时间区间、row区间,改变表名称, 改变列族名称,指定是否 Copy已经被删除的数据等功能,CopyTable工具采用scan查询, 写入新表时采用put和delete API, 全是基于hbase的client Api进行读写...

2018-12-13 16:42:43 484

转载 Elasticsearch:跨集群数据迁移之离线迁移

文章目录跨集群数据迁移离线迁移elasticsearch-dumpsnapshotreindexlogstash总结跨集群数据迁移用户在腾讯云上自建的ES集群或者在其它云厂商购买的ES集群，如果要迁移至腾讯云ES，用户可以根据自己的业务需要选择适合自己的迁移方案。如果业务可以停服或者可以暂停写操作，可以参考离线迁移的四种方案。离线迁移离线迁移需要先停止老集群的写操作，将数据迁移完毕后在新集...

2018-12-13 10:50:08 3296

原创 Python学习笔记（贰） - Python开发环境配置

安装AnacondaAnaconda是Python的一个科学计算发行版,内置了数百个Python经常会使用的库,也包括做机器学习或数据挖掘的库,如scikit-learn、NumPy、sciPy和Pandas等,其中可能有一些是TensorFlow的依赖库Anaconda提供了一个编译好的环境可以直接安装Anaconda自动集成了最新版的MKL ( Math Kernel Library ...

2018-12-12 14:05:57 164

转载 Apache Spark 2.4 内置的 Avro 数据源实战

文章目录加载和保存函数from_avro() 和 to_avro() 的使用在代码里面指定 Avro 模式通过 Schema Registry 服务提供 Avro 模式通过文件设置 Avro 模式与 Databricks spark-avro的兼容性性能测试结论Apache Avro 是一种流行的数据序列化格式。它广泛用于 Apache Spark 和 Apache Hadoop 生态系统，尤其...

2018-12-12 10:19:03 604

转载 Spark Join处理流程分析

为了更好的分析Spark Join处理流程，我们选择具有Shuffle操作的示例来进行说明，这比没有Shuffle操作的处理流程要复杂一些。本文主要通过实现一个Join操作的Spark程序，提交运行该程序，并通过Spark UI上的各种运行信息来讨论Spark Join处理流程。Spark Join示例程序我们先给出一个简单的Spark Application程序代码，这里处理的数据使用了Mo...

2018-12-12 10:10:27 1014

转载面试经常会问的一个点：mysql与Oracle的区别

文章目录一、并发性二、一致性三、事务四、数据持久性五、提交方式六、逻辑备份七、热备份八、sql语句的扩展和灵活性九、复制十、性能诊断十一、权限与安全十二、分区表和分区索引十三、管理工具其他：一、并发性并发性是oltp数据库最重要的特性，但并发涉及到资源的获取、共享与锁定。mysql:mysql以表级锁为主，对资源锁定的粒度很大，如果一个session对一个表加锁时间过长，会让其他sessi...

2018-12-12 10:00:19 1309

原创 Python学习笔记（壹） - Python语言概述

python语言诞生于1990年,由Guido van Rossum设计并领导开发2000年10月 Python2.0正式发布2010年, Python 2.x发布了最后一版,为2.72008年12月, Python3.0正式发布"Python2.x已经是遗产, python3.x是现在和未来的语言Python语言特点语法简洁,实现相同功能,代码量仅相当于其他语言的1/10~1...

2018-12-11 17:16:37 262

原创 --- Spark学习（拾叁）- Spark Streaming整合Flume&Kafka

文章目录处理流程画图剖析日志产生器开发并结合log4j完成日志的输出使用Flume采集Log4j产生的日志使用KafkaSInk将Flume收集到的数据输出到KafkaSpark Streaming消费Kafka的数据进行统计本地测试和生产环境使用的拓展处理流程画图剖析日志产生器开发并结合log4j完成日志的输出import org.apache.log4j.Logger;/** *...

2018-12-08 15:59:48 219

原创 --- Spark学习（拾贰）- Spark Streaming整合Kafka

文章目录Spark Streaming整合Kafka的版本选择详解以下是基于spark2.2的测试：Receiver方式整合之概述Receiver方式整合之Kafka测试Receiver方式整合之Spark Streaming应用开发Receiver方式整合之本地环境联调Receiver方式整合之服务器环境联调及Streaming UI讲解Direct方式整合之概述（推荐）Direct方式整合之S...

2018-12-07 17:17:37 372

原创 --- Spark学习（拾壹）- Spark Streaming整合Flume

文章目录Push方式整合之概述Push方式整合之Flume Agent配置开发Push方式整合之Spark Streaming应用开发Push方式整合之本地环境联调Push方式整合之服务器环境联调Pull方式整合之概述（推荐）Pull方式整合之Spark Streaming应用开发Pull方式整合之本地环境联调Pull方式整合之服务器环境联调官方文档http://spark.apache.or...

2018-12-07 16:04:56 314

原创分布式发布订阅消息系统Kafka--

文章目录Kafka概述Kafka架构及核心概念Kafka单节点单Broker部署之Zookeeper安装单节点单Broker部署单节点多Broker部署及使用Kafka概述卡夫卡是用于构建实时数据管道和流媒体应用。它是水平可伸缩的，容错的，快速的，并运行在数千家公司的生产。PUBLISH &amp;amp;amp;amp;amp; SUBSCRIBE像消息传递系统一样读写数据流。PROCESS编写可伸缩的流式处理应...

2018-12-07 11:21:59 665

原创分布式日志收集框架Flume--

文章目录Flume概述Flume架构及核心组件Flume&amp;amp;amp;JDK环境部署Flume实战案例一Flume实战案例二Flume实战案例三(重点掌握)业务现状：公司有Hadoop集群；同时拥有大量日志数据；你想要把大量日志数据放入Hadoop中进行分析。WebServer/ApplicationServer分散在各个机器上想大数据平台Hadoop进行统计分析日志如何收集到Hadoop平...

2018-12-06 20:37:33 1623

转载 HBase MOB（Medium Object）使用入门指南

本文将详细地介绍 HBase MOB 的使用，本指南适合入门的开发者。将不同大小的文件（比如图片、文档等）存储到 HBase 非常的简单方便。从技术上来说，HBase 可以直接在一个单元格（Cell）存储大小到10MB的二进制对象。然而，HBase 正常的读写路径仅仅对小于 100KB 的值进行了优化；当 HBase 处理大量大小到 10MB 的二进制对象时，由于分割（splits）和压缩（co...

2018-12-06 18:58:58 710

原创 --- Spark学习（拾）- Spark Streaming进阶与案例实战

实战之updateStateByKey算子的使用updateStateByKey操作允许您在使用新信息不断更新状态的同时维护任意状态。要使用它，您需要执行两个步骤。1、定义状态——状态可以是任意数据类型。2、定义状态更新函数——用函数指定如何使用以前的状态和输入流中的新值更新状态。在每个批处理中，Spark将为所有现有键应用状态更新功能，而不管它们是否在批处理中有新数据。如果update函...

2018-12-06 17:28:38 572 1

原创 --- Spark学习（玖）- Spark Streaming核心概念与编程

文章目录核心概念之StreamingContext核心概念之StreamingContext要初始化一个Spark流程序，必须创建一个StreamingContext对象，它是所有Spark流功能的主要入口点。可以从SparkConf对象创建StreamingContext对象。import org.apache.spark._import org.apache.spark.stream...

2018-12-06 15:01:20 258

原创 ---scala编程环境IDEA搭建以及各种依赖添加

1、新建一个maven项目；点击next2、项目分组id和项目名称；点击next3、选择自己的maven路径；点击next4、点击finishpom文件<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:sch...

2018-12-06 10:54:11 4372 1

原创 --- Spark学习（捌）- Spark Streaming入门

文章目录spark概念Spark Streaming应用场景Spark Streaming集成Spark生态系统的使用Spark Streaming发展史从词频统计功能着手入门Spark Streamingspark-submit提交spark-shell提交Spark Streaming工作原理(粗粒度)Spark Streaming工作原理(细粒度)spark概念Spark流是核心Spar...

2018-12-06 10:23:44 699 1

原创 --- Spark学习（柒）- Spark SQL扩展和总结

文章目录Spark SQL使用场景Spark SQL加载数据1) RDD DataFrame/Dataset2) Local Cloud(HDFS/S3)DataFrame与SQL的对比SchemaSaveMode处理复杂的JSON数据SQL的覆盖程度外部数据源Spark SQL使用场景文件中数据的特殊查询（即席查询；即席查询是可以进行特殊的字段查询自定义的查询；普通查询就是别人已...

2018-12-05 15:08:37 995 1

原创 --- Spark学习（陆）- Spark操作外部数据源

产生背景每个Spark应用程序从读取数据开始，到保存数据结束加载和保存数据是不容易的比如大数据场景解析关系型数据库需要用工具如sqoop将数据转到hbase等。解析原始数据也不容易：text/json/parquet数据直接的转换也麻烦数据集存储在各个存储系统中无法统一拉取和推送用户的需要：方便快速从不同的数据源（json、parquet、rdbms），经过混合处理（jso...

2018-12-03 15:48:55 1184

原创 --- Spark学习（伍）- DateFrame&Dataset

文章目录DataFrame产生背景DataFrame概述DataFrame和RDD的对比DataFrame基本API操作DataFrame与RDD互操作方式DataFrame API操作案例实战DataSet概述及使用DataFrame产生背景DataFrame它不是Spark SQL提出的，而是早起在R、Pandas语言就已经有了的。Spark RDD API vs MapReduce ...

2018-12-03 15:47:48 402

原创 --- Spark学习（肆）- 从Hive平滑过渡到Spark SQL

文章目录SQLContext的使用HiveContext的使用SparkSession的使用spark-shell&amp;amp;amp;spark-sql的使用thriftserver&amp;amp;amp;beeline的使用jdbc方式编程访问SQLContext的使用Spark1.x中Spark SQL的入口点: SQLContextval sc: SparkContext // An existing Spa...

2018-12-03 15:46:52 402

原创 ---Spark学习（叁）- 环境搭建

文章目录Spark源码编译1 写在前面的话2 前置准备2.1 Java7的安装2.1.1 下载2.1.2 安装2.2 Maven3.3.9的安装2.2.1 下载2.2.2安装2.3 Spark-2.1.0源码下载3 Spark源码编译Spark环境编译中的问题：Spark环境搭建-待补充Spark Local模式环境搭建Spark Standalone模式环境搭建Spark源码编译1 写在前面...

2018-12-03 15:45:29 619

Hbase和Hadoop JMX监控实战

编译过的Hadoop2.6.0-cdh5.7.0的spark2.1.0安装包

大数据入门学习笔记（捌）- Hadoop项目实战 测试数据

SPARK-22229_SPIP_RDMA_Accelerated_Shuffle_Engine_Rev_1.0

rpm离线安装logstash-6.2.4和logstash-output-jdbc插件

mysql+servlet+jsp的简易crm实现

空空如也

大数据入门学习笔记（捌）- Hadoop项目实战测试数据