BIGDATA
bigdata
zhexiao27
Keep going.
展开
-
ELK (Elasticsearch+Logstash+Kibana) 的安装
安装Java> sudo apt-get install openjdk-8-jdk> sudo apt-get install apt-transport-https安装Elasticsearch> wget https://artifacts.elastic.co/downloads/elasticsearch/elasticsearch-5.4.3.deb> sudo dpkg -i el原创 2017-09-11 09:07:14 · 458 阅读 · 0 评论 -
安装 cassandra,使用基本的cqlsh
安装> wget http://mirrors.hust.edu.cn/apache/cassandra/3.11.1/apache-cassandra-3.11.1-bin.tar.gz> tar -zxvf apache-cassandra-3.11.1-bin.tar.gzCassandra目录解释bin:一些可执行的命令,包括cqlsh和nodetool。nodetool可以用来检查一个原创 2017-11-13 16:53:32 · 5345 阅读 · 0 评论 -
SparkSQL – Catalyst
CatalystCatalyst是SparkSQL的优化器系统,其设计思路基本都来自于传统型数据库,而且和大多数当前的大数据SQL处理引擎设计基本相同。SQL优化器核心执行策略主要分为两个大的方向:基于规则优化(RBO)以及基于代价优化(CBO),基于规则优化是一种经验式、启发式地优化思路,更多地依靠前辈总结出来的优化规则,简单易行且能够覆盖到大部分优化逻辑,但是对于核心优化算子Join却显得有点力转载 2017-11-06 10:41:42 · 811 阅读 · 0 评论 -
SparkSQL – Join分析
Join是数据库查询永远绕不开的话题,传统查询SQL技术总体可以分为简单操作(过滤操作-where、排序操作-limit等),聚合操作-groupBy以及Join操作等。其中Join操作是其中最复杂、代价最大的操作类型。另外,从业务层面来讲,用户在数仓建设的时候也会涉及Join使用的问题。通常情况下,数据仓库中的表一般会分为”低层次表”和“高层次表”。所谓”低层次表”,就是数据源导入数仓之后直接生成转载 2017-11-06 14:34:03 · 574 阅读 · 0 评论 -
Cassandra 数据模型
介绍Row在Cassandra里面, name/value的对就是columns;每个拥有一系列columns的实体叫做rows;row的 unique identifier叫做row key或者primary key。在Cassandra中,如果有些column没有value,则不会被保存下来。Wide row一个wide row表示这个row包含了许多columns。Cassandra使用一个特原创 2017-11-15 17:19:19 · 991 阅读 · 0 评论 -
Elasticsearch 6.0 性能调优策略
下面的这些配置都是针对于Elasticsearch版本大于6.0的服务配置。配置JVM HEAP MAP$ sudo vim /etc/elasticsearch/jvm.options""-Xms4g-Xmx4g""$ sudo systemctl restart elasticsearch.service参考:https://stackoverflow.com/que...原创 2018-03-30 14:04:34 · 6677 阅读 · 0 评论 -
ElasticSearch 合理分配索引分片
分片定义假设ElasticSearch集群的部署结构如下: 通过该图, 记住下面的几个定义: 集群(cluster): 由一个或多个节点组成, 并通过集群名称与其他集群进行区分 节点(node): 单个ElasticSearch实例. 通常一个节点运行在一个隔离的容器或虚拟机中 索引(index): 在ES中, 索引是一组文档的集合 分片(shard): 因为ES是个分布式的搜索...转载 2018-03-28 17:26:02 · 2717 阅读 · 0 评论 -
Elasticsearch 集群的详细分析
查看集群状态curl -XGET http://localhost:9200/_cluster/health?pretty 返回: { “cluster_name” : “ccnu-resource-cluster”, “status” : “green”, “timed_out” : false, “number_of_nodes” : 2, “number...原创 2018-03-28 17:33:18 · 2164 阅读 · 0 评论 -
Elasticsearch 6.0 集群安装与配置
前置的要求安装搭建ES集群需要最少3台机器,我们现在准备3台ubuntu 16.04的机器(192.168.71.181~183),ES版本为6.0。更换国内源$ sudo cp /etc/apt/sources.list /etc/apt/sources.list.bak$ sudo vim /etc/apt/sources.list"""# deb cdrom:[Ub...原创 2018-03-28 17:34:23 · 2706 阅读 · 0 评论 -
Hadoop 2.9 集群的安装 IP版
安装hadoop安装必备库$ sudo apt-get install ssh $ sudo apt-get install rsync$ sudo apt-get install openjdk-8-jdk安装hadoop$ wget http://mirrors.hust.edu.cn/apache/hadoop/common/hadoop-2.9.0/ha...原创 2018-04-16 16:29:26 · 634 阅读 · 1 评论 -
Hadoop 2.9 集群的安装
安装hadoop安装必备库$ sudo apt-get install ssh $ sudo apt-get install rsync$ sudo apt-get install openjdk-8-jdk安装hadoop$ wget http://mirrors.hust.edu.cn/apache/hadoop/common/hadoop-2.9.0/ha...原创 2018-04-12 16:25:37 · 1437 阅读 · 0 评论 -
Spark 2.3 集群部署
安装换ubuntu 16的源$ sudo cp /etc/apt/sources.list /etc/apt/sources.list.bak$ sudo vim /etc/apt/sources.list""deb http://mirrors.tuna.tsinghua.edu.cn/ubuntu/ xenial main restricteddeb http://mi...原创 2018-04-13 16:00:43 · 1159 阅读 · 0 评论 -
numpy中的mean()函数
mean() 函数定义:numpy.mean(a, axis, dtype, out,keepdims )mean()函数功能:求取均值经常操作的参数为axis,以m * n矩阵举例:axis 不设置值,对 m*n 个数求均值,返回一个实数axis = 0:压缩行,对各列求均值,返回 1* n 矩阵axis =1 :压缩列,对各行求均值,返回 m *1 矩阵a = np.array...原创 2018-11-13 18:02:53 · 12237 阅读 · 1 评论 -
Elasticsearch 三种分页方式
from + size 浅分页"浅"分页可以理解为简单意义上的分页。它的原理很简单,就是查询前20条数据,然后截断前10条,只返回10-20的数据。这样其实白白浪费了前10条的查询。GET test_dev/_search{ "query": { "bool": { "filter": [ { "term": { ...原创 2018-11-08 16:57:51 · 44185 阅读 · 6 评论 -
Structured Streaming 词频统计模型
环境本次使用全部以单机环境运行,下面附上spark和kafka的主要配置。spark版本:spark-2.4.4-bin-hadoop2.7.tgz (https://www.apache.org/dyn/closer.lua/spark/spark-2.4.4/spark-2.4.4-bin-hadoop2.7.tgz)spark-env.shSPARK_LOCAL_IP=192.16...原创 2019-09-12 14:37:28 · 510 阅读 · 0 评论 -
Structured Streaming + Kafka 统计模型(输入kafka,输出console)
环境本次使用全部以单机环境运行,下面附上spark和kafka的主要配置。spark版本:spark-2.4.4-bin-hadoop2.7.tgz (https://www.apache.org/dyn/closer.lua/spark/spark-2.4.4/spark-2.4.4-bin-hadoop2.7.tgz)spark-env.shSPARK_LOCAL_IP=192.16...原创 2019-09-12 14:44:08 · 496 阅读 · 0 评论 -
SparkSQL - DataFrame介绍
SparkSQL 体系结构SparkSQL体系结构如下图所示,整体由上到下分为三层:编程模型层、执行任务优化层以及任务执行引擎层。SparkSQL编程模型可以分为SQL和DataFrame两种。执行计划优化又称为Catalyst,该模块负责将SQL语句解析成AST(逻辑执行计划),并对原始逻辑执行计划进行优化,优化规则分为基于规则的优化策略和基于代价的优化策略两种,最终输出优化后的物理执行计划。转载 2017-11-03 11:10:21 · 531 阅读 · 0 评论 -
Spark SQL
介绍结构化数据是指任何有结构信息的数据,所谓结构信息,就是每条记录共用的已知的字段集合。。 当数据符合这样的条件时, Spark SQL 就会使得针对这些数据的读取和查询变得更加简单高效。Spark SQL 提供了以下三大功能: 1. Spark SQL 可以从各种结构化数据源(例如 JSON、 Hive、 Parquet 等)中读取数据。 2. Spark SQL 不仅支持在 Spark 程原创 2017-11-02 15:07:53 · 849 阅读 · 0 评论 -
Apache Spark 的安装
安装JAVA和Python> sudo apt-get install openjdk-8-jdk> vim /etc/environment # 添加export到全局env里面> export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64# 如果不想重启,可以直接使用source> source /etc/environment> sudo ap原创 2017-09-11 09:08:55 · 1271 阅读 · 0 评论 -
Apache Storm 的安装
安装Java> sudo apt-get install openjdk-8-jdk安装ZooKeeper> wget https://mirrors.tuna.tsinghua.edu.cn/apache/zookeeper/zookeeper-3.4.9/zookeeper-3.4.9.tar.gz> tar -zxf zookeeper-3.4.9.tar.gz > cd zookeepe原创 2017-09-11 09:09:47 · 382 阅读 · 0 评论 -
Apache Kafka 的安装与使用
安装Java> sudo apt-get install openjdk-8-jdk安装Kafka# Download> wget http://mirrors.tuna.tsinghua.edu.cn/apache/kafka/0.10.2.0/kafka_2.11-0.10.2.0.tgz> tar -xzf kafka_2.11-0.10.2.0.tgz> cd kafka_2.11-0原创 2017-09-11 09:03:35 · 822 阅读 · 0 评论 -
What Is Apache Spark
What Is Apache Spark?Apache Spark is a cluster computing platform designed to be fast and general-purpose. One of the main features Spark offers for speed is the ability to run computations in memory.原创 2017-09-27 10:11:34 · 780 阅读 · 0 评论 -
开始使用 Spark
pyspark如果你想要减少日志的打印,复制 conf/log4j.properties.template 并重命名为 conf/log4j.properties,然后修改下列配置:log4j.rootCategory=WARN, console使用IPythonIPython是一个python的高级shell,包含需要功能,现在可以把IPython集成到SPARK中。> sudo pip inst原创 2017-09-27 10:54:21 · 455 阅读 · 0 评论 -
Spark 键值对的操作
PAIR RDD一个RDD包含了键值对,我们就叫它PAIR RDD。假设我有一个PAIR RDD:from pyspark import SparkConf, SparkContext, StorageLevelconf = SparkConf().setMaster('local').setAppName('My App')sc = SparkContext(conf=conf)ts = sc.原创 2017-09-30 16:48:21 · 728 阅读 · 0 评论 -
Spark Data Partitioning - Spark数据分区
一般来说,在分布式的编程中,通信是非常昂贵的,所以最大的提高性能的办法就是最小的减少网络之间的通信。Partitioning并不是在所有的应用中都是有用的,例如如果你只是对一个RDD数据全部扫描一次,这个就没有必要做partitioning操作。partitioning操作一般是当你的数据集在一个面向key的操作中需要重复使用多次,例如joins。Spark的partitioning在所有的RDDS原创 2017-10-10 11:29:59 · 1523 阅读 · 0 评论 -
在集群上运行Spark
在分布式环境下, Spark 集群采用的是主 / 从结构。在一个 Spark 集群中,有一个节点负责中央协调, 调度各个分布式工作节点。这个中央协调节点被称为驱动器(Driver) 节点。工作节点被称为执行器(executor) 节点。 驱动器节点Spark 驱动器是执行你的程序中的 main() 方法的进程。它执行用户编写的用来创建 SparkContext、创建 RDD,以及进行 RDD原创 2017-10-26 17:22:34 · 2709 阅读 · 0 评论 -
Spark高级编程
介绍我们主要介绍两种共享变量类型:accumulators聚合信息,broadcast有效的分发large values。当我们的任务涉及到了需要大量的设置时间(比如创建数据库连接或者随机数生成),我们可以把这个设置时间share到多个数据items上面。除了Spark直接支持的语言外,我们还可以使用pipe()方法来与别的编程语言进行沟通,例如使用pipe()方法来访问R语言的库。Accumula原创 2017-10-20 15:12:27 · 940 阅读 · 0 评论 -
Spark加载和保存数据
支持的格式文件系统:比如NFS, HDFS, S3, TEXT, JSON等使用Spark SQL处理结构化数据:比如Json,APACHE HIVE等键值对的数据库:比如CASSANDRA, HBASE, ELASTICSEARCH, JDBC等文件系统下面是一些常见的,在spark中使用的文件系统: Text Files加载文件只需要调用textFile()这个函数即可。d = sc.原创 2017-10-12 14:14:35 · 5664 阅读 · 2 评论 -
Hadoop 2.8 集群的安装
安装单个hadoop安装必备库> sudo apt-get install ssh > sudo apt-get install rsync安装hadoop> wget http://mirrors.hust.edu.cn/apache/hadoop/common/hadoop-2.8.2/hadoop-2.8.2.tar.gz> tar -zxvf hadoop-2.8.2.tar.gz >原创 2017-11-07 10:15:15 · 361 阅读 · 0 评论 -
Cassandra
Cassandra利用点对点模型,其消除了单点故障可能性,从而帮助我们在机架故障甚至是网络整体下线的情况下得以幸存。我们能够在无需影响用户体验的情况下,顺利处理整体数据中心故障。只有能够应对故障的分布式系统才是一套拥有出色设计水平的分布式系统,而在Cassandra的帮助下,我们能够承受各类意外状况,并将应对机制纳入数据库架构及功能当中。Cassandra使用的数据模型对于关系数据库管理员来说并不陌原创 2017-11-07 14:11:32 · 562 阅读 · 0 评论 -
Spark RDDs 编程
RDD是 resilient distributed dataset,RDD可以看做是一个分布式元素集合。在Spark中,所有的操作都是基于RDD开始,例如创建RDD,改变RDD或者在RDD上面调用操作来计算。RDD基础RDD在spark里面是一个不可变(immutable)的分布式对象集合。每个RDD被分成了多个partitions,每个partition可以在某个集群的节点中计算。RDD可以包含原创 2017-09-27 17:32:36 · 488 阅读 · 0 评论 -
cassandra 架构实现
cassandra 架构所有系统最开始都是centralized。但是有很多缺点,比如单机的处理能力不够。Centralized database如下图: 所以出现了分布式的数据库。如下图: Partitioning的方式有range partitioning, list partitioning, hash partitioning。其中hash partitioning使用最多。如下图,数据转载 2017-11-09 15:32:40 · 2477 阅读 · 0 评论 -
Spark调优与调试
SparkConfSpark 中最主要的配置机制是通过 SparkConf 类对 Spark 进行配置。在创建 SparkContext 之前,需要创建出一个 SparkConf 的实例。conf = SparkConf()conf.set("spark.app.name", "My Spark App")conf.set("spark.master", "local[4]")conf.set原创 2017-11-01 15:54:35 · 1486 阅读 · 0 评论 -
分布式系统 CAP理论
CAP起源CAP原本是一个猜想,2000年PODC大会的时候大牛Brewer提出的,他认为在设计一个大规模可扩放的网络服务时候会遇到三个特性:一致性(consistency)、可用性(Availability)、分区容错(partition-tolerance)都需要的情景,然而这是不可能都实现的。之后在2003年的时候,Mit的Gilbert和Lynch就正式的证明了这三个特征确实是不可以兼得的。转载 2017-11-10 13:41:09 · 650 阅读 · 0 评论 -
Structured Streaming + Kafka 统计Window模型
环境本次使用全部以单机环境运行,下面附上spark和kafka的主要配置。spark版本:spark-2.4.4-bin-hadoop2.7.tgz (https://www.apache.org/dyn/closer.lua/spark/spark-2.4.4/spark-2.4.4-bin-hadoop2.7.tgz)spark-env.shSPARK_LOCAL_IP=192.16...原创 2019-09-16 15:31:27 · 640 阅读 · 0 评论