Spark学习笔记: Spark Streaming

背景 很多重要的应用要处理大量在线流式数据,并返回近似实时的结果,比如社交网络趋势追踪,网站指标统计,广告系统。所以需要具备分布式流式处理框架的基本特征,包括良好的扩展性(百级别节点)和低延迟(秒级别)。 批处理 MapReduce和Spark Core都是批处理:需要收集数据,然后分批处理,这样...

2019-01-24 23:23:02

阅读数 45

评论数 0

Spark学习笔记:Spark SQL

背景 从Spark 1.0开始,Spark SQL成为Spark生态系统一员,是专门处理结构化数据(比如DB, Json)的Spark组件。它提供了2种操作数据的方式:1)SQL Queries;2)DataFrames/Datasets API。Spark SQL = Schema + RDD,...

2019-01-23 07:49:42

阅读数 323

评论数 0

Spark学习笔记:程序设计

基本流程 创建SparkContext对象 封装了spark执行环境的上下文信息,必须有且只有一个; 创建RDD 可从Scala集合或Hadoop数据集上创建,利用Context对象的API创建RDD,可以将HBase表、MySQL表、本地文件等数据映射成RDD; 在RDD之上进行T...

2019-01-21 22:59:40

阅读数 706

评论数 0

Spark学习笔记:基本概念

Spark背景 MapReduce的局限性 仅支持Map和Reduce两种操作,需要所有问题都转换成map和reduce,有些问题不好转换,代码比较冗余,编程不够灵活; 处理效率低:Map中间结果写磁盘,Reduce写HDFS,多个MR之间通过HDFS交换数据,所以Io开销大效率比较低;...

2019-01-21 22:43:07

阅读数 25

评论数 0

Hadoop学习笔记:数据分析引擎Hive

概述 Hive是一个构建在Hadoop之上的数据仓库,和传统的数据仓库一样主要用来访问和管理数据,提供了类SQL查询语言;和传统数据仓库不一样的是可以处理超大规模的数据,可扩展性和容错性非常强。 Hive是由FaceBook开源的分布式数据分析引擎,它把SQL语句转化成MapReduce作业提...

2019-01-16 01:00:55

阅读数 6827

评论数 0

Hadoop学习笔记:分布式计算引擎MapReduce

MapReduce简介 MapReduce源自于Google发表于2004年12月的MapReduce论文,Hadoop MapReduce是Google MapReduce克隆版。 MapReduce源于函数式编程,包括Map和Reduce两个算子,它是一个通用的计算引擎,所以易于编程,可以...

2019-01-11 20:13:34

阅读数 33

评论数 0

Hadoop学习笔记: 分布式数据库 HBase

HBase概述 HBase是一个构建在HDFS上的分布式列存储系统,是Apache Hadoop生态系统中的重要一员,主要用于海量结构化数据存储。HBase是Google Bigtable的开源实现,从逻辑上讲,HBase将数据按照表、行和列进行存储,它是一个分布式的、稀疏的、持久化存储的多维度...

2019-01-11 00:18:18

阅读数 23

评论数 0

Hadoop学习笔记:分布式文件系统HDFS

背景 HDFS(Hadoop Distributed File System)源自于Google发表于2003年10月的GFS论文,HDFS是GFS克隆版。它是一个易于扩展的分布式文件系统,可以运行在大量普通廉价机器上,它提供容错机制,为大量用户提供性能不错的文件存取服务。 它具有以下优点: 高...

2019-01-08 15:06:24

阅读数 26

评论数 0

Hadoop学习笔记:一致性服务系统Zookeeper

背景

2019-01-06 16:52:40

阅读数 32

评论数 0

Hadoop学习笔记: 分布式消息队列 Kafka

背景 这种结构耦合性太高,后端一旦发生变化,前端就要改动。 使用中间件进行解耦,提高扩展性,各种服务都把生成的数据或变化写到中间件,后端服务器根据需要获取数据或变化,同时当生产者生产的数据大于消费者消费的数据时提供了缓存机制。消息队列能够使关键组件顶住突发的访问压⼒力,而不会因为突发的超负荷的请求...

2019-01-06 00:06:49

阅读数 1077

评论数 3

Hadoop学习笔记:分布式数据收集系统Flume和Sqoop

背景 Hadoop提供了一个中央化的存储系统,有利于进行集中式的数据分析与数据共享。Hadoop对存储格式没有要求,包括用户访问日志、产品信息和网页数据等。但是,数据分散在各个离散的设备上或保存在传统的存储设备和系统中,我们需要将数据存入Hadoop。常见数据来源包括网页信息、用户操作日志等非结构...

2019-01-05 17:29:09

阅读数 57

评论数 0

大数据学习笔记:大数据技术框架和Hadoop生态系统

大数据技术框架 Hadoop生态系统 Hadoop是目前得到企业界验证的大数据框架,包括以下特点: 源代码开源 社区活跃、参与者众多 涉及分布式存储和计算的方方面面 Flume(非结构化数据收集) Cloudera开源的日志收集系统,用于非结构化数据收集。具有以下...

2019-01-04 14:48:39

阅读数 37

评论数 0

Spark学习笔记:运行模式

Spark运行模式 Wordcount实例 import org.apache.spark._ import SparkContext._ object WordCount { def main(args: Array[String]) { if (args.length ...

2019-01-02 21:43:29

阅读数 21

评论数 0

线性回归和逻辑回归介绍

概述 线性回归和逻辑回归是机器学习中最基本的两个模型,线性回归一般用来解决预测问题,逻辑回归一般解决分类问题,线性回归模型和逻辑回归模型之间既有区别又有关联。 线性回归模型 假定训练数据集为 T={(x1,y1),(x2,y2),...,(xn,yn)}T = \{(x_1,y_1),(x_2,y...

2018-12-11 22:59:59

阅读数 747

评论数 0

Tensorflow官网CIFAR-10数据分类教程代码详解

标题 概述 对CIFAR-10 数据集的分类是机器学习中一个公开的基准测试问题,本教程代码通过解决CIFAR-10数据分类任务,介绍了Tensorflow的一些高阶用法,演示了构建大型复杂模型的一些重要技巧,着重于建立一个规范的网络组织结构,训练并进行评估,为建立更大规模更加复杂的模型提供一个...

2018-11-07 17:06:21

阅读数 23

评论数 0

Tensorflow-tf.nn.zero_fraction()详解

Tensorflow-tf.nn.zero_fraction()详解 简介 Tensorflow-tf.nn.zero_fraction()的作用是将输入的Tensor中0元素在所有元素中所占的比例计算并返回,因为relu激活函数有时会大面积的将输入参数设为0,所以此函数可以有效衡量relu激...

2018-10-30 12:10:18

阅读数 458

评论数 0

Tensorflow-tf.FixedLengthRecordReader详解

Tensorflow-tf.FixedLengthRecordReader详解 描述 tf.FixedLengthRecordReader是从一个文件中输出固定长度Recorder的类,是从ReaderBase继承而来,ReaderBase是一个管理各种类型Reader(Reader数据读取的...

2018-10-16 23:54:59

阅读数 291

评论数 0

Tensorflow--tf.FIFOQueue详解

Tensorflow–tf.FIFOQueue tf.FIFOQueue根据先进先出(FIFO)的原则创建一个队列。队列是Tensorflow的一种数据结构,每个队列的元素都是包含一个或多个张量的元组,每个元组都有静态的类型和尺寸。入列和出列可以支持一次一个元素,或一次一批元素。它继承于Tens...

2018-10-12 11:41:25

阅读数 270

评论数 0

Tensorflow--tf.test.TestCase.get_temp_dir()

tf.test.TestCase.get_temp_dir() 描述 get_temp_dir()是tf.test的基类TestCase的一个方法,用来在测试的时候,返回一个唯一的临时文件路径。在同一个测试中,此方法返回的路径是唯一的,在不同的测试中,此方法返回的路径不一致。 示例 imp...

2018-10-06 10:44:31

阅读数 99

评论数 0

Python中的bytearray()和bytes()函数

Python中的bytearray()和bytes()函数 概述 bytearray() 函数返回新字节数组,数组里的元素可变,且每个元素的值在0至255之间。bytes()函数是Python 3中增加的内置函数,语法、参数与bytearray() 一样,只是返回的新字节数组不可变。它是 byte...

2018-10-05 23:04:06

阅读数 348

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭