自定义博客皮肤

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

HBase

HBase HBase是一个面向列的分布式数据库,主要用于存储非结构化和半结构化的数据。 HBase 数据模型 HBase是一个稀疏、多维度、排序的映射表,其索引是行键(Row Key)、列族(Column Family)、列限定符(Column Qualifier)、时间戳(Timestamp)...

2019-09-08 09:58:31

阅读数 7544

评论数 0

HDFS初学笔记

HDFS概述 Hadoop分布式文件系统(Hadoop Distributed File System,HDFS),Hadoop项目(另一个是Mapreduce)的两大核心之一。 HDFS支持流数据读取和处理超大规模文件,并能够运行在廉价的普通的机器的集群之上(解决了电脑的性能不足问题,因为硬...

2019-06-26 07:52:39

阅读数 641

评论数 0

matplotlib入门笔记

matplotlib简介 matplotlib 是python最著名的绘图库,它提供了一整套和matlab相似的命令API,十分适合交互式地进行制图。而且也可以方便地将它作为绘图控件,嵌入GUI应用程序中。 绘制函数的输入类型 所有绘图函数都需要np.array或np.ma.masked_arra...

2019-06-09 19:55:51

阅读数 812

评论数 0

Numpy入门笔记

Numpy NumPy是一个功能强大的Python库,主要用于对多维数组执行计算。 NumPy 中的数组 一维数组 定义数组 import numpy as np a = np.array([1, 2, 3, 4, 5]) b=np.arrage(5) #从0开始取整,不包括最后一位...

2019-06-07 10:29:16

阅读数 555

评论数 0

数据可视化初学笔记(二)

数据可视化基础 可视化不是一个算法,而是一个流程。 数据可视化流程 (1)数据采集 (2)数据处理和变换 (3)可视化映射 (4)用户感知 数据处理与数据交换 数据变换的目的 更好地解决特定问题 提供更多的可视化设计选择 数据降维 主元分析(Principal Compon...

2019-06-06 12:46:55

阅读数 645

评论数 0

数据可视化初学笔记(一)

数据可视化简介 可视化:对数据进行交互的可视表达以增强认知的技术。 •它将不可见或难以直接显示的数据映射为可感知的图形、符号、颜色、纹理等,增强数据识别效率,高效传递有用消息。 • 数据可视化的意义 1.视觉是人类获得信息的最主要途径 2.可视化能够帮助人们提高理解与处理数据的效率 3.数据可视化...

2019-06-06 10:59:31

阅读数 992

评论数 0

互联网大数据初学笔记

OLTP与OLAP OLTP(On-Line Transaction Processing):联机事务处理过程 也称为面向交易的处理过程,其基本特征是前台接收的用户数据可以立即传送到计算中心进行处理,并在很短的时间内给出处理结果,是对用户操作快速响应的方式之一。OLAP是数据仓库系统的主要应用...

2019-05-30 09:15:36

阅读数 935

评论数 0

scala初学笔记

scala编辑形式 scala编辑形式 1.交互式编程:命令行 println(“HelloWorld!”) ps:后面没有分号 2.脚本:.scala (1)创建脚本 (2)编译脚本;使用scalac进行编译,把源码编译为字节码。 (3)执行编译脚本;使用scala命令执行命...

2019-05-06 23:42:07

阅读数 1039

评论数 0

Spark初学笔记(一)

Apache Spark™是用于大规模数据处理的快速和通用引擎。(Apache Spark™ is a fast and general engine for large-scale data processing. )

2019-05-06 23:37:16

阅读数 1043

评论数 1

Spark初学笔记(二)

Spark初学笔记(二) RDD(Resilient Distributed Datasets) Spark围绕弹性分布式数据集(RDD)的概念展开,RDD是一个可以并行操作的容错的容错集合。创建RDD有两种方法:并行化 驱动程序中的现有集合,或引用外部存储系统中的数据集,例如共享文件系统,H...

2019-05-06 14:44:25

阅读数 738

评论数 0

提示
确定要删除当前文章?
取消 删除