Saikikky-CSDN博客

原创初识Hadoop

Hadoop权威指南第四版第二章代码运行在github上拿到本书源代码hadoop-book-master后按照项目中的Readme里面的步骤进行jar包准备工作，具体内容不细说。export HADOOP_CLASSPATH=hadoop-examples.jarhadoop MaxTemperature input/ncdc/sample.txt output上面两行代码是用...

2018-11-14 21:51:42 232

原创 sklearn.preprocessing

标准化（中心化）scalesklearn.preprocessing.scale(X,axis=0,with_mean=True,with_std=True,copy=True)X 用来标准化的数据(数组或者稀疏矩阵) axis 0表示对一列去做相同的操作，1表示对一行去做相同的操作 with_mean 要均值中心化(true) with_std ...

2019-03-05 20:25:53 1040 1

原创 Docker

Docker简介Docker是一个开源的应用容器引擎。支持将软件编译成一个镜像，然后在镜像中将各种软件做好配置，将镜像发布出去，其他使用者可以直接使用这个镜像。运行中的镜像成为容器，容器的启动是非常迅速的。容器是完全使用沙箱机制，相互之间不会有任何接口，更重要的是容器性能开销极低。Docker可以让开发者打包他们的应用以及依赖包，到一个轻量级、可移植的容器中，然后发布到任何流行的Linux...

2019-02-22 10:14:36 178

原创 HDFS

namenode的目录结构 namenodeID是文件系统命名空间的唯一标识符，是在namenode首次格式化时创建的。clusterID是将HDFS集群作为一个整体赋予的唯一标识符，对于联邦HDFS非常重要，这里一个集群由多个命名空间组成，且每个命名空间由一个namenode管理。blockpoolID是数据块池的唯一标识符，数据块池中包含了由一个namenode管理的命名空间中的所...

2019-01-29 19:33:48 228

原创 Hive操作

数据导入用Load语句执行数据的导入LOAD DATA [LOCAL] INPATH 'filepath' [OVERWRITE] INTO TABLE tablename[PARTITION (partcol1=val1, partcol2=val2 ...)]如果包含LOCAL关键字，则复制本地文件系统中的文件到目标表中，如果不包含LOCAL关键字，则移动HDFS文件到目标表中...

2019-01-17 09:15:04 242

原创 Hive——基于Hadoop的数据仓库概念

Hive的元数据Hive将元数据存储在数据库中，支持mysql。Hive中的元数据包括表的名字、表的列和分区及其属性，表的属性(是否为外部表等)，表的数据所在目录。Hive中的表实际上就是HDFS中的一个目录或者文件。Hive中HQL的执行过程Hive驱动:解析器(词法分析)和、编译器(生成执行计划)和优化器(生成最佳执行计划)完成HQL查询语句从词法分析、语法分析、编译与优化以及查询...

2019-01-16 19:55:11 391

原创 MapReduce的类型与格式

MapReduce的类型一般来说，map函数的输入的键值对类型(K1,V1)不同于输出类型(K2,V2)，但reduce函数的输入类型必须与map函数的输出类型相同，但reduce函数的输出类型(K3,V3)可以不同于输入类型。如果使用combiner函数，它与reduce函数形式相同，不同之处是它的输入类型是中间的键-值对类型(K2,V2)，这些中间值可以输入reduce函数如下图：...

2018-12-26 14:59:14 1562

原创 MapReduce的工作流

如何将数据处理问题转化为MapReduce模型数据处理问题更复杂，通常是因为有更多的MapReduce作业，而不是更复杂的map函数和reduce函数，换而言之，通常是增加更多的作业，而不是增加作业的复杂度。对于更复杂的问题，可考虑比MapReduce更高级的语言，例如Pig、hive、Spark等，有了他们之后，就不用处理到MapReduce作业的转换，而是集中精力分析正在执行的任务。一...

2018-12-06 15:18:37 356

原创 MapReduce的工作机制

Streaming运行特殊的map任务和reduce任务，目的是运行用户提供的可执行程序，并与之通信。关于任务进度，对map任务，任务进度是已处理输入所占的比例，对于reduce任务，分为三个阶段与shuffle的三个阶段相对应。关于shuffle和排序(shuffle是优化MapReduce非常重要的部分)MapReduce确保每个reducer的输入是按键排序的。系统执行排序，将m...

2018-12-06 15:17:21 358

数据完整性HDFS会对写入的所有数据计算校验和，并在读取数据时验证校验和。datanode负责在收到数据后存储该数据及其校验和之前对数据进行验证。datanode的管线中最后一个datanode执行校验。HDFS存储着每一个数据块的复本，因此可以通过数据复本来修复锁坏的数据块。可以用hadoop的命令fs -checksum来检查一个文件的校验和，可用于检查HDFS中两个文件是否具有相同的内容...

2018-11-27 15:52:46 453

原创 Hadoop学习之Yarn

Yarn是Hadoop的集群资源管理系统，一些分布式计算框架(MapReduce，Spark等)作为Yarn应用运行在集群计算层(Yarn)和集群存储层(HDFS和HBase)，而Pig，Hive等应用是运行在分布式计算框架之上。Yarn提供了三个调度器：FIFO调度器：队列，先进先出运行应用，不适合共享集群，小作业容易被大作业阻塞。容量调度器：一个独立的队列保证小作业一提交就可以启动...

2018-11-22 09:19:03 209

原创 HDFS文件系统的基本操作

从本地系统复制一个文件到HDFShadoop fs -copyFromLocal input/text.txt \ hdfs://localhost/user/saikikky/text.txt上述命令可以将本地的text.txt文件复制到运行在localhost上的HDFS实例中，且上面命令的hdfs://localhost可以省略读文件可以通过FileSystem API读...

2018-11-20 14:38:39 827

原创再一次重新学习Python——Json

JSON如果我们要在不同的编程语言之间传递对象，就必须把对象序列化为标准格式，比如XML，但更好的方法是序列化为JSON，因为JSON表示出来就是一个字符串，可以被所有语言读取，也可以方便地存储到磁盘或者通过网络传输。JSON不仅是标准格式，并且比XML更快，而且可以直接在Web页面中读取，非常方便。JSON表示的对象就是标准的JavaScript语言的对象，JSON和Python内置的数...

2018-11-14 21:53:51 190

原创再一次重新学习Python——错误、调试和测试

错误一种用try...except...finally捕获错误并用raise抛出调试 assert 断言凡是用print来辅助查看的地方，都可以用断言（assert）来替代：# err.pydef foo(s): n = int(s) assert n != 0, 'n is zero!' return 10 / ndef main()...

2018-11-14 21:53:40 201

原创再一次重新学习Python——面向对象高级编程

给实例绑定一个方法：>>> def set_age(self, age): # 定义一个函数作为实例方法... self.age = age...>>> from types import MethodType>>> s.set_age = MethodType(set_age, s, Student) # 给实例绑定一个...

2018-11-14 21:53:33 228

原创再一次重新学习Python——函数式编程

函数式编程函数式编程的一个特点就是，允许把函数本身作为参数传入另一个函数，还允许返回一个函数！高阶函数既然变量可以指向函数，函数的参数能接收变量，那么一个函数就可以接收另一个函数作为参数，这种函数就是高阶函数。 map()和reduce() map()函数接收两个参数，一个是函数，一个是序列，map将传入的函数一次作用到序列的每个元素，并且把结果作为新的list返...

2018-11-14 21:53:25 215

原创再一次重新学习Python——高级特性

切片 L[0:3]表示，从索引0开始取，直到索引3为止，但不包括索引3。即索引0，1，2，正好是3个元素。如果第一个索引是0，还可以省略。同样支持倒数切片>>> L = ['Michael', 'Sarah', 'Tracy', 'Bob', 'Jack']>>> L[-2:]['Bob', 'Jack']>>> L...

2018-11-14 21:53:15 176

原创再一次重新学习Python——函数

数据类型转换 Python内置的常用函数还包括数据类型转换函数，比如int()函数可以把其他数据类型转换为整数：>>> int('123')123>>> int(12.34)12>>> float('12.34')12.34>>> str(1.23)'1.23'>>> u

2018-11-14 21:53:00 176

原创再一次重新学习Python——Python语法基础

一、热身1、输出>>> print 'I','need','python' 中间加空格不会输出碰到逗号就输出一个空格输出 I need python2、输入 raw_input函数，可以让用户输入并存放至变量中>>> name = raw_input()Saikikky直接输出变量name 也可以用print name语句就可以书...

2018-11-14 21:52:48 361 1

Saikikky的博客