自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(19)
  • 收藏
  • 关注

原创 初识Hadoop

Hadoop权威指南第四版第二章代码运行在github上拿到本书源代码hadoop-book-master后按照项目中的Readme里面的步骤进行jar包准备工作,具体内容不细说。export HADOOP_CLASSPATH=hadoop-examples.jarhadoop MaxTemperature input/ncdc/sample.txt output上面两行代码是用...

2018-11-14 21:51:42 232

原创 sklearn.preprocessing

标准化(中心化)scalesklearn.preprocessing.scale(X,axis=0,with_mean=True,with_std=True,copy=True)X 用来标准化的数据(数组或者稀疏矩阵) axis 0表示对一列去做相同的操作,1表示对一行去做相同的操作 with_mean 要均值中心化(true) with_std ...

2019-03-05 20:25:53 1040 1

原创 Docker

Docker简介Docker是一个开源的应用容器引擎。支持将软件编译成一个镜像,然后在镜像中将各种软件做好配置,将镜像发布出去,其他使用者可以直接使用这个镜像。运行中的镜像成为容器,容器的启动是非常迅速的。容器是完全使用沙箱机制,相互之间不会有任何接口,更重要的是容器性能开销极低。Docker可以让开发者打包他们的应用以及依赖包,到一个轻量级、可移植的容器中,然后发布到任何流行的Linux...

2019-02-22 10:14:36 178

原创 HDFS

namenode的目录结构 namenodeID是文件系统命名空间的唯一标识符,是在namenode首次格式化时创建的。clusterID是将HDFS集群作为一个整体赋予的唯一标识符,对于联邦HDFS非常重要,这里一个集群由多个命名空间组成,且每个命名空间由一个namenode管理。blockpoolID是数据块池的唯一标识符,数据块池中包含了由一个namenode管理的命名空间中的所...

2019-01-29 19:33:48 228

原创 Hive操作

数据导入用Load语句执行数据的导入LOAD DATA [LOCAL] INPATH 'filepath' [OVERWRITE] INTO TABLE tablename[PARTITION (partcol1=val1, partcol2=val2 ...)]如果包含LOCAL关键字,则复制本地文件系统中的文件到目标表中,如果不包含LOCAL关键字,则移动HDFS文件到目标表中...

2019-01-17 09:15:04 242

原创 Hive——基于Hadoop的数据仓库概念

Hive的元数据Hive将元数据存储在数据库中,支持mysql。Hive中的元数据包括表的名字、表的列和分区及其属性,表的属性(是否为外部表等),表的数据所在目录。Hive中的表实际上就是HDFS中的一个目录或者文件。Hive中HQL的执行过程Hive驱动:解析器(词法分析)和、编译器(生成执行计划)和优化器(生成最佳执行计划)完成HQL查询语句从词法分析、语法分析、编译与优化以及查询...

2019-01-16 19:55:11 391

原创 MapReduce的类型与格式

MapReduce的类型一般来说,map函数的输入的键值对类型(K1,V1)不同于输出类型(K2,V2),但reduce函数的输入类型必须与map函数的输出类型相同,但reduce函数的输出类型(K3,V3)可以不同于输入类型。如果使用combiner函数,它与reduce函数形式相同,不同之处是它的输入类型是中间的键-值对类型(K2,V2),这些中间值可以输入reduce函数如下图:...

2018-12-26 14:59:14 1562

原创 MapReduce的工作流

如何将数据处理问题转化为MapReduce模型数据处理问题更复杂,通常是因为有更多的MapReduce作业,而不是更复杂的map函数和reduce函数,换而言之,通常是增加更多的作业,而不是增加作业的复杂度。对于更复杂的问题,可考虑比MapReduce更高级的语言,例如Pig、hive、Spark等,有了他们之后,就不用处理到MapReduce作业的转换,而是集中精力分析正在执行的任务。一...

2018-12-06 15:18:37 356

原创 MapReduce的工作机制

Streaming运行特殊的map任务和reduce任务,目的是运行用户提供的可执行程序,并与之通信。关于任务进度,对map任务,任务进度是已处理输入所占的比例,对于reduce任务,分为三个阶段与shuffle的三个阶段相对应。关于shuffle和排序(shuffle是优化MapReduce非常重要的部分)MapReduce确保每个reducer的输入是按键排序的。系统执行排序,将m...

2018-12-06 15:17:21 358

原创 Hadoop的I/O操作

数据完整性HDFS会对写入的所有数据计算校验和,并在读取数据时验证校验和。datanode负责在收到数据后存储该数据及其校验和之前对数据进行验证。datanode的管线中最后一个datanode执行校验。HDFS存储着每一个数据块的复本,因此可以通过数据复本来修复锁坏的数据块。可以用hadoop的命令fs -checksum来检查一个文件的校验和,可用于检查HDFS中两个文件是否具有相同的内容...

2018-11-27 15:52:46 453

原创 Hadoop学习之Yarn

Yarn是Hadoop的集群资源管理系统,一些分布式计算框架(MapReduce,Spark等)作为Yarn应用运行在集群计算层(Yarn)和集群存储层(HDFS和HBase),而Pig,Hive等应用是运行在分布式计算框架之上。Yarn提供了三个调度器:FIFO调度器:队列,先进先出运行应用,不适合共享集群,小作业容易被大作业阻塞。容量调度器:一个独立的队列保证小作业一提交就可以启动...

2018-11-22 09:19:03 209

原创 HDFS文件系统的基本操作

从本地系统复制一个文件到HDFShadoop fs -copyFromLocal input/text.txt \ hdfs://localhost/user/saikikky/text.txt上述命令可以将本地的text.txt文件复制到运行在localhost上的HDFS实例中,且上面命令的hdfs://localhost可以省略读文件可以通过FileSystem API读...

2018-11-20 14:38:39 827

原创 再一次重新学习Python——Json

JSON如果我们要在不同的编程语言之间传递对象,就必须把对象序列化为标准格式,比如XML,但更好的方法是序列化为JSON,因为JSON表示出来就是一个字符串,可以被所有语言读取,也可以方便地存储到磁盘或者通过网络传输。JSON不仅是标准格式,并且比XML更快,而且可以直接在Web页面中读取,非常方便。JSON表示的对象就是标准的JavaScript语言的对象,JSON和Python内置的数...

2018-11-14 21:53:51 190

原创 再一次重新学习Python——错误、调试和测试

错误 一种用try...except...finally捕获错误并用raise抛出 调试 assert 断言凡是用print来辅助查看的地方,都可以用断言(assert)来替代:# err.pydef foo(s): n = int(s) assert n != 0, 'n is zero!' return 10 / ndef main()...

2018-11-14 21:53:40 201

原创 再一次重新学习Python——面向对象高级编程

给实例绑定一个方法:>>> def set_age(self, age): # 定义一个函数作为实例方法... self.age = age...>>> from types import MethodType>>> s.set_age = MethodType(set_age, s, Student) # 给实例绑定一个...

2018-11-14 21:53:33 228

原创 再一次重新学习Python——函数式编程

函数式编程 函数式编程的一个特点就是,允许把函数本身作为参数传入另一个函数,还允许返回一个函数! 高阶函数 既然变量可以指向函数,函数的参数能接收变量,那么一个函数就可以接收另一个函数作为参数,这种函数就是高阶函数。 map()和reduce() map()函数接收两个参数,一个是函数,一个是序列,map将传入的函数一次作用到序列的每个元素,并且把结果作为新的list返...

2018-11-14 21:53:25 215

原创 再一次重新学习Python——高级特性

切片 L[0:3]表示,从索引0开始取,直到索引3为止,但不包括索引3。即索引0,1,2,正好是3个元素。如果第一个索引是0,还可以省略。同样支持倒数切片>>> L = ['Michael', 'Sarah', 'Tracy', 'Bob', 'Jack']>>> L[-2:]['Bob', 'Jack']>>> L...

2018-11-14 21:53:15 176

原创 再一次重新学习Python——函数

数据类型转换 Python内置的常用函数还包括数据类型转换函数,比如int()函数可以把其他数据类型转换为整数:>>> int('123')123>>> int(12.34)12>>> float('12.34')12.34>>> str(1.23)'1.23'>>> u

2018-11-14 21:53:00 176

原创 再一次重新学习Python——Python语法基础

一、热身1、输出>>> print 'I','need','python'   中间加空格不会输出 碰到逗号就输出一个空格输出 I need python2、输入 raw_input函数,可以让用户输入并存放至变量中>>> name = raw_input()Saikikky直接输出变量name 也可以用print name语句 就可以书...

2018-11-14 21:52:48 361 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除