云计算/大数据
thriving_fcl

Spark Partition

partition是spark rdd计算的最小单元。为什么是最小单元?先从分布式说起,分布式计算的特点就是批处理,将大量的数据分成若干批次,使得利用廉价机器搭建的集群也可以完成海量数据的计算。大量的...
43
u014470784

第七节 hive的数据类型

1,基本数据类型 – tinyint smallint int bigint :整数类型 – float double :浮点数类型 – Boolean :布尔类型 – string :字符串...
50
u014470784

第六节 hiveshell的常用命令

1,hive的启动方式 (1)CLI(命令行)方式 –直接输入#/bin/hive的执行程序 –或者输入#hive –service cli (2)Web界面方式 (3)远程服务启动方式 ...
60
u014470784

第五节 hive的安装

1,hive的安装 apache所有项目的历史版本:archive.apache.org (1)hive基于Hadoop,要安装hive先要安装hadoop (2)安装模式 –嵌入模式 元数...
71
zhangyunfeixyz

hadoop入门(九)Mapreduce中的简单排序(手机流量排序)

需求: 对日志数据中的上下行流量信息汇总,并输出按照总流量倒序排序的结果 数据如下:电话号-上行流量-下行流量(下面是模拟的数据) 13823434356 20 30 15844021203 30 ...
59
qq_33968227

算法学习1-递归

递归: 一个函数调用其自身。不同名字空间上的循环。 注意:使用递归策略时,必须有一个明确的递归结束条件,否则递归将会无限进行下去。
34
cutter2002

python二进制协议结构信息分析

关键词:电路板,协议,二进制,逆向 协议设计的三要素,即协议语法,语义和时序。参考《协议规范挖掘综述》   1.         搜索固定字段,频繁序列 分割数据流,解决帧的定界问...
38
u014470784

第四节 HQL的执行过程

解析器、编译器、优化器完成HQL查询语句从词法分析、语法分析、编译、优化以及查询计划的生成。生成的查询计划存储在HDFS中,并在随后由Map Reduce调用执行
45
u014470784

第三节 hive之元数据

1,hive的元数据 hive将元数据存储在数据库中(metastore),支持MySQL、derby、oracle等数据库,默认是derby数据库2,什么是元数据 hive中的元...
45
u014470784

第二节 数据仓库简介

1,数据仓库 (1)数据仓库是一个面向主题的、集成的、不可更新的、随时间不变化的数据集合。他用于支持企业或组织的决策分析处理 [wikipedia]数据仓库是一种资讯系统的资料储存理论,此理论强调...
37
duan_zhihua img

011 复合函数的极限运算法则

011 复合函数的极限运算法则
125
liangzuojiayi

统计学简介之十三——两个总体参数的检验

统计学简介之十三——两个总体参数的检验
40
u014470784

第一节 hive简介

1,什么是hivehive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。 其优点是学...
42
deliciousion

ElasticSearch5.6.1配置文件elasticsearch.yml详解

本文主要是讲解ElasticSearch5.6.1的配置项。ElasticSearch5.6.1为目前该公司最新的产品,我们在搭建的过程中,一开始最重要的就是会配置elasticsearch.yml这...
47
qq_29003925

Python wordcloud之中文词云

词云算是社交数据分析必不可少的一项技能了吧。下面就从安装到生成词云整个过程详细做个介绍。
37
liangzuojiayi

统计学简介之十二——一个总体参数的检验

统计学简介之十二——一个总体参数的检验
51
duan_zhihua img

012 极限存在性质准则1之夹逼定理

012 极限存在性质准则1之夹逼定理
68
qq_16633405

Linux中的crontab详解

linux系统则是由 cron (crond) 这个系统服务来控制的。Linux 系统上面原本就有非常多的计划性工作,因此这个系统服务是默认启动的。另外, 由于使用者自己也可以设置计划任务,所以, L...
50
u013381011

异常处理try/raise/assert/with

异常处理try/raise/assert/with
26
Chengliangyao

Hadoop分布式集群 EclipseException in thread "main" org.apache.hadoop.mapreduce.lib.input.InvalidInputExce

最近使用Hadoop分布式集群,今天在Ubuntu上将Eclipse和Hadoop配置好了,然后运行一个去重的案例,我将输入文件传到了hdfs文件系统,但是过程中出现了Exception in thr...
29
liangzuojiayi

统计学简介之十一——假设检验定义

统计学简介之十一——假设检验定义
42
github_38885296

Win2k8&&vCenter部署全流程

几个不同的组件 vCenter Server:对ESXi主机进行集中管理的服务器端软件,安装在windows server 2008R2或以上的操作系统里,通过SQL 2008R2 或以上版本的数据...
72
quitozang

解决Consider increasing spark.rpc.message.maxSize

apache.spark.SparkException: Job aborted due to stage failure: Serialized task 32:5 was 204136673 by...
23
iamLIVING

Python list取并集

如题
31
AloneVivian

IDC(互联网数据中心)的认识

打个比方:互联网是高铁,那么我们就是高铁上的乘客,享受着互联网的高效与优质的服务。在这飞速发展的生活水平中,我们能在互联网中获得什么,那么又享受着什么?         十几年前,我们上网只是聊QQ...
60
qq_39678596

怎么用java操作MySQL数据库

用java操作MySQL数据库的前提必须安装好MySQL,eclipse,navicat 这三个软件以及连接数据的jar包。 第一步连接数据库时必须准确填写数据的地址和表名 public class ...
35
linshuhe1 img

Bandwagon 重装系统

引言:刚购买的 VPS 服务器默认安装了 CentOS 6.8 的系统,但是我之前用的操作系统都是 CentOS 7.0 和 Ubuntu 16.04 ,所以研究一下搬瓦工 VPS 如何重装系统的,目...
89
myg821561935

NameNode升级源码小析

公司升级集群升级hadoop版本的时候,为了更好的为升级提供安全保障,简单了解了一下hadoop的namenode升级源码,在此记录
33
myg821561935

Hive on tez的insert union 子目录的问题

hive tez insert union all问题 (1)问题描述 在hive中使用tez模式时,发现tez的输出结果在对应表目录中,生成了子目录,造成未配置tez的hive客户端对该表进行读...
29
wsong_14

HDFS数据安全性如何保证

HDFS数据安全性如何保证 1)、存储在HDFS系统上的文件,会分割成128M大小的block存储在不同的节点上,block的副本数默认3份,也可配置成更多份; 2)、第一个副本一般放置在...
268

必备
img python干货还有10秒到达!
讲师:Python资料

专家申请

img
杨尚伟

热爱技术 热爱分享

img
陈明

从事Android、Java Web开发4年,喜欢将新技术应用于实践并提高工作效率,有代码...

img
郑冬冬

厦门四信产品经理,无线传感网事业部技术负责人,负责LoRa、ZigBee等系列产品的开发工...

更多

官方博客

img博客搬家
img撰写博客
img专家申请
img意见反馈
img返回顶部