自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

大数据爱好者

大数据

  • 博客(13)
  • 收藏
  • 关注

原创 JDK1.8 Linux ,Mac , Windows 版本下载

JDK1.8 下载Linux : 1.8 版本windows: 1.8版本Mac: 1.8版本,11.0版本 12.0 版本链接:https://pan.baidu.com/s/1mAEA-pn_o0D4a9JCKmXSdg 密码:zl8u

2019-11-22 15:12:40 473

原创 git 分支合并

项目新添加代码,首先git add .git commit -m "更新备注"git push -u origin dev注释:git push 如果当前分支与多个主机存在追踪关系,那么这个时候-u选项会指定一个默认主机,这样后面就可以不加任何参数使用git push。git push -u origin master 上面命令将本地的master分支推送...

2019-11-11 10:07:20 217

原创 org.apache.spark.shuffle.MetadataFetchFailedException: Missing an output location for shuffle 13

org.apache.spark.shuffle.MetadataFetchFailedException: Missing an output location for shuffle 13原因shuffle分为shuffle write和shuffle read两部分。shuffle write的分区数由上一阶段的RDD分区数控制,shuffle read的分区数则是由Spa...

2019-11-05 10:09:08 2754

原创 spark 自定义标准差UDAF

需求是将hive 代码转成spark 代码时 , 需要标准差实现的方式不同 ,hive最后是 /n , spark 的是/n-1 , 因此需要自定义标准差的UDAF , 以下是代码 ,有的判断异常值得情况没做处理 ,可以自行处理 ,因为本人在上游数据源已经做了一次处理,确保了数据的格式不会出现异import org.apache.commons.lang.StringUtils;imp...

2019-09-12 10:04:00 470

原创 impala 的笔记

#############################################################################impala 的简介Cloudera 公司推出 , 提供对HDFS , Hbase 数据的高性能 , 低延迟的交互SQL 查询功能Impala没有再使用缓慢的Hive+MapReduce批处理,而是通过使用与商用并行关系数据库中类似的...

2019-05-27 20:19:21 575

原创 CentOS7使用 firewalld 打开关闭防火墙与端口

1、firewalld的基本使用启动: systemctl start firewalld关闭: systemctl stop firewalld查看状态: systemctl status firewalld开机禁用 : systemctl disable firewalld开机启用 :systemctl enable firewalld2.systemct...

2019-05-18 17:43:55 800

原创 Centos7 Firewalld 解决防火墙问题

[root@test ~]# systemctl stop firewalld.serviceFailed to stop firewalld.service: Unit firewalld.service not loaded.[root@test ~]# systemctl disable firewalld.serviceFailed to execute operation: Acc...

2019-05-18 16:44:13 6914

原创 CentOS 国内开源镜像网站

CentOS 7官方下载地址:https://www.centos.org/download/Centos国内下载源http://man.linuxde.net/download/CentOShttp://mirrors.cn99.com/centos/http://mirrors.sohu.com/centos/7/isos/x86_64/...

2019-05-15 15:19:08 2919

原创 3.eclipse 查看 hdfs 的插件

HDFS 的 的 Java API 操作hdfs 在生产应用中主要是客户端的开发,其核心步骤是从 hdfs 提供的 api 中构造一个 HDFS的访问客户端对象,然后通过该客户端对象操作(增删改查)HDFS 上的文件一、用 利用 eclipse 查看 hdfs 集群的文件信息1、 下载一个 eclipse 开发工具 eclipse-jee-luna-SR1-win32-x86...

2019-04-23 00:15:57 256

原创 2.hdfs 的命令

hadoop fs === hdfs dfshadoop namenode -formathdfs namenode -formathdfs dfsadmin -printTology查看hdfs 的机架信息hdfs dfsadmin report查看整个集群相关信息的报告(各个信息是心跳机制发送过来的)hdfs dfsadmin -safemode get查...

2019-04-23 00:14:30 128

原创 1.HDFS 笔记

一,HDFS 前言HDFS:Hadoop Distributed File System Hadoop 分布式文件系统,主要用来解决海量数据的存储问题1、 设计思想分而治之:将大文件,大批量文件,分布式的存放于大量服务器上。以便于采取分而治之的方式对海量数据进行运算分析要把存入进HDFS集群的所有的数据要尽量均匀的分散在整个集群中如果有100G 的数据①集群有100个节...

2019-04-23 00:13:53 274

原创 2. hadoop 的笔记

一,集群的初步使用1.Hadoop 集群启动DFS 集群启动:sbin/start-dfs.shDFS 集群关闭:sbin/stop-dfs.shYARN 集群启动:sbin/start-yarn.shYARN 集群启动:sbin/stop-yarn.sh2.HDFS 初步使用查看集群文件:hadoop fs -ls /上传文件:hadoop fs -p...

2019-04-23 00:12:51 175

原创 1.hadoop 的需求原因

1.数据的大小数据量最小的基本单位是 bit,按顺序给出所有单位:bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB1 Byte =8 bit 1 KB = 1,024 Bytes = 8192 bit 1 MB = 1,024 KB = 1,048,576 Bytes (普通用户数据级别) 1 GB = 1,024 MB = 1,048,576 ...

2019-04-23 00:12:01 1197

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除