自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Deng0_huakai

IT 大数据

  • 博客(51)
  • 资源 (1)
  • 收藏
  • 关注

转载 hadoop源码编译及安装配置

文章目录前言编译所需要的环境条件安装依赖库上传软件...

2020-03-10 17:08:01 1013

转载 hadoop2.6.0-cdh5.7.0源码编译

一、说明直接使用的hadoop-2.6.0-cd...

2020-03-10 16:39:30 202

原创 win10+ python 3.6 + Anaconda+ 安装 opencv3.4.3解决gitbash无法使用pip安装OpenCV问题

gitbash无法使用pip(1)在网址(https://www.lfd.uci.edu/~gohlke/pythonlibs/#opencv)下载适合电脑配置版本的轮子:然后把它复制粘贴到这个文件夹:“C:\Users\Kevin\Anaconda3\Lib\site-packages”(2)在这个文件夹的空白处右键,打开 Git Bash命令行输入 “pip install open...

2019-11-25 13:25:08 543

转载 win10+Python3.6+anaconda+安装OpenCV3.4.3

[Deep learning 环境配置之一]win10 + python 3.6 + Anaconda+ 安装 opencv3.4.3:解决import cv2 问题OpenCV是一个图像处理的经典库,而且关键是一直在升级。为了在Python中调用opencv,特别是看到好多代码都是import cv2,而这个在python中是无法直接进行pip install安装的,也没办法用 conda ...

2019-11-25 13:06:53 735

原创 spark自定义注册函数

自定义函数的原因因为在一些情况下,sparksql里面自带的一些函数可能满足不了需求,而一些操作可能又需要多次去执行,比如对矿井下测出来的一些数据需要进行分离解析,得出具体的字段来存放到表里,那么如果频繁的使用spark的API进行多次的操作,代码也会很繁琐,这时候就可以考虑通过自定义注册函数,来解析数据,下面是简单的代码操作。 import org.apache.spark.sql.type...

2019-03-22 14:04:40 1512

原创 sparksql对于数据的读写操作

spark获取dataframe的三种方法将RDD转为dataframe1.方法一:使用反射的方式去推断RDD的schema信息,这种方法的前提是你已经知道了schema。具体的操作代码如下import org.apache.spark.sql.SparkSessionobject DFApp { def main(args: Array[String]): Unit = { ...

2019-03-22 12:39:50 405

原创 RDD的五大特性

RDD(Resilient Distributed Dataset)RDD是一个抽象类,它代表的是对不可变的分区元素的集合进行并行操作。A list of partitions一个RDD由几个分区构成。它是一个可分区的集合,那么它的好处就体现在,对于之前的普通不能进行分区的集合,数据就只能在一个节点上进行处理,而对于RDD来说,对集合进行分区,那么就可以把集合里面的元素存储在不同机器上处理。...

2019-02-02 23:37:56 307

原创 计数器的使用及脏数据的输出

输入文件内容如下:https://segmentfault.com/q/1010000000318379 [2018-1202:00] 50http://ruozedata.com/teacher.html 201802:00 65http://ruozedata.com/student.html 201802:00 56https://www.cnblogs.com/MOBIN/p/53...

2019-01-02 10:56:52 284

原创 Windows10-idea通过spark连接hive

步骤分析idea如果想通过spark连接hive,首先pom文件中需要添加hive,除此之外必须要把hive-site.xml放到idea的resources下面。hive-site.xml里面是配置的hive的元数据库地址,hdfs-site.xml、core-cite.xml可以选择是否放进去。Windows系统操作hadoop肯定会出现一个警告。找不到winutils.exe。这个警告一般...

2019-01-01 13:02:33 3535

原创 hive-对用户浏览网站的点击量按年月进行统计

点击量文件统计如下: 统计结果: 实现方法:1.上传Windows上面文件到/home/hadoop/data/xiongmaoTV.txt2.创建xiongmaoTV表,把/home/hadoop/data/xiongmaoTV.txt load 进去3.hive (default)> select * from xiongmaoTV;(确认已经创建好表)熊猫tv 20...

2018-12-31 21:28:21 2204 1

原创 spark on yarn-消除警告

spark on yarnlog-yarn.sh脚本export HADOOP_ROOT_LOGGER=DEBUG,consoleexport HADOOP_CONF_DIR=/home/hadoop/app/hadoop-2.6.0-cdh5.7.0/etc/hadoop$SPARK_HOME/bin/spark-submit \--master yarn \--class www....

2018-12-28 01:18:17 394

原创 spark on yarn cluster查看日志

spark on yarn cluster查看日志[hadoop@hadoop001 shell]$ yarn logs -applicationId application_1420997455428_000515/01/12 04:34:51 INFO client.RMProxy: Connecting to ResourceManager at /0.0.0.0:8032/tmp/l...

2018-12-25 18:21:23 2176

原创 spark on yarn

shell脚本log-yarn.sh如下:export HADOOP_CONF_DIR=/home/hadoop/app/hadoop-2.6.0-cdh5.7.0/etc/hadoop$SPARK_HOME/bin/spark-submit \--master yarn \--class www.ruozedata.bigdata.SparkCore02.LocalServeApp \...

2018-12-24 22:38:56 320

原创 存储格式

文件存储格式hive创建表的时候默认是textfile的文件格式hive.default.fileformat(该参数决定了hive创建表的存储格式)hive (default)> set hive.default.fileformat;hive.default.fileformat=TextFile(默认文本格式)hive (default)> create table t...

2018-12-21 11:14:07 413

原创 RDD算子实现文件统计

要求给出一个TXT文件,文件包含uri下面对应的访问量。求每个域名下面访问量最大的uri程序package www.ruozedata.bigdata.homeworkimport org.apache.spark.{SparkConf, SparkContext}object URIApp { def main(args: Array[String]): Unit = { ...

2018-12-20 21:44:51 328

原创 scala写入文件

用scala写入一个文件,并插入乱码字段import java.io.PrintWriterimport scala.collection.mutableimport scala.collection.mutable.ArrayBufferimport scala.util.Randomobject WriteApp { def main(args: Array[String])...

2018-12-17 09:29:31 1882

原创 idea+scala+scalike+jdbc

通过scalike,在idea上面对MySQL进行增删改查1. 配置maven工程的pom.xml<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.o...

2018-12-16 15:41:14 222

原创 scala-word count

wordcount法1import scala.io.Sourceobject wordcount { def main(args: Array[String]): Unit = { var m=Map.empty[String,Int] val file=Source.fromFile("C:/Users/HJ/Desktop/firstone.txt") for...

2018-12-16 15:23:56 200

原创 压缩在hive中的使用

用sqoop将数据从MySQL中以snappy压缩格式导入至hive中hive (default)> create table product_info_snappy as select *from product_info where 1=2; (在hive中创建一张表,结构与 product_info相同 。这张表在MySQL的ruozedata5数据库下面。)[hadoop@ha...

2018-12-05 20:15:34 270

原创 对hadoop源码进行编译

hadoop编译前期准备软件需要软件安装安装maven安装ProtocolBuffer 2.5.0安装其他依赖包对hadoop进行编译前期准备软件需要部署JAVA环境安装maven安装Protocol Buffer 2.5.0安装Findbugs(可选)软件安装安装maven下载解压maven的安装包[hadoop@hadoop001 software]$ pwd/h...

2018-11-30 22:12:52 4351

原创 hadoop集群搭建3之集群启动

前面集群已经成功搭建,现在来尝试启动集群。第一次系统启动的时候,是需要初始化的启动zookeeper1.启动zookeeper的命令:./zkServer.sh start|stop|status[hadoop@hadoop001 ~]$3 zkServer.sh start (脚本已经被配置在路径下面了,所以不用再到zookeeper的bin目录下面执行)JMX enabled by d...

2018-11-29 09:47:58 911

原创 hadoop集群搭建2

java的部署[hadoop@hadoop001 software]$3代表小窗口中同时将命令行输入到三台机器上,[hadoop@hadoop001 software]$1代表将命令行输入到当前机器上1.解压jdk包放到/usr/java里面[root@hadoop001 ~]#3 su - hadoop[hadoop@hadoop001 ~]$3 cd software[hadoop@...

2018-11-27 22:27:13 152

原创 集群搭建1之前期准备

软件版本准备1.hadoop-2.6.0-cdh5.7.0.tar.gz2.jdk-8u45-linux-x64.gz3.zookeeper-3.4.6.tar.gz建立hadoop用户上传软件1.在/home/hadoop(也就是hadoop用户的家目录下面)建立几个文件夹用于存放数据[hadoop@hadoop001 software]$3 mkdir app software d...

2018-11-27 11:20:25 326

原创 Hadoop 集群之HDFS HA、Yarn HA

部署集群的原因如果我们采用单点的伪分布式部署,那么NN节点挂了,就不能对外提供服务。集群的话,存在两个NN节点,一个挂了,另外一个从standby模式直接切换到active状态,实时对外提供服务(读写)。在生产上,避免出现对外服务中断的情况,所以会考虑采用集群部署。HDFS HA (High availability)单点式伪分布:NNSNN secondary 1小时checkpoin...

2018-11-25 16:32:37 346

原创 Hive -分区表

1.创建一个分区表hive (default)> create table order_partition(orderNumber string,event_time string)PARTITIONED BY(event_month string) row format delimited fields terminated by '\t';2.把TXT文本上传至分区表中hive ...

2018-11-25 13:28:50 243

原创 Hive -分区表

1.创建一个分区表hive (default)> create table order_partition(orderNumber string,event_time string)PARTITIONED BY(event_month string) row format delimited fields terminated by '\t';2.把TXT文本上传至分区表中hive ...

2018-11-21 14:53:39 207

原创 Hive -函数

聚合函数 max min sum avg count (对于这种聚合函数就会运行Map Reduce)hive (default)> select count(1) from ruoze_emp where deptno=10;(查询部门编号为10的人的数量)hive (default)> select max(sal) min(sal) avg(sal) sum...

2018-11-21 13:49:56 146

原创 Hive DML

Hive是构建在Hadoop之上的数据仓库DML : Data Manipulation Language (数据管理语言)LOAD DATA [LOCAL] INPATH 'filepath' [OVERWRITE] INTO TABLE tablename [PARTITION (partcol1=val1, partcol2=val2 ...)]创建ruoze_dept表crea...

2018-11-21 12:10:16 154

原创 Hive DDL-表

Hive构建在Hadoop之上,hive创建表,然后数据是存储在HDFS之上 ,hdfs上面就是普通的文本,它的每个字段是采用分割符进行分割,也就是txt文档,而表里面是对应的信息类别,我们需要把它们进行对应

2018-11-21 10:05:27 147

原创 Hive DDL -数据库

DDL全称及简介DDL: Data Definition Language https://cwiki.apache.org/confluence/display/Hive以create delete drop alter关键字开头的。1.Database是HDFS上的一个文件夹,hive默认自带一个default数据库,默认数据库存放位置:/user/hive/warehouse[h...

2018-11-21 08:59:46 249

原创 Hive的部署

版本下载下载网站如下:下载、解压、配置环境变量、配置文件的相关参数[hadoop@hadoop001 hadoop]$ cd /home/hadoop/app[hadoop@hadoop001 app]$ wget http://archive-primary.cloudera.com/cdh5/cdh/5/hive-1.1.0-cdh5.7.0.tar.gz[hadoop@hadoo...

2018-11-20 21:48:12 123

原创 Hive 的发展历程

Hive的产生背景1.MapReduce编程不方便:开发、测试、需求变更。传统关系型数据库人员的需要。Hive文件存放在HDFS之上的,那么如果你想使用SQL去处理它,需要一个前提:结构化、文件映射成表格 => Schema 元数据信息(metastore)。Hive是:data warehouse software (数据仓库软件)hive就是使用SQL对分布式文件系统上的存储的大的...

2018-11-20 21:04:18 4808 1

原创 yarn的调优

yarn的架构设计yarn采用的是主从结构设计,hdfs也是一样容器(container)的概念Container(容器)是Yarn的资源的抽象(是一种虚拟的概念),封装了某个节点的多维度资源,如内存 cpu,磁盘,网络。1014 需要再看一遍视频...

2018-11-20 20:47:25 168

原创 yarn的常用命令

一般都用yarn 或者hadoop 很少用mapred[hadoop@hadoop001 hadoop-2.6.0-cdh5.7.0]$ yarn (查看yarn的命令帮助)[hadoop@hadoop001 hadoop-2.6.0-cdh5.7.0]$ find ./ -name “example.jar” (在当前目录下搜索jar的案例程序)[hadoop@hadoop001 ha...

2018-11-12 21:29:16 595

原创 shufflle

map—》 shuffle —》reduce (shuffle就是把相同的k放在一起,便于后面的reduce进行计算) 就是把相同的key通过网络io放到一起,进行后面的业务计算

2018-11-12 21:17:18 138

原创 MapReduce job提交到Yarn的工作流程

MR JOB提交到Yarn的工作流程Yarn的架构设计Yarn的工作流程(属于同种说法)工作流程图:用户向Yarn的RM提交应用程序,其中包括ApplicationMaster程序(应用程序的主程序),启动ApplicationMaster命令等RM首先为该app程序分配第一个container容器,并与对应的NM通信,要求NM在这个Container中启动应用程序的applicatio...

2018-11-12 20:55:27 1144 1

原创 hdfs回收站的开启

rm -rf /xxxx 属于高危命令 Linux没有回收站hdfs可以开启回收站。开启方法:通过配置[hadoop@hadoop001 hadoop-2.6.0-cdh5.7.0]cd/etc/hadoop下的core−site.xml文件,参照官网,fs.trash.checkpoint.interval参数对应的值为0时就是禁用回收站,默认就是禁用。将其设置为1440就代表1天,即保留...

2018-11-12 17:34:55 775

原创 hdfs 的三个节点的pid文件分析

pid文件默认存储在/tmp目录下pid内容就是进程号[hadoop@hadoop001 tmp]$ cat hadoop-hadoop-datanode.pid9144修改/home/hadoop/app/hadoop-2.6.0-cdh5.7.0/etc/hadoop文件夹下的hadoop-env.sh文件里面的参数。export HADOOP_PID_DIR=${HADOOP_PI...

2018-11-12 17:15:23 213

原创 HDFS常用命令

[hadoop@hadoop002 hadoop-2.6.0-cdh5.7.0]$ hdfs dfs -ls /hdfs dfs -put a.txt / (上传,把a.txt文件上传到hdfs的根目录/ 下)hdfs dfs -get /a.txt ./ (下载,把hdfs根目录下的a.txt下载到当前目录)hdfs dfs -copyFromLocal a.txt /(上传...

2018-11-12 16:45:30 345

原创 hdfs操作命令的权限问题

权限报错问题[root@hadoop002 hadoop-2.6.0-cdh5.7.0]# bin/hdfs dfs -put README.txt /ruozedata (当不在hadoop用户下的时候,就要严格在其bin目录下执行hdfs的命令)put: Permission denied: user=root, access=WRITE,inode="/ruozedata":ha...

2018-11-12 16:30:36 1067

hadoop集群的配置文件

该文件是hadoop集群配置所需要的一些.xml文件,是修改好之后的配置文件,配置参数里做了相关的解释说明

2018-11-29

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除