Deng_huakai-CSDN博客

转载 hadoop源码编译及安装配置

文章目录前言编译所需要的环境条件安装依赖库上传软件...

2020-03-10 17:08:01 1013

转载 hadoop2.6.0-cdh5.7.0源码编译

一、说明直接使用的hadoop-2.6.0-cd...

2020-03-10 16:39:30 202

原创 win10+ python 3.6 + Anaconda+ 安装 opencv3.4.3解决gitbash无法使用pip安装OpenCV问题

gitbash无法使用pip（1）在网址(https://www.lfd.uci.edu/~gohlke/pythonlibs/#opencv)下载适合电脑配置版本的轮子：然后把它复制粘贴到这个文件夹：“C:\Users\Kevin\Anaconda3\Lib\site-packages”（2）在这个文件夹的空白处右键，打开 Git Bash命令行输入 “pip install open...

2019-11-25 13:25:08 543

转载 win10+Python3.6+anaconda+安装OpenCV3.4.3

[Deep learning 环境配置之一]win10 + python 3.6 + Anaconda+ 安装 opencv3.4.3：解决import cv2 问题OpenCV是一个图像处理的经典库,而且关键是一直在升级。为了在Python中调用opencv,特别是看到好多代码都是import cv2,而这个在python中是无法直接进行pip install安装的，也没办法用 conda ...

2019-11-25 13:06:53 735

原创 spark自定义注册函数

自定义函数的原因因为在一些情况下，sparksql里面自带的一些函数可能满足不了需求，而一些操作可能又需要多次去执行，比如对矿井下测出来的一些数据需要进行分离解析，得出具体的字段来存放到表里，那么如果频繁的使用spark的API进行多次的操作，代码也会很繁琐，这时候就可以考虑通过自定义注册函数，来解析数据，下面是简单的代码操作。 import org.apache.spark.sql.type...

2019-03-22 14:04:40 1512

原创 sparksql对于数据的读写操作

spark获取dataframe的三种方法将RDD转为dataframe1.方法一：使用反射的方式去推断RDD的schema信息，这种方法的前提是你已经知道了schema。具体的操作代码如下import org.apache.spark.sql.SparkSessionobject DFApp { def main(args: Array[String]): Unit = { ...

2019-03-22 12:39:50 405

原创 RDD的五大特性

RDD(Resilient Distributed Dataset)RDD是一个抽象类，它代表的是对不可变的分区元素的集合进行并行操作。A list of partitions一个RDD由几个分区构成。它是一个可分区的集合，那么它的好处就体现在，对于之前的普通不能进行分区的集合，数据就只能在一个节点上进行处理，而对于RDD来说，对集合进行分区，那么就可以把集合里面的元素存储在不同机器上处理。...

2019-02-02 23:37:56 307

原创计数器的使用及脏数据的输出

输入文件内容如下：https://segmentfault.com/q/1010000000318379 [2018-1202:00] 50http://ruozedata.com/teacher.html 201802:00 65http://ruozedata.com/student.html 201802:00 56https://www.cnblogs.com/MOBIN/p/53...

2019-01-02 10:56:52 284

原创 Windows10-idea通过spark连接hive

步骤分析idea如果想通过spark连接hive，首先pom文件中需要添加hive，除此之外必须要把hive-site.xml放到idea的resources下面。hive-site.xml里面是配置的hive的元数据库地址，hdfs-site.xml、core-cite.xml可以选择是否放进去。Windows系统操作hadoop肯定会出现一个警告。找不到winutils.exe。这个警告一般...

2019-01-01 13:02:33 3535

原创 hive-对用户浏览网站的点击量按年月进行统计

点击量文件统计如下：统计结果：实现方法：1.上传Windows上面文件到/home/hadoop/data/xiongmaoTV.txt2.创建xiongmaoTV表，把/home/hadoop/data/xiongmaoTV.txt load 进去3.hive (default)&gt; select * from xiongmaoTV;（确认已经创建好表）熊猫tv 20...

2018-12-31 21:28:21 2204 1

原创 spark on yarn-消除警告

spark on yarnlog-yarn.sh脚本export HADOOP_ROOT_LOGGER=DEBUG,consoleexport HADOOP_CONF_DIR=/home/hadoop/app/hadoop-2.6.0-cdh5.7.0/etc/hadoop$SPARK_HOME/bin/spark-submit \--master yarn \--class www....

2018-12-28 01:18:17 394

原创 spark on yarn cluster查看日志

spark on yarn cluster查看日志[hadoop@hadoop001 shell]$ yarn logs -applicationId application_1420997455428_000515/01/12 04:34:51 INFO client.RMProxy: Connecting to ResourceManager at /0.0.0.0:8032/tmp/l...

2018-12-25 18:21:23 2176

原创 spark on yarn

shell脚本log-yarn.sh如下：export HADOOP_CONF_DIR=/home/hadoop/app/hadoop-2.6.0-cdh5.7.0/etc/hadoop$SPARK_HOME/bin/spark-submit \--master yarn \--class www.ruozedata.bigdata.SparkCore02.LocalServeApp \...

2018-12-24 22:38:56 320

原创存储格式

文件存储格式hive创建表的时候默认是textfile的文件格式hive.default.fileformat（该参数决定了hive创建表的存储格式）hive (default)> set hive.default.fileformat;hive.default.fileformat=TextFile(默认文本格式)hive (default)> create table t...

2018-12-21 11:14:07 413

原创 RDD算子实现文件统计

要求给出一个TXT文件，文件包含uri下面对应的访问量。求每个域名下面访问量最大的uri程序package www.ruozedata.bigdata.homeworkimport org.apache.spark.{SparkConf, SparkContext}object URIApp { def main(args: Array[String]): Unit = { ...

2018-12-20 21:44:51 328

原创 scala写入文件

用scala写入一个文件，并插入乱码字段import java.io.PrintWriterimport scala.collection.mutableimport scala.collection.mutable.ArrayBufferimport scala.util.Randomobject WriteApp { def main(args: Array[String])...

2018-12-17 09:29:31 1882

原创 idea+scala+scalike+jdbc

通过scalike，在idea上面对MySQL进行增删改查1. 配置maven工程的pom.xml<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.o...

2018-12-16 15:41:14 222

原创 scala-word count

wordcount法1import scala.io.Sourceobject wordcount { def main(args: Array[String]): Unit = { var m=Map.empty[String,Int] val file=Source.fromFile(&quot;C:/Users/HJ/Desktop/firstone.txt&quot;) for...

2018-12-16 15:23:56 200

原创压缩在hive中的使用

用sqoop将数据从MySQL中以snappy压缩格式导入至hive中hive (default)&amp;amp;amp;gt; create table product_info_snappy as select *from product_info where 1=2; （在hive中创建一张表，结构与 product_info相同。这张表在MySQL的ruozedata5数据库下面。）[hadoop@ha...

2018-12-05 20:15:34 270

原创对hadoop源码进行编译

hadoop编译前期准备软件需要软件安装安装maven安装ProtocolBuffer 2.5.0安装其他依赖包对hadoop进行编译前期准备软件需要部署JAVA环境安装maven安装Protocol Buffer 2.5.0安装Findbugs（可选）软件安装安装maven下载解压maven的安装包[hadoop@hadoop001 software]$ pwd/h...

2018-11-30 22:12:52 4351

原创 hadoop集群搭建3之集群启动

前面集群已经成功搭建，现在来尝试启动集群。第一次系统启动的时候，是需要初始化的启动zookeeper1.启动zookeeper的命令：./zkServer.sh start|stop|status[hadoop@hadoop001 ~]$3 zkServer.sh start (脚本已经被配置在路径下面了，所以不用再到zookeeper的bin目录下面执行）JMX enabled by d...

2018-11-29 09:47:58 911

原创 hadoop集群搭建2

java的部署[hadoop@hadoop001 software]$3代表小窗口中同时将命令行输入到三台机器上，[hadoop@hadoop001 software]$1代表将命令行输入到当前机器上1.解压jdk包放到/usr/java里面[root@hadoop001 ~]#3 su - hadoop[hadoop@hadoop001 ~]$3 cd software[hadoop@...

2018-11-27 22:27:13 152

原创集群搭建1之前期准备

软件版本准备1.hadoop-2.6.0-cdh5.7.0.tar.gz2.jdk-8u45-linux-x64.gz3.zookeeper-3.4.6.tar.gz建立hadoop用户上传软件1.在/home/hadoop（也就是hadoop用户的家目录下面）建立几个文件夹用于存放数据[hadoop@hadoop001 software]$3 mkdir app software d...

2018-11-27 11:20:25 326

原创 Hadoop 集群之HDFS HA、Yarn HA

部署集群的原因如果我们采用单点的伪分布式部署，那么NN节点挂了，就不能对外提供服务。集群的话，存在两个NN节点，一个挂了，另外一个从standby模式直接切换到active状态，实时对外提供服务（读写）。在生产上，避免出现对外服务中断的情况，所以会考虑采用集群部署。HDFS HA (High availability)单点式伪分布：NNSNN secondary 1小时checkpoin...

2018-11-25 16:32:37 346

原创 Hive -分区表

1.创建一个分区表hive (default)> create table order_partition(orderNumber string,event_time string)PARTITIONED BY(event_month string) row format delimited fields terminated by '\t';2.把TXT文本上传至分区表中hive ...

2018-11-25 13:28:50 243

原创 Hive -分区表

1.创建一个分区表hive (default)> create table order_partition(orderNumber string,event_time string)PARTITIONED BY(event_month string) row format delimited fields terminated by '\t';2.把TXT文本上传至分区表中hive ...

2018-11-21 14:53:39 207

原创 Hive -函数

聚合函数 max min sum avg count （对于这种聚合函数就会运行Map Reduce）hive (default)> select count(1) from ruoze_emp where deptno=10;（查询部门编号为10的人的数量）hive (default)> select max(sal) min(sal) avg(sal) sum...

2018-11-21 13:49:56 146

原创 Hive DML

Hive是构建在Hadoop之上的数据仓库DML : Data Manipulation Language （数据管理语言）LOAD DATA [LOCAL] INPATH 'filepath' [OVERWRITE] INTO TABLE tablename [PARTITION (partcol1=val1, partcol2=val2 ...)]创建ruoze_dept表crea...

2018-11-21 12:10:16 154

原创 Hive DDL-表

Hive构建在Hadoop之上，hive创建表，然后数据是存储在HDFS之上，hdfs上面就是普通的文本，它的每个字段是采用分割符进行分割，也就是txt文档，而表里面是对应的信息类别，我们需要把它们进行对应

2018-11-21 10:05:27 147

原创 Hive DDL -数据库

DDL全称及简介DDL: Data Definition Language https://cwiki.apache.org/confluence/display/Hive以create delete drop alter关键字开头的。1.Database是HDFS上的一个文件夹，hive默认自带一个default数据库，默认数据库存放位置：/user/hive/warehouse[h...

2018-11-21 08:59:46 249

原创 Hive的部署

版本下载下载网站如下：下载、解压、配置环境变量、配置文件的相关参数[hadoop@hadoop001 hadoop]$ cd /home/hadoop/app[hadoop@hadoop001 app]$ wget http://archive-primary.cloudera.com/cdh5/cdh/5/hive-1.1.0-cdh5.7.0.tar.gz[hadoop@hadoo...

2018-11-20 21:48:12 123

原创 Hive 的发展历程

Hive的产生背景1.MapReduce编程不方便：开发、测试、需求变更。传统关系型数据库人员的需要。Hive文件存放在HDFS之上的，那么如果你想使用SQL去处理它，需要一个前提：结构化、文件映射成表格 => Schema 元数据信息(metastore)。Hive是：data warehouse software （数据仓库软件）hive就是使用SQL对分布式文件系统上的存储的大的...

2018-11-20 21:04:18 4808 1

原创 yarn的调优

yarn的架构设计yarn采用的是主从结构设计，hdfs也是一样容器（container）的概念Container(容器)是Yarn的资源的抽象（是一种虚拟的概念），封装了某个节点的多维度资源,如内存 cpu，磁盘，网络。1014 需要再看一遍视频...

2018-11-20 20:47:25 168

原创 yarn的常用命令

一般都用yarn 或者hadoop 很少用mapred[hadoop@hadoop001 hadoop-2.6.0-cdh5.7.0]$ yarn （查看yarn的命令帮助）[hadoop@hadoop001 hadoop-2.6.0-cdh5.7.0]$ find ./ -name “example.jar” （在当前目录下搜索jar的案例程序）[hadoop@hadoop001 ha...

2018-11-12 21:29:16 595

原创 shufflle

map—》 shuffle —》reduce (shuffle就是把相同的k放在一起，便于后面的reduce进行计算) 就是把相同的key通过网络io放到一起，进行后面的业务计算

2018-11-12 21:17:18 138

原创 MapReduce job提交到Yarn的工作流程

MR JOB提交到Yarn的工作流程Yarn的架构设计Yarn的工作流程（属于同种说法）工作流程图：用户向Yarn的RM提交应用程序，其中包括ApplicationMaster程序（应用程序的主程序），启动ApplicationMaster命令等RM首先为该app程序分配第一个container容器，并与对应的NM通信，要求NM在这个Container中启动应用程序的applicatio...

2018-11-12 20:55:27 1144 1

原创 hdfs回收站的开启

rm -rf /xxxx 属于高危命令 Linux没有回收站hdfs可以开启回收站。开启方法：通过配置[hadoop@hadoop001 hadoop-2.6.0-cdh5.7.0]cd/etc/hadoop下的core−site.xml文件，参照官网，fs.trash.checkpoint.interval参数对应的值为0时就是禁用回收站，默认就是禁用。将其设置为1440就代表1天，即保留...

2018-11-12 17:34:55 775

原创 hdfs 的三个节点的pid文件分析

pid文件默认存储在/tmp目录下pid内容就是进程号[hadoop@hadoop001 tmp]$ cat hadoop-hadoop-datanode.pid9144修改/home/hadoop/app/hadoop-2.6.0-cdh5.7.0/etc/hadoop文件夹下的hadoop-env.sh文件里面的参数。export HADOOP_PID_DIR=${HADOOP_PI...

2018-11-12 17:15:23 213

原创 HDFS常用命令

[hadoop@hadoop002 hadoop-2.6.0-cdh5.7.0]$ hdfs dfs -ls /hdfs dfs -put a.txt / （上传，把a.txt文件上传到hdfs的根目录/ 下）hdfs dfs -get /a.txt ./ （下载，把hdfs根目录下的a.txt下载到当前目录）hdfs dfs -copyFromLocal a.txt /（上传...

2018-11-12 16:45:30 345

原创 hdfs操作命令的权限问题

权限报错问题[root@hadoop002 hadoop-2.6.0-cdh5.7.0]# bin/hdfs dfs -put README.txt /ruozedata (当不在hadoop用户下的时候，就要严格在其bin目录下执行hdfs的命令)put: Permission denied: user=root, access=WRITE,inode="/ruozedata":ha...

2018-11-12 16:30:36 1067

hadoop集群的配置文件

空空如也