2018年10月_豆豆总

原创大数据开发之Sqoop篇----将数据导入到hive里面时遇到的一个坑

我们之前都是使用sqoop把RBDMS的数据导入到HDFS里面，但并没有在hive里面同时构建表，现在我们需要将数据导入HDFS里面的同时为这批数据在hive里面构建表结构一般我们使用的命令：sqoop import --connect url --username root -P --table mysql里面的一个表(你也可以使用-e来给予SQL语句) --create-hive-...

2018-10-31 17:56:15 4377

原创大数据开发之Sqoop篇----sqoop export

sqoop export是指将HDFS上的数据导出到RDBMS上，而在RDBMS上目标表要已经存在了。输入格式一般是：sqoop export command args / sqoop-export command args一般的参数(这里我只列出一些我们一定要用的参数，其余的可根据各自的业务场景来挑选)：--connect 用于输入你要连接的数据库url以及相关数据的驱动标示，例如...

2018-10-31 11:09:34 11832

原创每天汇总----10.31

1.hadoop广义狭义广义上是指Hadoop生态圈内的所有组件，狭义是HDFS，YARN，MAPREDUCE2.hdfs哪三个进程 NameNode，DataNode，SecondaryNameNode3.yarn哪两个进程 ResourceManager，NodeManager4.hdfs yarn默认web界面端口号 HDFS 50070 YARN 8088...

2018-10-31 09:54:53 123

原创记一次简单的关于sqoop和hive使用的小项目

这里先给出需求：统计每个区域下最受欢迎的产品TOP3，现有三张已经过简单清洗的数据表。目标表的所需字段：product_id，product_name，product_status，area，click_count，rank，grade，day字段意思：产品编号，产品名称，产品状态，区域，点击量，排名，等级，天数。而我们手头上有一张产品数据表，区域信息表和一张用户日志表，前两张表存...

2018-10-30 17:28:41 657

原创每天汇总----10.30

1.简述mysql部署过程检查java是否安装，没有的话，先安装，有的话，检查mysql是否安装，没有安装，下载压缩包，解压，查看文件权限，根据机器的实际情况修改mysql配置文件的内容，判断相应的用户是否存在，不存在，创建，如果存在，修改文件的权限，然后安装数据库，安装完成之后，进入数据库，修改密码，将没有密码的用户删除，退出，使用密码登录。2.mysql哪些数据类型 int...

2018-10-30 09:37:51 83

在大数据领域里面我们一直都是使用Hadoop来处理和存储数据的，但是有的时候我们需要将处理完的数据返回给前端UI来展示给我们的用户，但是如果让前端直接来访问我们的hdfs来拉取数据的话，这效率真的不敢想象。所以我们需要将我用Hadoop/Spark处理完的数据重新放置回RBDMS里面去，那么怎么将HDFS上面的数据传输回RBDMS上面呢？难道每次都先get到本地然后再写入数据库里面？这个时候肯定有...

2018-10-29 19:43:07 627

原创每天汇总----10.29

1.查看当前目录命令 pwd2.创建级联目录 mkdir -p3.切换目录命令 cd4.切换上一层目录和上一次 cd .. cd -5.切换到家目录 cd cd ~6.ls -l等价于什么 ll7.隐藏文件或文件夹什么标识开始，怎样查看以 . 开头的文件和文件夹，使用命令ll -a8.查看文件夹大小哪个命令 du -sh9.查...

2018-10-29 10:48:28 110

原创每天汇总----10.26

1.我们学习的是sqoop1 ，那么导入导出，是MySQL到hive，是导出吗导入，以hadoop为中心点，进hadoop的是导入，出hadoop的是导出2.sqoop导入到hive，能够根据写SQL来导吗可以在使用sqoop import 时添加参数 -e SQL3.hive内部表和外部表什么区别内部表由hive管理，删除表时，元数据和HDFS目录一并删除；...

2018-10-26 09:54:55 136

原创大数据开发之Hive篇----DML以及分区表构建

上篇我们介绍了DDL中的两种操作，今天我们来继续了解DML的一些操作DML(Database Manipulation Language):导入数据基本版：load data [local] inpath 'filepath' [overwrite] into table tab_name这个是导入数据的基本版，其中当添加上关键字local时是从本地文件路径中导入数据的，如果没有加上上lo...

2018-10-24 17:38:55 273

原创大数据开发之hive篇----DDL建库和建表

首先，我们在介绍DDL之前，先让我们来了解一下hive的那些database，table，partition，bucket在hdfs上面是怎么样展示的。这四个里面前三个在hdfs上面都是文件夹，而具体的数据就是存储在文件里面的，所以当我们添加数据进去的时候实际上就是往这个表所代表的文件夹里面添加文件。另外，我们也知道，在hive刚搭建好的时候里面就有一个默认的数据库了default，它在hdf...

2018-10-23 20:42:48 1377

原创每天汇总----10.23

1.tar解压和压缩参数是什么 tar -xzvf tar -czvf2.tar解压后，我们要习惯注意什么用户和用户组3.如何配置一个普通用户为sudo权限的无密码的在/etc/sudoers这个文件当中输入 username ALL=(root) NOPASSWD:ALL4.su - jepson 你们认为这句话做了哪些首先是切换到这个用户...

2018-10-23 09:39:28 124

原创每天汇总----10.22

1.查看当前目录是什么命令 pwd2.切换到上一次和上一层目录 cd - cd ../3.创建目录命令，连续目录的参数 mkdir -p4.mv和cp什么区别剪切和复制5.vi哪三种模式命令行编辑尾行6.简述你们知道的vi快捷键有哪些 gg去到首行首字符 G去到尾行首字符 dG删除当前行及后所有行 dd删除当行 ndd删除当前在内的n行，shif...

2018-10-22 09:21:48 124 1

原创每天汇总----10.19

1.当前目录命令是什么 pwd2.什么是叫绝对路径什么是相对路径绝对路径是从根目录下开始的，而相对路径是从当前目录开始的3.切换目录，那么切换到上一次和上一层目录命令是什么 cd - cd ..4.文件夹创建命令和及联创建的命令参数 mkdir mkdir -p5.说说你们认为创建文件的哪些命令 vi touch echo > cp mv6.那么...

2018-10-19 10:10:41 105

原创大数据开发之Hive篇----部署Hive

既然我们要安装部署hive，那么首先我们要下载一个hive的压缩包吧，这个我们统一使用cdh5.7.0版本的，因为我们的hadoop是cdh5.7.0版本的，当我们在是用这些apache组件时请大家务必将后面的尾号对其，都是使用cdh的版本。我们使用的是hive-1.1.0-cdh5.7.0.tar.gz这个包，需要的可以向我要(毕竟下载实在太慢了，国外的源)，qq：340518941。然...

2018-10-18 15:47:33 290

原创大数据开发之Hive篇----初始hive及hadoop简单回顾

我们先简单回顾一下hadoop：a，Hadoop是什么：海量数据分布式的存储和计算框架。其中数据的存储是hdfs(Hadoop Distributed File System)，而计算是yarn/mapreduce。b，Hadoop的访问方式：shell，Java API，Web UI(50070端口)，HUEc，我们得出的结论：使用MapReduce来处理HDFS文件系统上的数据--...

2018-10-18 11:10:35 179

原创每天汇总----10.18

1.hdfs 伪分布式哪三个进程，简写 NN DN SNN2.yarn伪分布式哪两个进程，简写 RM NM3.简述 nn做什么的? 管理文件系统的命名空间，维护文件系统的目录树的，定期接受来自DN的blockmap4.简述 snn是做什么的那幅图，是否能够描述清楚? 定期来去NN上的fsimage和editlog合并成新的fsimage.ckpt并返沪给NN5.一个文件13...

2018-10-18 09:24:13 136

原创大数据开发之Hadoop篇----YARN设计架构

1，Yarn架构设计在hadoop当中无论是hdfs还是yarn都是服从主从设计的架构的，就是一个主节点用于管理整个集群，而一堆的从节点就是实际工作者了。而在yarn当中，主节点进程为ResourceManager，从节点进程为NodeManager。我们简单回顾一下提交作业到yarn上面的流程，client先将作业提交的RM上的ApplicationManager，ApplicationMa...

2018-10-17 16:37:37 270 2

原创每天汇总----10.17

1.MySQL哪些字段类型 int,float,double,varchar,char,date,timestamp等2.建表一般我们会设置第一个字段为ID，自增长的主键，那么主键是非空和唯一约束的组合体，那么可不可以根据业务，单独设置其他字段为非空约束或唯一约束? 可以，主键约束在一个表中是唯一的，但唯一约束和非空约束就可以多个的。3.拓展题，你们去看看MySQL的约束有哪些...

2018-10-17 10:03:39 101

原创大数据开发之Hadoop篇----提交作业到yarn上的流程

当一个mapreduce作业被提交到yarn上面的时候，他的流程是这样的：1，当client想yarn提交了作业后，就意味着想ResourceManager申请一个ApplicationMaster。这个时候RM(这里我们将ResourceManager简称为RM，同理NodeManager为NM)将分配一个ApplicationMaster给这个作业，同时向相应的NM进行rpc通信要求其启动...

2018-10-16 16:18:49 1033

原创大数据开发之Hadoop篇----hdfs读流程

读流程所涉及到的有client，NameNode和DataNode这个三个，我们来了解下这三个之间在读流程里都是干什么的。1，当我们输入一条读入数据的命令的时候，如：hdfs dfs -ls / 或者 hdfs dfs -cat /user/hadoop/xxx时，client就通过DistributedFileSystem这个对象的open方法去和NameNode进行rpc通信，其中ope...

2018-10-16 15:45:10 183

原创大数据开发之Hadoop篇----hdfs dfsadmin命令

今天我们来了解一下hdfs dfsadmin这个命令，前面我们已经多次使用了hdfs dfs这个命令来对hdfs上的文件进行操作了。而是在生产上面我们还是会遇到不同的情况。今天我们简单讲解一下hdfs dfsadmin中的两个命令，以及他们在生产当中是怎样使用的1，hdfs dfsadmin -report 这个命令其实是用来查看整个hdfs的健康情况的，因为我们现在是使用cdh的版本，他已经...

2018-10-16 11:47:40 8663

原创大数据开发之Hadoop篇----jps命令的剖析

我们在大数据的日常生产当中会经常使用到jps命令，如果问起很多人他们都会知道jps命令是用来干什么的，查看java相关的进程。但是这个命令是属于哪个组件提供的呢？最起码可以肯定不是linux系统自带的。jps是属于jdk自带的命令，当你机器安装了jdk同时将jdk配置到系统的环境变量当中后，在命令行输入jps就可以查看当前的java进程了。当我们使用hadoop这个用户开启了三个java进...

2018-10-16 10:40:02 2183

原创每天汇总----10.16

1.历史命令是什么?执行第66行 history !662.敲错了命令，干了坏事，我们应该怎么办清空.bash_history里面的内容，现在都开始教人干坏事了3.删除文件夹命令参数 rm -rf4.创建及联文件夹 mkdir -p5.创建文件 1.touch xxx 2.vi xxx 3.echo '****' > xxx6...

2018-10-16 09:50:04 104

原创每天汇总----10.15

1.谈谈如何理解shuffle 可以理解为洗牌，就是将各个节点上的数据进行重新分配的过程2.简述 mr提交到yarn的工作流程一阶段：client想RM提交作业，二阶段：RM处理用户请求，分配资源3.yarn哪两个进程 ResourceManager和NodeManager4.yarn的资源调优参数，是否会配置? 包括hadoop-env.sh，yarn-env....

2018-10-15 21:20:44 80

原创大数据开发之Hadoop篇----mapreduce概念以及架构

在我们了解了hdfs的一些基础概念以后，我们现在就来进一步了解一下mapreduce的相关概念。首先，mapreduce在hadoop体系里面充当一个计算者的角色，但如我们之前所演示一样我们在开启hdfs和yarn时都有相关的进程，但mapreduce就是没有的。mapreduce是直接运行在yarn上面的，我们来简单描述一下hdfs，yarn和mapreduce三者的关系。最底层的是hd...

2018-10-14 13:58:21 271

原创大数据开发之Hadoop篇----hdfs垃圾回收机制配置

其实要启动hdfs上的垃圾回收机制只需要配置两个参数就可以了，也是在core-site.xml上配置就好了，我们先去官网看下这个两参数的解释。官网的解释是：Number of minutes after which the checkpoint gets deleted. If zero, the trash feature is disabled. This option may be ...

2018-10-12 14:42:46 1714 2

原创大数据开发之Hadoop篇----pid文件剖析

这里我们先看下在我还没有启hdfs那三个进程的时候，/tmp目录下的情况：现在我启动一下hdfs三个进程：这个时候有没发现在/tmp目录下多出了几个文件这几个文件记录的是什么呢？存储的就是namenode这个进程的进程号，当我们关掉这几个进程后，在/tmp目录下的这几个文件也就消失了。那么这几个文件究竟对我们的进程有什么影响呢？老实说，对进程的运行是没有什么影响的，...

2018-10-12 14:09:31 189

原创大数据开发之Hadoop篇----hdfs读写权限操作

由于hdfs的结构和linux是差不多的，所以我们在hdfs的读写操作上也是会面临权限和路径问题问题，先让我们来看下这些都是些什么问题。这里我先上传了一个README.txt的文件上去，通过hdfs dfs -ls /user/hadoop命令我们已经可以查看到hdfs上有了这个文件了，现在我们再上传一次，看会报什么错误。这个时候就报了一个文件以存在的错误给你了，而在底层的实现过程...

2018-10-12 11:18:50 3982

原创每天汇总----10.12

1.pwd是什么意思获取当前路径2.当我们输入一个命令，提示 not found，请问你该怎么办查看是否输入错误了，然后查看是否配置了环境变量3.环境变量一般配置全局和个人，请问分别在哪，怎样生效全局/etc/proflie 个人~/.absh_profile或者~/.bashrc 统一使用source生效4.rm 删除文件或文件夹，我们第一步应该做什么 ...

2018-10-12 09:26:58 95

原创每天汇总----10.11

1.jps命令是来自哪里的 jdk，java下的bin目录2.jps 发现不可用信息，我们应该怎么办 jps不可用，ps -ef出进程，判断进程是否还存活，存活的话切到进程所属用户查看相关进程情况，如果进程是假死状态可以切到/tmp目录下看下hs开头的文件夹删除与进程相关的文件3.pid文件默认存储哪里?哪个文件修改 /tmp目录下，要修改存储的地址可以在hadoop-en...

2018-10-11 09:57:02 120

原创每天汇总----10.10

1.MySQL部署过程的配置文件默认在哪 /etc/my.cnf 同时要删除mysql中自带的my.cnf2.赋予权限，%代表什么代表任意ip都能访问3.创建DB的SQL是什么? create database xxx4.想想，创建一个用户xxx，对xxxdb有所有权限访问且密码123456，这个SQL会不会写 grant all privileges on x...

2018-10-10 10:39:51 94

原创每天汇总----10.09

1.级联创建文件夹的命令参数 mkdir -p2.创建文件你们认为有哪几种方法 touch vi echo mv cp 都可以3.重命名一般用哪个命令 mv4.说说大R参数的命令有哪些 chmod chown5.说说小r参数的命令有哪些 cp rm scp6.查看历史命令是什么，执行第66行命令 history !667.history命令，怎样清...

2018-10-09 10:10:45 141

原创每天汇总----10.08

1.查看当前目录 pwd2.切换到上一次和上一层目录 cd - cd ../3.隐藏文件标识是什么，什么命令参数查看以 . 开头，查看命令为ll -a4.which 这个命令是找哪个环境变量里的目录配置 PATH5.打印环境变量值命令是什么 echo $PATH6.全局环境变量文件在哪?怎样生效 /etc/profile source7....

2018-10-08 09:12:17 126

weixin_39702831的博客