lds_include

分享与共同进步

sqoop的job做到每次免密登录的方式

说明: sqoop执行任务的时候会提示执行密码,这样的话在实际执行的时候会相对来说很麻烦,所有需要建立密码文件并指定–password-file 文件,文件最后还需要存放在hdfs上,权限为400为只读权限 执行过程: 在本地建立存放密码的文件: echo -n "mysql中sqo...

2019-07-11 09:56:38

阅读数 15

评论数 0

hive中的order by、sort by、distribute by、cluster by排序

hive中的排序 说明:hive中有四种全局排序:order by、内部排序:sort by、分区排序:distribute by、组合排序:cluster by。 order by(全局排序) 说明:全局排序是在一个MapReduce中进行排序的。 参数: ASC:是升序的意思和...

2019-07-01 10:40:51

阅读数 32

评论数 0

hive的企业级优化

hive的企业级优化 说明:以下是常见的六个调优项 Fetch抓取 说明: 所谓fetch抓取hive中的某些查询可以不必使用mapreduce来计算,例如select * from emp这个语句就没有使用mapreduce ,这种情况下,hive可以简单的读取emp目录对应的数据文件...

2019-07-01 10:39:28

阅读数 68

评论数 0

hive的存储格式TextFile、RCFile、ORC

hived的存储格式TextFile、RCFile、ORC 说明:所谓的存储格式就是hive的数据在hdfs上存放的具体方式;通过下面的文件我们看出hive的存储格式是一共有六种,每一种都是由自己的规则。 file_format: : SEQUENCEFILE | TEXTFILE ...

2019-07-01 10:37:57

阅读数 48

评论数 0

mapreduce的map端的分布式缓存

mapreduce的map端的分布式缓存 必要性: 有的时候我们需要完成一些类似于数据库的两表join的效果,这个时候就能够通过将其中的一个表提前加载到map中来,这个时候有了将一张表的数据缓存到内存中来,方便map的快速读取。这里有两种方法可以实现这个效果,下面就一个一个讲解。 注意:想要将表...

2019-06-23 12:49:39

阅读数 22

评论数 0

mapreduce的自定义输出格式

mapreduce自定义输出格式 概念: 当普通的输出格式不能满足客户的要求的时候。因为普通的输出格式是将结果直接输出到一个单一的文件中去。现在有的需求是将处理的结果输出到数据库中,或者是将结果按照不同的需求输出到不同的文件中去。 举例: 现在有一个需求是将一个文件读取进来后,然后判断文件中...

2019-06-21 16:59:11

阅读数 33

评论数 0

mapreduce的自定义输入格式

mapreduce自定义输入格式 概念: 当普通的输入格不能满足客户的要求的时候。因为普通的输入格式是将文件的每一行输入的数据作为一个value值然后进行map端的操作。现在有的需求是将数据库中的数据作为一个输入的格式,或者是将一个文件的整体作为一个输入格式等。 举例: 现在有一个需求是将一...

2019-06-21 14:59:40

阅读数 23

评论数 0

mapreduce的自定义分组器

Mapreduce自定义分组器 前提:有的时候我们想将符合条件的key值放在同一个组内;但是key的值是不同的将不会放进同一个组中。 举例:想将一个学生的进校以后不同时间段的数学成绩按进校考试的时间进行一个成绩排序。如下效果 //排序前的效果 stu1 time1 core1 stu1 tim...

2019-06-18 17:55:50

阅读数 30

评论数 0

Kafka常用命令

Kafka常用命令 开启和关闭kafka 启动kafka nohup ./bin/kafka-server-start.sh ./config/server.properties & 停止kafka bin/kafka-server-stop.sh 关于topic 创...

2019-04-17 19:58:32

阅读数 103

评论数 0

Kafka组件

Kafka组件 Kafka核心组件 Topic :消息根据Topic进行归 Producer:发送消息者 Consumer:消息接受者 broker:每个kafka实例(server) Zookeeper:依赖集群保存meta信息。 Kafka名词解释和工作方式 Pro...

2019-04-17 19:57:45

阅读数 68

评论数 0

Kafka基础

Kafka基础 什么是kafka 在流式计算中,Kafka一般用来缓存数据,Storm通过消费Kafka的数据进行计算。 KAFKA + STORM +REDIS Apache Kafka是一个开源消息系统,由Scala写成。是由Apache软件基金会开发的一个开源消息系统项目。 ...

2019-04-17 19:56:36

阅读数 100

评论数 0

Spark2.3.0解决Exception in thread "main" java.lang.IllegalArgumentException: Illegal pattern component

Spark2.3.0解决Exception in thread “main” java.lang.IllegalArgumentException: Illegal pattern component: XXX 报错 出错的调用代码 此问题出现在调用spark.read.json或者csv的时候...

2019-04-16 10:55:02

阅读数 252

评论数 0

spark的DataFrame常用操作

spark的DataFrame常用操作 DSL风格语法 查看DataFrame中的内容 personDF.show 查看DataFrame部分列中的内容 personDF.select(personDF.col("name")).show personDF.selec...

2019-04-15 09:19:09

阅读数 76

评论数 0

Spark的DataFrame创建实例

Spark的DataFrame创建实例 说明 是一个分布式数据集(是一个数据描述),封装了RDD和Schema信息,底层还是调用的RDD,我们可以像操作二维表的方式进行操作,简单来说,DataFream就是RDD和Schema信息的结合体 什么是DataFrames 与RDD类似,DataF...

2019-04-14 19:02:25

阅读数 69

评论数 0

Spark sql理论简介

Spark sql简介 什么是spark sql Spark SQL是Spark用来处理结构化数据的一个模块,它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用。 了解Spark Sql的必要性 我们知道hive,它是将Hive SQL转换成MapReduce然后提...

2019-04-14 17:02:13

阅读数 54

评论数 0

Spark连接mysql数据库的方法

Spark连接mysql数据库的方法 引入pom文件 在maven项目中的pom.xml中引入mysql连接的依赖 <!--mysql驱动依赖--> <dependency> <gr...

2019-04-13 17:23:21

阅读数 64

评论数 0

Spark的将IP转换为Long型的方法

Spark的将IP转换为Long型的方法 ip格式 192.168.111.4 转换方法 /** * 把IP转化为long类型的数据 * @param ip * @return */ def ip2Long(ip: String): Long = { ...

2019-04-13 17:13:15

阅读数 59

评论数 0

nginx服务器生成访问url格式设置

nginx服务器生成访问url格式设置 配置文件 编辑配置文件 vi /etc/nginx/nginx.conf 配置文件详情user root; #nginx的运行账号(rpm安装时会自动创建这个账号),也可以写成user nginx nginx表示用户和组 w...

2019-04-13 17:08:30

阅读数 109

评论数 0

Spark2.0程序中的持久化数据到数据库中foreachPartition()方法报错

Spark2.0程序中的持久化数据到数据库中foreachPartition()方法报错 出错的地方是foreachPartition(data2Mysql)中的方法data2Mysql报错 代码 val data2Mysql = (it:Iterable[(String, Int)]) =&...

2019-04-13 16:55:23

阅读数 87

评论数 0

Spark中transformation和Action的RDD算子

Spark中transformation和Action有的区别 区别 transformation transformation是在现有的RDD上通过一定方法转换生成新的RDD,转换时延时执行(lazy)的; action actions是指在RDD上进行计算,得到返回结果给驱动程序或写入文...

2019-04-13 11:03:27

阅读数 60

评论数 0

提示
确定要删除当前文章?
取消 删除