![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
文章平均质量分 59
物物相连
这个作者很懒,什么都没留下…
展开
-
对RDD的分区与Task任务之间关系的理解
文件存储在HDFS上,每个File都包含了很多块,称为Block。当Spark读取这些文件作为输入时,会根据具体数据格式对应的InputFormat进行解析,一般是将若干个Block合并成一个输入分片,称为InputSplit,注意InputSplit不能跨越文件。随后将为这些输入分片生成具体的Task。InputSplit与Task是一一对应的关系。随后这些具体的Task每个都会被分配到集群上的某个节点的某个Executor去执行。1)每个节点可以起一个或多个Executor。2)每个Executo原创 2021-04-14 21:39:57 · 793 阅读 · 0 评论 -
spark中将数据写进mysql数据库的方式
我这里采用了两种方式:第一种:java的jdbc第二种:scalikejdbc我都在代码中使用了,做了详细的解释原始文件数据在前两篇的博客中:spark中将数据写进json文件里可以看到,需求也能看到import java.utilimport java.util.Propertiesimport bean.BaobiaoSchemaimport com.google.gson...原创 2019-11-16 10:56:11 · 499 阅读 · 0 评论 -
spark中的scalikejdbc的使用
加载配置文件内容的自定义的类,如下所示:import com.typesafe.config.{Config, ConfigFactory}object ConfigHelp { //加载配置文件 private val config: Config = ConfigFactory.load() //加载jdbc的配置 val url: String= config.getS...原创 2019-11-15 23:24:17 · 625 阅读 · 1 评论 -
spark中将数据输出到json文件的两种方式
在学习spark时,我们经常遇到要将数据写进一个json文件中的案例。通常的案例就是,给我们一个普通文件,然后我们用sparkcore或者sparkSQL,遍历文件内容后,按照需求将再将遍历后得到的数据写入json文件中。这里,我主要使用两种方法:方式一:通过dataframe.write.json()方式二:使用gson初始的文件部分内容大概如下所示:300T|3001003|C204...原创 2019-11-15 20:36:43 · 5465 阅读 · 0 评论 -
flume使用taildir,监控多个文件夹下的多个文件
在flume1.6及之前,要监控多个目录下的多个文件,可以使用Filelistener,在flume1.7之后,增加了TAILDIR,主要是监控文件的变化下面介绍taildir的使用:第一步:在flume中创建conf配置文件,我的是创建在:flume下的job文件夹中,job文件夹是我自定义的用来存放conf配置文件的:/opt/module/flume/job/flume-mysourc...原创 2019-11-13 21:17:14 · 3185 阅读 · 0 评论 -
flume自定义source,且kafka代替channel,实现flume往kafka传递数据
在使用flume收集数据时,有时候需要我们自定义source,而官方给的案例,有时也不能满足我们的需要,下面的案例是仿照源码的架构编写的。下面的案例是:自定义source,用kafka代替channel,因为我们的目标就是,通过flume将数据采集到kafka,这样省去了从channel到sink的过程,提升了效率,而自定义source是为了防止重复传递数据。在代码中我做了详细的解释:pac...原创 2019-11-13 19:05:21 · 674 阅读 · 0 评论 -
使用shell编写九九乘法表
使用shell编写九九乘法表for循环:首先要知道的是:echo “” 换行echo -n 内容:表示输出结果后不换行echo -e 内容:表示支持反斜线控制的字符转换内容里的 \t 表示一个制表符代码如下:结果如下:...原创 2019-10-10 19:56:10 · 1767 阅读 · 0 评论 -
shell编程中函数的return返回值和接收
shell编程中函数的return返回值和接收代码:首先要明白的是:函数return回来的值,只能通过$?系统变量获得其次要明白的是:必须在调用函数地方之前,先声明函数,shell脚本是逐行运行,不会像其他语言一样先编译运行结果:...原创 2019-10-10 22:10:25 · 1372 阅读 · 0 评论