2020年10月_WGS.

12月 11月 10月 09月 08月 07月 06月 05月 04月 03月 02月 01月

原创 flume对接kafka

配置文件cd /export/servers/apache-flume-1.6.0-cdh5.14.0-bin/confvim flume-kafka.conf# definea1.sources = r1 a1.sinks = k1a1.channels = c1# sourcea1.sources.r1.type = exec# a1.sources.r1.command = tail -F -c +0 /export/servers/apache-flume-1.6.0-.

2020-10-31 15:17:18 186 1

原创（十一）Kafka集群安装

文章目录解压安装包修改配置文件配置环境变量分发安装包启动集群解压安装包第一台机器解压修改解压后的文件名称mv kafka_2.11-1.0.0/ kafka修改配置文件cd /export/servers/kafka/config/vim server.properties输入以下内容#broker的全局唯一编号，不能重复broker.id=0#删除topic功能使能delete.topic.enable=true#处理网络请求的线程数量num.network.

2020-10-30 11:12:35 183

原创 kafka测试demo

kafka可以做离线也可以做实施磁盘持久化的默认保存7天，可以做离线数据源这里在第一台机器，解压即可先启动zookeeper三个机器都启动/export/servers/zookeeper-3.4.5-cdh5.14.0/bin/zkServer.sh start启动Kafka服务器/export/servers/kafka_2.11-1.0.0/bin/kafka-server-start.sh config/server.properties这里node01自

2020-10-30 11:11:20 548

原创 spark整合kafka

Spark Streaming整合kafka添加kafka的pom依赖<dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-streaming-kafka-0-8_2.11</artifactId> <version>2.1.3</version></dependency>启动zookeepe

2020-10-30 11:07:46 609

原创 spark整合flume

文章目录Spark Streaming整合flumePoll拉取数据Push方式Spark Streaming整合flumeflume作为日志实时采集的框架，可以与SparkStreaming实时处理框架进行对接，flume实时产生数据，sparkStreaming做实时处理。Spark Streaming对接FlumeNG有两种方式，一种是FlumeNG将消息Push推给Spark Streaming，还有一种是Spark Streaming从flume 中Poll拉取数据。Poll拉取数据1

2020-10-30 11:06:14 772

原创 Spark Streaming 详解

文章目录Spark Streaming流式处理SparkStreaming接受socket数据，实现单词计数WordCountSparkStreaming接受socket数据，实现所有批次单词计数结果累加SparkStreaming开窗函数reduceByKeyAndWindow，实现单词计数SparkStreaming开窗函数统计一定时间内的热门词汇Spark Streaming流式处理SparkStreaming接受socket数据，实现单词计数WordCount安装并启动生产者首先在linu

2020-10-30 11:03:48 242

原创 Spark实现ip地址查询

文章目录需求分析技术调研创建mysql数据库表思路代码开发实现需求分析在互联网中，我们经常会见到城市热点图这样的报表数据，例如在百度统计中，会统计今年的热门旅游城市、热门报考学校等，会将这样的信息显示在热点图中。我们根据每个用户的IP地址，与我们的IP地址段进行比较，确认每个IP落在哪一个IP端内，获取经纬度，然后绘制热力图因此，我们需要通过日志信息（运行商或者网站自己生成）和城市ip段信息来判断用户的ip段，统计热点经纬度。技术调研因为我们的需求是完成一张报表信息，所以对程序的实时性没有要求

2020-10-30 11:01:45 539

原创 Spark SQL 详解

文章目录RDD、dataframe、dataset的区别和联系封装spark和SCrdd、dataframe、dataset互相转换rdd转dataframe、datasetdf转rdd、dsds转rdd、dfdataframe的创建读取文本文件创建DataFrame读取json文件创建DataFrame读取parquet列式存储格式文件创建DataFrame读取mysql数据通过idea通过服务器spark-shell通过idea将数据写入到mysqlDSL风格和SQL风格DSL风格语法SQL风格语法sp

2020-10-30 11:00:19 1191 1

原创 spark_PV_UV_TopN

文章目录pvuvtopNpom.xmlobject GetSC{ def getSC(masterName:String, appName: String): SparkContext ={ val conf = new SparkConf() conf.setMaster(masterName) conf.setAppName(appName) new SparkContext(conf) }}pvobject pv { def main(args:

2020-10-30 10:57:15 162

原创 sparkRDD常用算子练习

文章目录封装SparkContextmap、filterflatMap交集、并集join、groupByKeycogroupreducereduceByKey、sortByKeyrepartition、coalesce封装SparkContext单例object getSC { val conf = new SparkConf() conf.setMaster("local") conf.setAppName("demo") def getsc() = new SparkContext

2020-10-30 10:54:40 296

原创 spark中的RDD以及常用算子

文章目录1.RDD基本概念2.RDD的三种创建方式1. sc.parallelize 由一个已经存在的集合创建2. 由外部存储文件创建3. 由已有的RDD经过算子转换，生成新的RDD3.RDD转换算子mapfilterflatMapmapPartitionssampleuniondistinctpartitionByreduceByKeygroupByKeyjoincoalescerepartitionmapValues4.RDD行动算子reducecollectcountfirsttaketakeSamp

2020-10-27 09:52:56 666

原创 LeetCode--1084. 销售分析III

select product_id, product_name from product where product_id not in ( select distinct product_id from sales where sale_date > '2019-03-31' or sale_date < '2019-01-01')SELECT p.product_id,product_name FROM sales s,product p WHERE s.produc..

2020-10-25 20:54:39 235 1

原创 LeetCode--1083. 销售分析 II

select distinct buyer_idfrom Sales s join Product p on s.product_id=p.product_idwhere p.product_name='S8' and buyer_id not in (select buyer_id from Sales s join Product p on s.product_id=p.product_id where p.product_name='iPhone')sel..

2020-10-25 20:50:07 220 1

原创 LeetCode--1082. 销售分析 I

drop table if EXISTS product;drop table if EXISTS sales;create table product(product_id int,product_name varchar(20),unit_price DECIMAL);create table sales(seller_id int,product_id int,buyer_id int,sale_date date,quantity int, price..

2020-10-25 20:42:35 282 1

原创（十）spark集群安装

文章目录1.下载spark安装包2.上传压缩包并解压3.修改配置文件4.拷贝配置到其他主机5.配置spark环境变量6.启动spark7.spark的web界面7.1 执行第一个spark程序8.启动Spark-Shell8.1 运行spark-shell 读取本地文件单机版wordcount8.2 读取HDFS上数据注：scala直接解压配置环境变量即可1.下载spark安装包下载地址spark官网：http://spark.apache.org/downloads.html这里我们使用 s

2020-10-24 17:48:32 391

原创 Scala高级特性

文章目录理论什么是柯里化？什么是柯里化函数？说说你理解的高阶函数什么是闭包函数？说说你理解的隐式转换方法说说你理解的隐式变量、隐式参数说说你理解的隐式转换的查找机制说说你理解的特质说说特质的两种最常见的适用场景混入特质的执行顺序是怎样的1.高阶函数2.闭包函数3.柯里化函数4.隐式转换隐式参数和隐式变量隐式转换的管理隐式转换的查找机制5.特质理论什么是柯里化？什么是柯里化函数？柯里化就是把一个多参数的函数转化为一系列接受单参数函数的方法scala中，从形式上看，具有多个简单参数列表的方法，就叫做柯

2020-10-23 21:10:22 437

原创 Scala面向对象面试理论及语法知识点

文章目录概念小结什么是伴生类，伴生对象？Scala中继承有什么特点？Scala中抽象类有什么特点？Scala中强制类型转换要注意什么？涉及的关键字是什么Scala中的模式匹配是什么？说说你知道的scala的模式匹配，有哪些类型什么叫做偏函数？说说你理解的scala的逆变协变非变说说你理解的scala的上下界说说你理解的scala中的样例类1.类的声明2.单例对象3.伴生对象4.继承5.子类调用父类的构造器6.抽象类7.匿名类8.强制类型转换9.模式匹配10.样例类 case class11.偏函数 x=&g

2020-10-23 09:51:52 278 1

原创 LeetCode--两句话中的不常见单词(scala实现)

def uncommonFromSentences(A: String, B: String): Array[String] = { (A.split(" ") ++ B.split(" ")).map(x => (x, 1)).groupBy(t => t._1).filter(x => x._2.size==1).keys.toArray}val astr = "this apple is sweet"val bstr = "this apple is sour".

2020-10-22 10:04:56 162

原创 LeetCode--速算机器人

public int calculate(String s) { return 1 << s.length();}

2020-10-22 10:03:45 179

原创 LeetCode--LCP 18. 早餐组合

public static int breakfastnumber(int[] arr_staple, int[] arr_drink, int x){ int res = 0; for(int staple_val : arr_staple){ for(int drink_val : arr_drink){ if((staple_val + drink_val) <= x){ res++; .

2020-10-22 10:02:55 202

原创 LeetCode--面试题 16.16. 部分排序

给定一个整数数组，编写一个函数，找出索引m和n，只要将索引区间[m,n]的元素排好序，整个数组就是有序的。注意：n-m尽量最小，也就是说，找出符合条件的最短序列。函数返回值为[m,n]，若不存在这样的m和n（例如整个数组是有序的），请返回[-1,-1]。示例：输入： [1,2,4,7,10,11,7,12,6,7,16,18,19]输出： [3,9]class Solution { public int[] subSort(int[] array) { int[] clon

2020-10-22 10:01:56 241

原创 LeetCode--最长回文子串

public static String longestPalindrome(String s) { if (s == null || s.length() == 0) { return ""; } // 保存起始位置 int[] range = new int[2]; char[] str = s.toCharArray(); // 字符串打散成字符数组 for (int i = 0; i < s.length(); i++) {.

2020-10-22 10:01:15 164

原创 LeetCode--1077. 项目员工 III

开窗分组，找出最大的年限，然后找出工作年限等于最大年限的select tmp.project_id, tmp.employee_idfrom( select *, max(t.experience_years) over(partition by t.project_id) max from ( select p.project_id, p.employee_id, e.experience_years from Project p left join Employee e on ..

2020-10-22 09:59:47 201

原创 LeetCode--1076. 项目员工II

drop table if EXISTS Project;create table Project(project_id int,employee_id int );drop table if EXISTS Employee;create table Employee(employee_id int,name varchar(20),experience_years int );insert into Project values(1, 1);insert into Projec.

2020-10-22 09:58:34 206

原创 LeetCode--1075. 项目员工 I

select P.project_id,round(avg(E.experience_years),2) as average_yearsfrom Project P join Employee E on P.employee_id = E.employee_idgroup by P.project_id

2020-10-22 09:57:49 319

原创 LeetCode-- 1070. 产品销售分析 III

select product_id, year first_year, quantity, pricefrom saleswhere (product_id, year) in(select product_id, min(year)from sales group by product_id)

2020-10-22 09:55:02 259

原创 Scala面试理论和基本应用

文章目录1.scala概述2.面试理论scala语言有什么特点？什么是函数式编程？函数式编程有什么优点？说几个你知道的Scala的数据类型。（5个以上）java中，Object是所有引用类型的超类。在scala中，哪个是所有类的超类？scala中哪个关键字修饰的是不可变变量？scala中修饰的是可变变量的是哪个关键字？scala中的函数的两个特点？scala中方法和函数的区别和联系说说scala中常用的5种数据结构3.基础语法3.1Scala变量3.2变量的数据类型3.3Scala中操作符4.Scala中的

2020-10-22 09:51:03 273 1

原创 sqoop面试理论和应用

文章目录理论sqoop是什么将大数据平台数据导出到mysql可以用什么工具？Sqoop底层运行的任务是什么？qoop数据导出的时候一次执行多长时间？Sqoop导入使用什么语法？Sqoop导出使用什么语法？sqoop数据导入数据库数据导入到hdfs导入到HDFS指定目录导入到hdfs指定目录并指定字段之间的分隔符导入关系表到HIVE导入表数据子集sql语句查找导入hdfs增量导入 (全量导入增量导入)Sqoop的数据导出hdfs导出到mysql理论sqoop是什么sqoop是apache旗下一款“

2020-10-20 09:29:05 500 1

原创 azkaban面试理论和应用

文章目录理论什么是azkaban？azkaban的作用是什么？Azkaban支持的内置的任务类型有哪些？azkaban如何创建Command类型多job工作流flow？1.Command类型单一job示例2.Command类型多job工作流flow3.HDFS操作任务4.MAPREDUCE任务5.HIVE脚本任务6.azkaban的定时任务理论什么是azkaban？一个批量工作流任务调度器。azkaban的作用是什么？一个完整的数据分析系统通常都是由大量任务单元组成：shell脚本程序，ja

2020-10-20 09:27:17 450

原创 flume面试理论和应用

文章目录理论flume是什么？flume分布式系统中最核心的角色是什么？flume中，每一个agent相当于一个数据传递员，内部有三个组件，是什么？source到channel到sink之间传递数据的形式是什么？flume常用的source有哪些？flume常用的channel有哪些？flume常用的sink有哪些了解flume的负载均衡和故障转移吗？1.采集目录到hdfs1.配置文件编写2.启动3.上传文件4.查看2.采集文件到hdfs1.配置文件2.启动flume3.开发shell脚本定时追加文件内容4

2020-10-20 09:24:16 248

原创 hive级联求和

create table t_salary_detail(username string,month string,salary int)row format delimited fields terminated by ',';load data local inpath '/export/servers/hivedatas/accumulate/t_salary_detail.dat' into table t_salary_detail;用户时间收到小费金额A,2015-01,5A,

2020-10-20 09:21:16 185

原创数据分析---网站日志流分析

文章目录数据分析平台介绍网站流量分析项目的一些问题1．数据处理流程1.数据采集2.数据预处理3.数据入库4.数据分析(ETL)5.数据展现2.mr程序进行数据预处理理论方面3.流量分析常见分类骨灰级指标IPPVUV基础级指标复合级指标基础分析（PV,IP,UV）4.统计分析建表事实表设计维度表设计访问日志明细宽表以下ETL需求小结1.流量分析1.1多维度统计PV总量按时间维度按终端维度1.2按referer维度（按照来访维度统计pv）1.3统计pv总量最大的来源TOPN (分组TOP)1.4人均浏览页数2.

2020-10-20 09:20:03 1068

原创关于hive的面试题理论

文章目录1、什么是hive？2、hive的作用是什么？3、数仓4、外部表和内部表的区别5、什么是分区表？应用场景是什么？6、什么是分桶表？分桶表和分区表7、简述UDF、UDTF、UDAF是什？8、Hive开发UDF的六个步骤：9、hive的数据存储格式？10、三种复杂的数据类型11、concat、concat_ws、collect_set12、说说你对explode和lateral view的理解13、说说你对开窗函数的理解14.开启map阶段压缩（有印象即可）15.开启reduc阶段压缩（有印象即可）16

2020-10-20 09:16:08 328 1

原创 hive常用函数

文章目录空字段赋值 NVL()CASE WHEN行转列CONCATCONCAT_WSCOLLECT_SETgroup_concat列转行窗口函数（开窗函数）RANK() 排序相同时会重复，总数不会变 1 1 3DENSE_RANK() 排序相同时会重复，总数会减少 1 1 2ROW_NUMBER() 会根据顺序计算 1 2 3空字段赋值 NVL()函数说明NVL：给值为NULL的数据赋值，它的格式是NVL( value，default_value)。它的功能是如果value为NULL，则NVL函

2020-10-20 09:13:15 233

原创 hive基本操作

文章目录库操作创建数据库指定库的位置修改数据库查看数据库详细信息删除数据库表操作内部表(管理表)创建表创建表并指定字段之间的分隔符 ***根据查询结果创建表(包括数据和结构)根据已经存在的表结构创建表(只包括结构不包括数据)查询表的类型、详细信息 ***外部表创建外部表 ***从本地文件系统向表中加载数据(追加) ***加载数据并覆盖已有数据 ***从hdfs文件系统向表中加载数据 ***删除外部表内部表(管理表)和外部表分区表创建分区表 ***创建一个表带多个分区加载数据到分区表中 ***加载数据到一个多

2020-10-20 09:08:03 268

原创（九）sqoop安装

1.下载解压我们这里使用sqoop1的版本cd /export/servers/tar -zxvf sqoop-1.4.6-cdh5.14.0.tar.gz -C ../servers/2.修改配置文件cd /export/servers/sqoop-1.4.6-cdh5.14.0/conf/cp sqoop-env-template.sh sqoop-env.shvim sqoop-env.shexport HADOOP_COMMON_HOME=/export/servers/had

2020-10-19 09:41:40 281 2

原创（八）Azkaban单服务安装

文章目录1.azkaban的编译1.1azkaban的编译1.2编译之后需要的安装文件列表如下2.azkaban单服务模式安装与使用2.1解压2.2修改两个配置文件2.3启动solo-server2.4浏览器页面访问2.5单服务模式使用3.azkaban两个服务模式安装1.azkaban的编译(因为这里安装包都有，所以上传解压改配置文件就行)1.1azkaban的编译我们这里选用azkaban3.51.0这个版本自己进行重新编译，编译完成之后得到我们需要的安装包进行安装注意：我们这里编译需要使用j

2020-10-19 09:37:45 995 4

原创（七）Flume安装

Flume的安装非常简单，只需要解压即可，当然，前提是已有hadoop环境上传安装包到数据源所在节点上这里我们采用在第三台机器来进行安装1.下载解压修改配置文件进入目录解压flumetar -zxvf flume-ng-1.6.0-cdh5.14.0.tar.gzcd /export/servers/apache-flume-1.6.0-cdh5.14.0-bin/confcp flume-env.sh.template flume-env.shvim flume-env.shex

2020-10-19 09:33:35 241 1