晚春初夏的你-CSDN博客

原创 SparkSQL 字符串函数

SparkSQL 字符串函数1.样例类的定义case class Student(name:String,subject:String,score:String)2.测试数据展示val spark: SparkSession = SparkSession.builder().appName("test").master("local[*]").getOrCreate()//导入隐式包import spark.implicits._val df= spark.sparkContext.tex

2020-10-20 11:16:40 716

原创 Java实现斐波那契数列

Java实现斐波那契数列什么是斐波那契数列？斐波那契数列指的是这样一个数列“ 0, 1, 1, 2, 3, 5, 8, 13, 21, 34, 55, 89, 144, 233，377，610，987，1597，2584，4181，6765，10946，17711，28657，46368...”这个数列从第3项开始，每一项都等于前两项之和。java实现方式1 //递归实现 public int getData01(int num){ if (num==1){

2020-08-31 10:55:15 276

原创 Python数据爬取（Scrapy框架）

Python数据爬取（Scrapy框架）常用数据爬取工具第三方库实现爬取 Requests、lxml 灵活，简单PySpider爬虫框架提供WebUI界面编写及管理爬虫上手快，学习简单对Windows操作系统支持很差Scrapy爬虫框架功能强大可定制性强多线程，爬取效率高安装配置Scrapy框架安装Scrapy pip install scrapy验证C:\WINDOWS\system32>scrapyScrapy 2.3.0 - no active

2020-08-26 22:46:56 581

原创 kafka面试题整理

文章目录概述：kafka的核心组件一、请说明什么是Apache Kafka?二、Kafka的设计是什么样的呢？三、请说明什么是传统的消息传递方法?四、请说明Kafka相对传统技术有什么优势?五、在 Kafka 中 broker 的意义是什么？六、什么是broker？作用是什么?七、Kafka服务器能接收到的最大信息是多少?八、解释Kafka的Zookeeper是什么?我们可以在没有Zookeeper的情况下使用Kafka吗?九、解释Kafka的用户如何消费信息?十、解释如何提高远程用户的吞吐量?十一、解释一

2020-08-18 23:08:06 966

原创 Spark Rdd算子

s（1）创建spark contextval conf: SparkConf = new SparkConf().setAppName("transactionRDD").setMaster("local[2]")val sc = new SparkContext(conf)（2）创建rdd：弹性分布式数据集--使用内存集合创建创建rdd的方式,不设置分区数，默认分区数是核数：local[num]val rdd1: RDD[Int] = sc.parallelize(List(1, 2, 3,

2020-08-18 16:22:21 372 1

原创 Spark Rdd持久化

Rdd持久化--持久化方式1RDD:缓存机制cachepersistcache=persist(MEMORY)注意点：cache()或persist()后不能再有其他算子cache()或persist()遇到Action算子完成后才生效应用场景：从文件加载数据之后，因为重新获取文件成本较高经过较多的算子变换之后，重新计算成本较高单个非常消耗资源的算子之后缓存策略：StorageLevelMEMORY_ONLYMEMORY_AND_DISKDISK_ONLYval v

2020-08-18 16:20:27 120

原创 flume安装和简单使用

Flume****日志收集（1）Apache Flume简介--Flume用于将多种来源的日志以流的方式传输至Hadoop或者其它目的地一种可靠、可用的高效分布式数据收集服务--Flume拥有基于数据流上的简单灵活架构，支持容错、故障转移与恢复--由Cloudera 2009年捐赠给Apache，现为Apache顶级项目（2）Flume架构--Client：客户端，数据产生的地方，如Web服务器--Event：事件，指通过Agent传输的单个数据包，如日志数据通常对应一行数据Agent

2020-08-17 19:35:22 144

原创 Spark GraphX学习

Saprk GraphX（1）为什么需要图计算许多大数据以大规模图或网络的形式呈现许多非图结构的大数据，常会被转换为图模型进行分析图数据结构很好地表达了数据之间的关联性（2）图（Graph）的基本概念--图是由顶点集合(vertex)及顶点间的关系集合（边edge）组成的一种网状数据结构通常表示为二元组：Gragh=（V，E）可以对事物之间的关系建模--应用场景在地图应用中寻找最短路径社交网络关系网页间超链接关系（3）图的术语顶点（Veretex）边（Edge）Gra

2020-08-12 14:16:48 154

原创 Spark SQL精华及与Hive的集成

Spark SQL精华及与Hive的集成SQL on Hadoop--SQL是一种传统的用来进行数据分析的标准Hive是原始的SQL-on-Hadoop解决方案Impala：和Hive一样，提供了一种可以针对已有Hadoop数据编写SQL查询的方法Presto：类似于Impala，未被主要供应商支持Shark：Spark SQL的前身，设计目标是作为Hive的补充Phoenix：基于HBase的开源SQL查询引擎Spark SQL****架构Spark SQL是Spark的核心组件之一（

2020-08-12 14:02:34 139

原创 kafka入门与基础使用

kafka核心介绍（1）消息中间件（MQ）--异步调用同步变异步--应用解耦提供基于数据的接口层--流量削峰缓解瞬时高流量压力（2）消息中间件的术语Broker：消息服务器，提供核心服务Producer：消息生产者Consumer：消息消费者Topic：主题，发布订阅模式下的消息统一汇集地Queue：队列，P2P模式下的消息队列（3）操作命令开启服务：kafka-server-start.sh /opt/soft/kafka211/config/server.proper

2020-08-12 13:44:18 140

原创 hive基本命令

（1）hive设置显示当前数据库：可在hive-site.xml中配置set hive.cli.print.current.db=true;（2）查询默认建表语句：show create table 表名（3）hive后台启动：(非必须)nohup hive --service metastore &（4）beeline后台启动：（必须）nohup hive --service hiveserver2 &（5）进入beeline:beeline -u jdbc:hi

2020-08-11 15:07:11 425

原创 hive高阶语句

（1）ctas:as selectcreate table ctas_employee as select * from employee;（2）cte:with … ascreate table cte_employee as withr1 as (select name from employee where name ='Michael'),r2 as (select name from employee where sex_age.sex='MAle'),r3 as (select

2020-08-11 15:06:22 226

原创 Hive UDF开发流程

文章目录一.概述二.UDF分类三.自定义UDF1.pom.xml依赖1.继承UDF类或GenericUDF类重写evaluate()方法并实现函数逻辑3.编译打包为jar文件（打包时的jdk版本需和hadoop的jdk版本一致）4.复制到正确的HDFS4-1在hdfs上创建目录4-2将本地的jar包拷到刚创建的hdfs目录中4-3注册UDF5.使用jar创建临时/永久函数6.使用6-1 模板数据6-2 调用函数一.概述通常情况下，当hive自带的函数并不能完全满足业务需求，这时就需要我们自定义UDF函数

2020-06-16 19:34:06 807

原创 Mysql的exist()用法

准备2张表，并插入数据学生表create table student(userid int ,username varchar(20),age int ,classid int);insert into student(userid,username,age,classid) values(1,'zs',23,01),(2,'ls',25,02),(3,'ww',26,01),(4,'zl',56,02),(5,'hehe',34,04),(6,'xixi',14,04);班级表inser

2020-06-11 20:20:56 22150 1

原创 ElasticSearch之Logstash简单使用

简介：Logstash 是免费且开放的服务器端数据处理管道，能够从多个来源采集数据，转换数据，然后将数据发送到您最喜欢的“存储库”中。1.下载并解压logstash的压缩包，我这边用的是6.2.2logstash-6.2.2.tar.gz2.运行解压后的bin/logstash脚本，我这是控制台上最简单的输入和输出[root@zhangqi bin]# ./logstash -e 'input { stdin {} } output { stdout {} }'3.注意：logstash的配置

2020-06-07 16:24:37 306

原创 maven项目如何打包

说明：（1）胖包：将maven项目中的依赖包和项目打为一个包。（2）瘦包：直接打包，不打包依赖包，仅打包出项目中的代码到JAR包中。1.打瘦包2.打胖包第一种：只打胖包快捷键：Alt+shirt+ctrl+s定入口函数和胖包的保存路径开始打包打胖包完成3.同时打胖包和瘦包1.修改maven项目的pom文件<build> <plugins> <plugin> <artifactId>maven-co

2020-06-07 16:07:01 11100 1

原创 Hadoop之MapReduce详细操作演练

1.hadoop主要是用来解决大数据的存储和计算两大难题，存储交给了hdfs，而计算则是由mapreduce来负责项目演练：Word Count需求：将aa.txt该文件的每个单词的数量统计出来aa.txt 内容hello javahello chinahello mysqlhello...

2020-06-04 21:14:39 279 1

原创 Hadoop的简单安装和配置

1.安装包的准备：hadoop-2.6.0-cdh5.14.2.tar.gz2.解压安装包3.配置文件进入hadoop安装包/etc/hadoop3.-1 vi hadoop-env.shjava_home为你本地的jdk目录export JAVA_HOME=/opt/soft/jdk1803-2 vi core-site.xml<configuration> <property> <name>fs.de

2020-06-01 14:57:49 218

原创 centos集群的搭建并且设置无密码登录

集群搭建1.至少准备两台centos的服务器，这边以2台为例：两台服务器的ip必须处在同一个网段中，我的默认网关是192.168.56.1,两台服务器只要保证前3位一样，最后1位不同：例如 192.168.56.xxx主机：A ip:192.168.56.105 计算机名：zhangqi从机：B ip:192.168.56.106 计算机名：zhangqi022.编辑主机A的hosts文件：vi /etc/hosts添加如下字段，分别是主机和从机的ip和计算机名3.测试例

2020-05-20 00:46:12 223

原创 centos安装并配置maven

1.准备maven安装包例如：apache-maven-3.6.1-bin.tar.gz2.解压tar -zxf apache-maven-3.6.1-bin.tar.gz 说明：个人习惯将安装包放在/opt目录下，同时在此目录下新建soft目录，同时将解压后的文件移到soft目录中，同时重命名[root@zhangqi opt]# mv apache-maven-3.6.1 soft/maven3613.修改maven的配置文件vi /opt/soft/maven361/conf/set

2020-05-19 23:44:30 445

原创 centos7下安装配置jdk和tomcat

1.准备jdk和tomcat在centos下的安装包，将其拷到虚拟机上例如：（1）jdk-8u111-linux-x64.tar.gz（2）apache-tomcat-8.5.54.tar.gz2.解压安装包tar -zxf apache-tomcat-8.5.54.tar.gztar -zxf jdk-8u111-linux-x64.tar.gz 结果：说明：个人通常会在/opt下新建一个soft目录，并且将解压后的文件移动到soft中，并重命名mkdir -p /opt/soft

2020-05-19 22:25:56 157

原创 centos操作系统的简单配置

1.更改计算机名hostnamectl set-hostname 你的计算机名查看计算机名hostname2.网络配置说明：该服务器为centos虚拟机，底层机器为win10,虚拟你配置了两块网卡，分别是编辑网卡配置，底层win10的默认网关是:192.168.56.1vi /etc/sysconfig/network-scirpts/ifcfg-enp0s3dhcp -> static 作用：动态获取ip变为静态ipno -> yes 作用：虚拟机centos启动

2020-05-19 21:31:51 239

原创 Linux简单的常用命令

Linux目录操作命令：cd ：进入目录cd..：返回上一级ls：查看目录下文件ls -a：查看目录下文件（包含隐藏文件）ll ：查看目录下文件的详细信息mkdir：创建目录（只能一次创建一层目录）mkdir -p：创建目录（一次可以创建多层目录）rm ri：删除文件之前询问用户（yes/no）rm -rf：删除文件或是目录（强制，不询问，一次可以删多层）cp：复制文件（源地址，新地址）mv：移动文件和重命名（源地址，新地址）Linux文件操作命令：|：管道符（在前面的结果上执行

2020-05-13 00:46:02 104

原创 centos7 64位安装mysql详解

Centos7 64位安装mysql详解1.检查从最新版本的linux系统开始（如 Centos7），默认的是 Mariadb而不是mysql！(mysql被闭源厂家收购，有闭源风险)，而Mariadb的存在会在安装mysql时引起冲突，所以要先确认是否已经安装了Mariadb，如果已安装需卸载。(1)检查mariadb是否安装[root@zhangqi opt]# rpm -qa | grep mariadb查询结果即为mariadb的安装包mariadb-libs-5.5.65-1.e

2020-05-12 22:04:36 385

weixin_42834505的博客