2020年08月_qq_40375298

原创 Python函数和正则表达式

自定义函数定义函数def func_name(参数列表)：函数体 [return/yield 函数返回值] Python函数的特点函数参数类型多样允许嵌套函数无需声明函数返回值类型yield可以作为函数返回值的关键字函数能够被赋值给变量Python的函数参数无参函数位置参数关键字参数包裹位置参数包裹关键字参数无参函数def show_log(): print('I am a log')show_log()位置参数传入的参数与定义的

2020-08-25 23:50:22 524

原创地表最强系列之Python入门

列表列表的特点用来储存多个数据的数据结构储存的数据是有序的，可使用位置索引列表长度和元素都是可变的可储存不同类型的数据列表的使用方法创建列表:a=[1,2,3,4,5,6,[1,2]]使用索引获取列表中的数据:x[0], x[2], x[-1], x[-3]判断值是否存在于列表中:a=[1,2,3,4,5,6,[1,2]] print(1 in a)元组元组的特点储存形式与列表相似与列表不同的地方:元素不可修改,长度不可改变常用于安全级别较高的场景应用元组的使用方法创建

2020-08-25 19:53:24 264

原创清洗Kafka数据的API

public class UserFrienf { public static void main(String[] args) { //Properties类该类主要用于读取Java的配置文件 Properties prop=new Properties(); prop.put(StreamsConfig.BOOTSTRAP_SERVERS_CONFIG,"192.168.174.41:9092"); prop.put(StreamsConf

2020-08-24 23:14:11 152

原创地表最强系列之Spark数据分析及处理

数据样例2018-09-04T20:27:31+08:00 http://datacenter.bdqn.cn/logs/user?actionBegin=1536150451540&actionClient=Mozilla%2F5.0+%28Windows+NT+10.0%3B+WOW64%29+AppleWebKit%2F537.36+%28KHTML%2C+like+Gecko%29+Chrome%2F58.0.3029.110+Safari%2F537.36+SE+2.X+MetaSr+1

2020-08-21 11:04:54 6052

原创地表最强系列之Spark Streaming

Spark Streaming 是什么?Spark Streaming 是核心 Spark API 的扩展，支持可伸缩、高吞吐量、容错的实时数据流处理。数据可以从许多来源获取，如 Kafka、Flume、Kinesis 或 TCP sockets，可以使用复杂的算法处理数据，这些算法用高级函数表示，如 map、reduce、join 和 window。最后，处理后的数据可以推送到文件系统、数据库和活动仪表板。实际上，还可以将 Spark 的 MLlib 机器学习和 GraphX 图形处理算法应用于数据流。

2020-08-20 23:29:08 146

原创地表最强系列之Kafka

Kafka的Linux环境搭建kafka_2.11-2.0.0 提取码：yft0 将安装包导入并解压$ tar -zvxf kafka_2.11-0.11.0.2.tgz -C /opt/install启动zookeeper集群zkServer.sh start修改server.properties中内容broker.id=0delete.topic.enable=truelisteners=PLAINTEXT://hadoop101:9092log.dirs=/da

2020-08-19 22:14:11 134

原创地鳖最强系列之flume

flume的环境搭建flume-ng-1.6.0-cdh5.14.0.tar.gz 提取码:juak(base) [root@lijia1 install]# tar -zxf flume-ng-1.6.0-cdh5.14.0.tar.gz -C ../bigdata/(base) [root@lijia1 bigdata]# mv apache-flume-1.6.0-cdh5.14.0-bin/ flume160514(base) [root@lijia1 bigdata]# cd ./flu

2020-08-16 15:52:56 109

原创 SparkSQL与Hive的集成

Parquet类型文件Parquet文件：是一种流行的列式存储格式，以二进制存储，文件中包含数据与元数据//TODO 1.创建一个SparkSession 对象 val spark: SparkSession = SparkSession.builder() .master("local[4]").appName("test07") .getOrCreate() //导包 import spark.implicits._ val sc: Spar

2020-08-13 15:18:34 156

原创地表最强系列之Spark SQL

Spark SQL架构Spark SQL是Spark的核心组件之一（2014.4 Spark1.0）能够直接访问现存的Hive数据提供JDBC/ODBC接口供第三方工具借助Spark进行数据处理提供了更高层级的接口方便地处理数据支持多种操作方式：SQL、API编程支持多种外部数据源：Parquet、JSON、RDBMS等Spark SQL运行原理Catalyst优化器是Spark SQL的核心，所有 SQL 操作最终都通过 Catalyst 翻译成类似的 Spark 程序代码被 Spa

2020-08-12 23:26:19 227

原创地表最强系列之Spark GraphX

Spark GraphX 简介GraphX是Spark提供分布式图计算APIGraphX特点基于内存实现了数据的复用与快速读取通过弹性分布式属性图（Property Graph）统一了图视图与表视图与Spark Streaming、Spark SQL和Spark MLlib等无缝衔接图（Graph）的基本概念图是由顶点集合(vertex)及顶点间的关系集合（边edge）组成的一种网状数据结构通常表示为二元组：Gragh=（V，E）可以对事物之间的关系建模应用场景在地图应用中寻找最

2020-08-10 23:29:21 234

原创地表最强系列之Spark基础

什么是SparkApache Spark是专为大规模数据处理而设计的快速通用的计算引擎 [1] 。现在形成一个高速发展应用广泛的生态系统。Spark优势速度快基于内存数据处理，比MR快100个数量级以上（逻辑回归算法测试）基于硬盘数据处理，比MR快10个数量级以上易用性支持Java、Scala、Python、R语言交互式shell方便开发测试通用性一栈式解决方案：批处理、交互式查询、实时流处理、图计算及机器学习多种运行模式YARN、Mesos、EC2、Kubernetes、Sta

2020-08-05 17:15:25 232

原创地表最强系列之Scala的扩展

模式匹配唱量模式常量模式仅匹配自身，任何字面量都可用做常量。def matchTest(x:Int):String=x match{ case 1=>"one" case 2=>"two" case _=>"many"}变量模式变量模式类似于通配模式，可以匹配任意对象，不过与通配符不同的是，Scala将变量绑定在匹配的对象上，随后可以使用该变量操作对象。val expr=10 expr match { case 0=>println("zero"

2020-08-01 19:10:43 224

qq_40375298的博客