Gklearlove-CSDN博客

原创 Spark核心计算与SparkSQL概念、API、优化(基于Java)

Spark学习笔记一、Spark基本概念1、架构初析1-1、Spark的基本架构组成Spark应用程序由一个驱动器进程(driver)和一组执行器(worker)进程组成。其中驱动器(driver)的作用是：维护Spark应用程序的相关信息；回应用户的程序或输入；分析任务并分发给各个执行器去处理。执行器(worder)的作用是负责执行驱动器分配的任务，并将状态反馈给驱动器，其执行的进程叫做Executor。在Spark应用程序运行的过程中，对于资源的分配由Cluster Manag

2023-11-09 16:30:43 264

原创 Python-获取上个月的今天

获取上个月的今天from datetime import datetime,timedeltafrom dateutil.relativedelta import relativedeltadef day_last_mn(today):today = datetime.strptime(today, “%Y-%m-%d”)endDayOfLastMonth = today - relativedelta(months=1)return datetime.strftime(endDayOfLast

2022-04-25 17:35:16 1722

原创 PySpark报错：Connection reset by peer: socket write error

pyspark报错如下：Caused by: java.net.SocketException: Connection reset by peer: socket write error at java.net.SocketOutputStream.socketWrite0(Native Method) at java.net.SocketOutputStream.socketWrite(SocketOutputStream.java:111) at java.net.SocketOutputStr

2022-02-11 15:27:28 1912

原创 Spark一次性读取多个目录(嵌套)下多个文件

Spark一次性读取指定目录下的所有子目录(嵌套)下的所有文件(pyspark语言为例子)sc = spark.sparkContextrdd = sc.textFile("/file/*/part-*")举例：当前目录：[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-hdvK2g4M-1644562997368)(C:\Users\guokai02\AppData\Roaming\Typora\typora-user-images\image-2022021115

2022-02-11 15:06:57 2971

原创 Vant 修改tabs的下划线颜色和宽度

border-bottom: 1px solid #dcddde; /deep/ .van-tabs__line { background-color: #4FA6FF; width: 20px; } /deep/ .van-tab--active { color: #4FA6FF; }

2021-09-08 16:14:27 4508

原创二、数据仓库笔记之数仓分层

2、数据仓库分层2-1、分层的简单介绍一般大数据数据仓库的分层结构如图所示：其中，ODS层是近源层，一般是同步业务端数据，数据不进行更改（但是可以扩充字段，比如更新时间、来源等）；CDM层是用来进行数据清洗、数据分析以及建模；ADS层存储的是清洗好的数据，对外提供数据服务，狭义上也称为数据集市层。CDM层又分为数据明细层DWD和数据汇总层DWS层：DWD层存储的是各种经过维度退化进行简单汇总的零散明细表，也就是各个模块的明细表，满足三范式。DWS层存储的是各个明细表join一起得到的大宽表（

2021-08-21 16:51:50 3621 2

转载大数据常见错误

1、用./bin/spark-shell启动spark时遇到异常：java.net.BindException: Can’t assign requested address: Service ‘sparkDriver’ failed after 16 retries!解决方法：add export SPARK_LOCAL_IP=“127.0.0.1” to spark-env.sh2、java Kafka producer error:ERROR kafka.utils.Utils$ - fetchi

2021-07-30 11:46:50 1399

原创 Hive创建表的过程详细过程

Hive创建表的过程详细过程Demo第一个demoCREATE TABLE db.testTable( id string COMMENT 'id' ,name string COMMENT '姓名' ,age bigint COMMENT '年龄' )COMMENT '测试表'ROW FORMAT DELIMITEDFIELDS TERMINATED BY '\001'SOTRED AS PARQUET;这个创建表的涉及的参数主要有：ROW FORMAT

2021-07-28 17:13:22 1144

原创 SpringBoot的后端携带url重定向

@RequestMapping("/redirctPage")public ModelAndView redirctPage(){ if (isLogin()){ //页面名称 ModelAndView modelAndView = new ModelAndView("UserAuth"); return modelAndView; }else { //未登录重定向到登陆页面 //地址 Mode

2021-07-19 11:25:54 1008

原创 Spak基础—4、RDD和DataSet的API(JAVA)

1、RDD的APIRDD的使用主要分转换操作和动作操作，其中转换操作输入值是RDD，返回值是RDD，且其是惰性的，也就是说不会真的去操作，只有当动作操作到来时才会全部一次性去操作类似于链条一样。动作操作的输入值是RDD，输出值的值，也就是RDD操作的终结。1-0、创建RDD/**创建rdd的方式有多种*从文件读取、从数据源获取、手动创建*步骤都是：* 1、创建sparkconf进行配置* 2、创建JavaSparkContext* 3、创建JavaRDD*注意：SparkSession是

2021-06-29 11:37:42 537

原创 Spak基础—3、共享变量

5、共享变量广播变量主要分为广播变量和累加器5-1、广播变量广播变量的特点：只读的数据，不是RDD只能再Driver定义或修改，无法在Executor 定义或修改在各个节点保存，不用因为任务再来回传输，直接读取本地一个Executor有一份副本广播变量的优点：不需要再来回传输，因此也减少了反复的序列化和反序列化频繁使用的变量会导致Executor的每个task都有一份副本，但是广播后同一个Executor共享一个副本，减少不必要的网络传输和GC广播变量使用的场景：频繁使用的

2021-06-28 17:46:50 417

原创 Spark基础—2、弹性分布式数据集RDD

4、RDD 弹性分布式数据集4-1、RDD的基本概念弹性分布式数据集，本质上就是特殊的只读的分区记录集合，可以分成多个分区，每个分区就是一个数据集片段，分区可以保存在不同节点上进行计算。4-2、RDD的特点a list of partitions：一个RDD是由多个partition组成的list，一般情况下，一个partition对应HDFS的一个block也就是一个文件a function for partiotioner：一个函数作用在每一个分区上，比如map的函数，每个分区都会执行一遍

2021-06-28 17:45:18 149

原创 Spark基础—1、Spark基础概念

Spark笔记一、Spark基础部分part1 Spark的基础概念1、Spark的介绍Apache Spark 是一个快速的，通用的集群计算系统。它对 Java，Scala，Python 和 R 提供了的高层 API，并有一个经优化的支持通用执行图计算的引擎。它还支持一组丰富的高级工具，包括用于 SQL 和结构化数据处理的 Spark SQL，用于机器学习的MLlib，用于图计算的 GraphX和流处理Spark Streaming。2、Spark的基本结构和执行过程基本结构与作用：主从架构

2021-06-22 15:16:17 204

原创 Kafka简单案例

Kafka简单案例0.8.2.2生产者package com.gklearlove.controller.Kafka;import java.util.ArrayList;import java.util.List;import java.util.Properties;import kafka.javaapi.producer.Producer;import kafka.producer.KeyedMessage;import kafka.producer.ProducerConfig

2021-06-18 16:08:17 1023 3

原创 Spark原理性学习-调度系统

Spark原理性笔记一、调度系统1、Spark调度系统简述Spark调度系统的核心职责：先将构建好的DAG拆分成分布式任务（划分成不同Stages以及创建内部Tasks），根据集群的资源情况，按照调度规则按照一定顺序将分布式任务分发到执行器中执行。2、Spark调度系统的组件以及作用Spark调度系统的组件可以分为以下三个：DAGSchedulerSchedulerBackendTaskScheduler2-1、DAGSchedulerDAGScheduler的主要职责有两个，一个

2021-06-09 19:13:12 211

原创 ClickHouse学习

ClickHouse学习一、ClickHouse概念 ClinkHouse隶属于OLAP(联机分析)的列式数据库，注意是OLAP和列式数据库。其中OLAP的适用场景如下：OLAP适用场景： 1、大多数是读请求 2、数据总是批量写入 3、不修改历史数据 4、每次都是读取大量的行 5、宽表，也就是一个表有大量的列 6、简单查询 7、处理单个查询需要高吞吐量与其他列式数据库比如HBase、BigTable的每秒数十万的吞吐能力相比，ClinkHouse拥有更大的每秒几亿行的吞吐能力。

2020-10-23 14:54:33 745

原创 ES学习总结与Java API操作

ES学习一、ElasticSearch介绍ES是基于Lucene的搜索服务器，提供了分布式多用户能力的全文搜索引擎，支持开箱即用ES隐藏了Lucene的复杂性，对外提供Restful接口来操作索引、搜索ES是分布式文档存储二、ElasticSearch优点扩展性好，可部署上百台服务器集群，处理PB级数据分布式的实时文档存储，实时分析搜索引擎，每个字段都可以被索引三、相关概念介绍3-1、文档概念ES是分布式文档存储，由于ES存储的是JSON格式的数据，所以文档也就是存储JSON格

2020-08-25 14:37:34 299

原创 Druid学习与总结

Druid学习一、Druid基本1-1、Druid的简介Apache Druid是一个实时分析型数据库，针对的是大型数据集的快速查询分析（OLAP）。Druid可以当做数据库来进行实时获取数据、高性能查询、高稳定运行，也可以被用来助力分析型应用的图形化界面，和高并发的后端API。Druid最适合应用于面向事件类型的数据，其使用的架构是MPP架构。特点就是：处理数据量大、可以实现实时查询、可以实现交互式查询1-2、架构特征列式存储：效果就是只需要查特定的列，极大提高了列查询场景的性能。并且每一列

2020-08-14 19:32:50 620

原创 HDFS常用命令与调优总结

一、HDFS相关常用总结1、HDFS文件块默认是128M寻址时间：就是指的查找到目标block的时间寻址时间最佳为传输时间的1%目前磁盘的传输速率普遍为100M/sblock的大小应该为=传输时间*传输速率HDFS块大小调节标准HDFS块设置太小会增加寻址时间HDFS块设置太大会导致磁盘传输数据时间明显大于寻址时间，导致处理很慢HDFS块的大小设置取决于传输速率，也就是最好=传输时间*传输速率2、HDFS的shell命令3．常用命令实操（0）启动Hadoop集群（方便后续的

2020-07-31 13:03:07 1089

原创 Hive自定义函数使用步骤（简略版）

Hive自定义函数使用步骤在Java中创建相应的函数，UDF、UDTF、UDAF等，并打包上传到集群在Hive中将jar包导入：add jar /opt/module/hive/hivefunction-1.0-SNAPSHOT.jar;在Hive中创建临时函数或永久函数并与想要使用的自定义函数进行连接起来create temporary function base_analizer as 'com.atguigu.udf.BaseFieldUDF';create tempora

2020-07-22 21:31:42 555

原创 Python个人总结（基础+进阶）

Python总结GK版一0、python的重载与重写：何为重载：重载指的是相同的方法名，不同的参数，或不同的参数类型。根据传入的参数的个数与参数的个数来判断使用哪个方法。但是在python中相同的方法名会被覆盖，所以不能实现传统意义上的重载。运算符重载:是通过改写运算符的魔法方法来实现的何为重写：重写指的是将继承的方法进行重新编写，覆盖继承的父方法。1、is 与 ==区别：is是判断左...

2020-07-22 18:27:56 981

原创对于Maven打包提示：打包错误: 编码GBK的不可映射字符

解决方法：指定编码格式为utf-8，实例如下： <plugins> <plugin> <artifactId>maven-compiler-plugin</artifactId> <version>2.3.2</version> <configuration>

2020-07-22 18:27:27 461

原创 Hbase（操作，非原理）个人理解

六、ZookeeperZookeeper概念Zookeeper是一个大型分布式的可靠的协调系统Zookeeper特点最终一致性可靠性实时性：保证读数据时全部一致使用Sync来协调等待无关原子性顺序性Zookeeper功能配置维护名字服务分布式同步组服务Zookeeper架构 [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直...

2019-10-25 11:34:06 134

原创 Spark个人理解（基础）

Spark学习一、Spark整体架构介绍Spark组件Spark Core提供内存计算框架Spark Streaming 伪实时计算应用Spark SQL 数据查询处理MLlib 机器学习GraphX/Grapframes 图处理Spark（与Hadoop区别）：执行引擎：DAG计算方式：内存计算Spark特点：运行速度快...

2019-10-23 13:17:33 188 1

原创 Python个人总结（基础+进阶）

Python总结0、python的重载与重写：何为重载：重载指的是相同的方法名，不同的参数，或不同的参数类型。根据传入的参数的个数与参数的个数来判断使用哪个方法。但是在python中相同的方法名会被覆盖，所以不能实现传统意义上的重载。运算符重载:是通过改写运算符的魔法方法来实现的何为重写：重写指的是将继承的方法进行重新编写，覆盖继承的父方法。1、is 与 ==区别：is是...

2019-10-23 13:13:49 2377 1

原创 Python爬虫基础

一、基础库urllib方法含义用法urllib.request.urlopen(url)这个方法就是访问指定的urlresponse=urllib.request.urlopen(url)其中response是访问返回的源码，但源码不是utf-8格式的response.read()返回读取的源码content = response.read()，由于respo...

2019-09-20 11:50:38 128

原创 Python常用正则表达式方法

正则总结a、正则常用的方法：方法含义match()判断一个正则表达式是否从开始处匹配一个字符串search()遍历字符串，找到正则表达式匹配的第一个位置findall()遍历字符串，找到正则表达式匹配的所有位置，并以列表的形式返回finditer()遍历字符串，找到正则表达式匹配的所有位置，并以迭代器的形式返回sub()sub(‘正则’,‘...

2019-09-20 11:43:55 147

原创 Python中类的私有方法，类方法，静态方法等

类的私有方法，类方法，静态方法等方法/属性的类型方法表示特点类方法@classmethod def 方法体：则这个方法一般是类的方法，即类.方法。一般不给实例化对象来使用。私有方法def __方法名:在方法名的前面加__表示这是私有方法。所谓私有方法，就是只能由类本身来使用。其子类不能使用，实例化的对象也不能使用。保护方法def _方法名:在方法...

2019-09-20 11:41:56 711

原创 Python的多种数据类型的常用方法总结

1、列表方法总结：len(list1) ：返回列表的长度max(list1) ：返回列表的最大值min(list1) ：返回列表的最小值list(其他类型) ：将其他类型转成列表list1.append() ：列表添加一个值list1.count(obj) ：统计指定对象在列表的个数list1.extend(list2) : 等价于list1+list2 将列表2的内容添加到列表...

2019-09-20 11:39:08 166

原创微信统计数据

from wordcloud import WorldCloudimport jiebaimport itchatimport numpy as npimport pandas as pdfrom matplotlib import pyplot as pltimport re█#登陆微信itchat.login()Getting uuid of QR code.Dow...

2019-06-25 13:50:12 721

原创共享单车案例

#1.第一步，导包import numpy as npimport pandas as pdfrom matplotlib import pyplot as pltfrom pylab import mpl#修改字符集mpl.rcParams['font.sans-serif'] = ['SimHei']mpl.rcParams['axes.unicode_minus'] = Fal...

2019-06-19 11:53:00 1352 1

原创 python的beautifulsoup库（结合文档，个人小总结）

基本操作区：soup.prettify()将解码后的网页内容对象soup，转换成标准的H5格式soup.标签名获得第一个这个标签的内容（列如：soup.title输出The Dormouse’s story）即这个标签包含的包括标签的内容同样soup.标签1.标签2。。。可以循环，就是取第一个标签1的第一个标签2.。。soup.标签名.name获得这个标签的名字（例如：soup.p.n...

2019-03-05 16:37:27 129

原创 Python内置函数及应用（个人总结）t

1 sum()函数： sum(迭代器，初始值)其中，()内的迭代器必须是由数字组成的，例如数字组成的元组或者列表。初始值是一开始的值，默认是0。即等于：sum()=迭代器的总和＋初始值。例如：sum([1,2,3],4) 输出为：11 等价于(1+2+3)+4 2 type()函数 type(参数)：返回的是参数的数据类...

2018-09-12 23:45:34 255

qq_40407889的博客

原创 Spark核心计算与SparkSQL概念、API、优化(基于Java)

原创 Python-获取上个月的今天

原创 PySpark报错：Connection reset by peer: socket write error

原创 Spark一次性读取多个目录(嵌套)下多个文件

原创 Vant 修改tabs的下划线颜色和宽度

原创二、数据仓库笔记之数仓分层

转载大数据常见错误

原创 Hive创建表的过程详细过程

原创 SpringBoot的后端携带url重定向

原创 Spak基础—4、RDD和DataSet的API(JAVA)

原创 Spak基础—3、共享变量

原创 Spark基础—2、弹性分布式数据集RDD

原创 Spark基础—1、Spark基础概念

原创 Kafka简单案例

原创 Spark原理性学习-调度系统

原创 ClickHouse学习

原创 ES学习总结与Java API操作

原创 Druid学习与总结

原创 HDFS常用命令与调优总结

原创 Hive自定义函数使用步骤（简略版）

原创 Python个人总结（基础+进阶）

原创对于Maven打包提示：打包错误: 编码GBK的不可映射字符

原创 Hbase（操作，非原理）个人理解

原创 Spark个人理解（基础）

原创 Python个人总结（基础+进阶）

原创 Python爬虫基础

原创 Python常用正则表达式方法

原创 Python中类的私有方法，类方法，静态方法等

原创 Python的多种数据类型的常用方法总结

原创微信统计数据

原创共享单车案例

原创 python的beautifulsoup库（结合文档，个人小总结）

原创 Python内置函数及应用（个人总结）t

layui-excel.js

table2excel.js

不同过滤维度(筛选条件)下的日活跃度的数据模型是怎么样的？