纯欲天花板_
码龄6年
关注
提问 私信
  • 博客:80,379
    社区:45
    80,424
    总访问量
  • 43
    原创
  • 1,397,691
    排名
  • 22
    粉丝
  • 0
    铁粉
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:浙江省
  • 加入CSDN时间: 2018-11-02
博客简介:

糊里糊涂走进大数据的小菜鸡

查看详细资料
个人成就
  • 获得20次点赞
  • 内容获得12次评论
  • 获得210次收藏
  • 代码片获得299次分享
创作历程
  • 15篇
    2022年
  • 30篇
    2021年
成就勋章
TA的专栏
  • 大数据
    1篇
  • PostgreSQL
    1篇
  • 数据集成工具
    5篇
  • spark
    9篇
  • 自定义
    2篇
  • python
    5篇
  • flink
    4篇
  • mysql
    2篇
  • java
    2篇
  • hbase
    5篇
  • hive
    7篇
  • zookeeper
    1篇
兴趣领域 设置
  • 大数据
    databasemysqlhadoophiveredissparkflumebig dataflinknosqlhdfsmapreducesqoop大数据
  • 云原生
    zookeeper
  • 微软技术
    sql
创作活动更多

超级创作者激励计划

万元现金补贴,高额收益分成,专属VIP内容创作者流量扶持,等你加入!

去参加
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

MySQL查询json数组是否包含多个指定字符串

案例数据:(只放了一条数据)[{“categoryId”: 130, “categoryName”: “API工艺研究”}, {“categoryId”: 136, “categoryName”: “化合物委托生产”}, {“categoryId”: 139, “categoryName”: “制剂工艺研究”}, {“categoryId”: 144, “categoryName”: “制剂委托生产”}, {“categoryId”: 147, “categoryName”: “药理药效毒理研究”}]这
原创
发布博客 2022.04.29 ·
4103 阅读 ·
0 点赞 ·
0 评论 ·
5 收藏

PostgreSQL数据库相关函数运用

PostgreSQL数据库相关函数运用regexp_split_to_array 函数regexp_split_to_table 函数array_length 函数regexp_split_to_array 函数字符串分隔函数,可通过指定的表达式进行分隔,将字符串转换成数组。搜索条件为多选,如选择a,c# regexp_split_to_array(字段名,分隔符)select regexp_split_to_array('a,b,c',',');regexp_split_to_table 函
原创
发布博客 2022.04.19 ·
1254 阅读 ·
1 点赞 ·
0 评论 ·
2 收藏

hive增加表头、数据库名显示配置

修改 hive-site.xml 配置<property> <name>hive.cli.print.header</name> <value>true</value> <description>是否打印表头,默认值为false,即不打印</description></property><property> <name>hive.cli.print.c
原创
发布博客 2022.02.11 ·
656 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

kafka的安装配置与使用

一、kafka安装与配置1、上传压缩包到任意节点2、解压,配置环境变量 所有节点都配置3、修改配置文件vim /usr/local/soft/kafka_2.11-1.0.0/config/server.properties1、broker.id=0,每一个节点broker.id 要不一样2、zookeeper.connect=master:2181,node1:2181,node2:21813、log.dirs=/usr/local/soft/kafka_2.11-1.0.0/data
原创
发布博客 2022.01.21 ·
389 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Flink集群搭建及运行模式

local 本地测试idea运行flink集群测试1、standallone cluster1、准备工作配置JAVA_HOME免密钥2、上传解压 tar -xvf flink-1.11.0-bin-scala_2.11.tgz 配置环境变量 vim /etc/profile3、修改配置文件(如果是伪分布式,就不需要修改配置文件)vim conf/flink-conf.yamljobmanager.rpc.address: master 主节点ip地址vim
原创
发布博客 2022.01.19 ·
575 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Flink常用算子

文章目录DataStream常用算子1、Map2、FlatMap3、Filter4、KeyBy5、Reduce6、Aggregations7、Window8、WindowAll9、Union10、Window Join11、Split12、SelectDataStream常用算子在 Flink 应用程序中,无论你的应用程序是批程序,还是流程序,都是上图这种模型,有数据源(source),有数据下游(sink),我们写的应用程序多是对数据源过来的数据做一系列操作,总结如下。Source: 数据源,
原创
发布博客 2022.01.17 ·
2382 阅读 ·
0 点赞 ·
0 评论 ·
8 收藏

大数据之离线数仓项目搭建(一)

数据仓库搭建文章目录数据仓库搭建1、开启hadoop的权限验证2、在hive中创建数据库3、在hdfs中创建5个目录4、在linux中创建5个用户5、将目录权限赋值给不同用户6、修改hive权限7、在ods中创建表8、将四个表的数据上传到hdfs9、增加分区10、为每一个用户在hdfs中创建一个目录11、DWD层-位置融合表12、DWS层-停留表13、维表接入1、将维表数据导入到mysql -- init_tour.sql2、在hive中创建表3、使用datax将数据集成到hdfs1、开启hadoop
原创
发布博客 2022.01.10 ·
2454 阅读 ·
0 点赞 ·
0 评论 ·
13 收藏

Saprk总结

Saprk总结-大数据方向前言为什么要学习Spark?1. Spark比MapReduce快spark可以将数据缓存在内存中进行计算 (cache)spark是粗粒度资源调度,MR是细粒度资源调度DAG有向无环图 (spark两个shuffle中间结果不需要落地,MR需要数据落地)2. Spark简单1. Spark corespark比MR快的三个原因RDD五大特性:RDD由一组分区组成,默认一个block对应一个分区算子实际上是作用在每一个分区上的,每一个分区都会由一个
原创
发布博客 2022.01.09 ·
631 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Spark调优

文章目录1. Spark调优之性能调优2. Spark调优之参数调优数据倾斜1. Spark调优之性能调优避免创建重复的RDD尽可能复用同一个RDD对多次使用的RDD进行持久化默认情况下,性能最高的是 MEMORY_ONLY,但前提是你的内存必须足够足够大, 可以绰绰有余地存放下整个RDD的所有数据。第二种常用 MEMORY_ONLY_SER级别。该级别会将RDD数据序列化后再保存在内存中,此时每个partition仅仅是一个字节数组而已,大大减少了对象数量,并降低了内存占用。尽量避
原创
发布博客 2022.01.08 ·
957 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

SparkStreaming

在大数据的各种框架中,hadoop无疑是大数据的主流,但是随着时代发展,hadoop只适用于离线数据的处理,无法应对一些实时数据的处理分析,我们需要一些实时计算框架来分析数据。因此出现了很多流式实时计算框架,比如Storm,Spark Streaming,Samaz等框架,本文主要讲解Spark Streaming的工作原理以及如何使用。1. SparkStreamingSparkStreaming是微批处理,每隔一段时间处理一次,每隔一段时间将接收到的数据封装成一个rdd, 再触发一个job处理r.
原创
发布博客 2022.01.07 ·
1494 阅读 ·
0 点赞 ·
0 评论 ·
4 收藏

SparkSQL JDBC连接

SparkSQL JDBC连接文章目录SparkSQL JDBC连接1、开启hive元数据服务1、开启hive元数据服务nohup hive --service metastore >> metastore.log 2>&1 &2、开启spark jdbc 服务cd /usr/local/soft/spark-2.4.5/sbin/./start-thriftserver.sh --master yarn-client3、在命令行中访问cd /usr/l
原创
发布博客 2022.01.06 ·
3500 阅读 ·
1 点赞 ·
0 评论 ·
6 收藏

Spark SQL整合Hive

文章目录1. Spark SQL整合Hive2. SparkSQL与Hive共用元数据2.1 开启Hive元数据服务2.1.1 修改hive配置2.1.2 启动hive元数据服务2.2 拷贝hive-site.xml和mysql驱动2.3 启动SparkSQL2.4 测试1. Spark SQL整合Hive为什么要进行整合?由于hive原生是基于MapReduce的,导致其查询耗时较长。为了保留Hive的架构解决方案,并优化查询速度,采用SparkSql与hive整合(spark on hive),
原创
发布博客 2022.01.05 ·
2908 阅读 ·
2 点赞 ·
0 评论 ·
17 收藏

Spark安装与使用

1、上传解压,配置环境变量 配置bin目录2、修改配置文件 confcp spark-env.sh.template spark-env.sh增加配置export SPARK_MASTER_IP=masterexport SPARK_MASTER_PORT=7077export SPARK_WORKER_CORES=2export SPARK_WORKER_INSTANCES=1export SPARK_WORKER_MEMORY=2gexport JAVA_HOME=/usr/loca
原创
发布博客 2022.01.05 ·
376 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

Spark RDD算子总结

1、什么是RDDRDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是 Spark 中最基本的数据处理模型。代码中是一个抽象类,它代表一个弹性的、不可变、可分区、里面的元素可并行计算的集合。弹性存储的弹性:内存与磁盘的自动切换;容错的弹性:数据丢失可以自动恢复;计算的弹性:计算出错重试机制;分片的弹性:可根据需要重新分片。分布式:数据存储在大数据集群不同节点上数据集:RDD 封装了计算逻辑,并不保存数据数据抽象:RDD 是一个抽象类,需要子类具体实现
转载
发布博客 2022.01.04 ·
423 阅读 ·
1 点赞 ·
0 评论 ·
6 收藏

Spark常用算子之行为算子

Spark常用算子之行为算子foreach// foreach 没有返回值 会触发job// 需要接收一个函数f:参数为RDD中的泛型,返回值类型为Unit // 1、读取students、scores数据 val stuRDD: RDD[String] = sc.textFile("Spark/data/stu/students.txt") // foreach 没有返回值 会触发job // 需要接收一个函数f:参数为RDD中的泛型,返回值类型为Unit
原创
发布博客 2022.01.03 ·
624 阅读 ·
0 点赞 ·
2 评论 ·
0 收藏

Spark常用算子之转换算子

Spark是一种基于内存的通用计算框架,使用Scala语言实现,是一种面向对象、函数式编程语言,能够像操作本地集合对象一样轻松的操作分布式数据集。
原创
发布博客 2021.12.30 ·
2024 阅读 ·
1 点赞 ·
0 评论 ·
7 收藏

Mac OS端安装win10、JDK环境变量及Intellij IDEA安装和配置

1、M1芯片的Mac 安装Windows系统(按需安装)安装步骤:https://www.macdo.cn/34696.html2、MAC安装JDK及环境变量配置安装步骤:https://blog.csdn.net/vvv_110/article/details/728971423、MAC版本 eclipse开发java环境配置安装步骤:https://blog.csdn.net/liuxiao723846/article/details/1088318874、MAC版本 intellij
原创
发布博客 2021.12.29 ·
413 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Scala基本语法(一)

Scala是一门以Java虚拟机(JVM)为运行环境并将面向对象和函数式编程的最佳特性结合在一起的静态类型编程语言(静态语言需要提前编译的如:Java、c、c++等,动态语言如:js)。
原创
发布博客 2021.12.24 ·
646 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

全国空气质量分析.pdf

发布资源 2021.12.22 ·
pdf

MySQL数据处理之增删改

MySQL数据处理之增删改1. 插入数据1.1 实际问题解决方式:使用 INSERT 语句向表中插入数据。1.2 方式1:VALUES的方式添加使用这种语法一次只能向表中插入一条数据。情况1:为表的所有字段按默认顺序插入数据INSERT INTO 表名VALUES (value1,value2,....);值列表中需要为表的每一个字段指定值,并且值的顺序必须和数据表中字段定义时的顺序相同。举例:INSERT INTO departmentsVALUES (70, 'Pub',
转载
发布博客 2021.12.21 ·
201 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏
加载更多