程研板
码龄8年
关注
提问 私信
  • 博客:123,786
    社区:6
    动态:100
    123,892
    总访问量
  • 89
    原创
  • 240,265
    排名
  • 150
    粉丝
  • 1
    铁粉

个人简介:计算机本硕连读,热爱大数据和人工智能,希望能够为apache社区添砖加瓦。2025年起开始接做毕设的项目。

IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:上海市
  • 加入CSDN时间: 2017-04-10
博客简介:

程研板的博客

查看详细资料
  • 原力等级
    当前等级
    3
    当前总分
    406
    当月
    2
个人成就
  • 获得239次点赞
  • 内容获得47次评论
  • 获得597次收藏
  • 代码片获得7,247次分享
创作历程
  • 1篇
    2024年
  • 11篇
    2022年
  • 34篇
    2021年
  • 43篇
    2020年
成就勋章
TA的专栏
  • 编程常用工具
    2篇
  • 微信小程序
    1篇
  • 大数据项目
    2篇
  • 推荐系统
    1篇
  • 算法与数据结构
  • 玩转算法
    12篇
  • 数据结构
    7篇
  • JAVA基础
    3篇
  • 玩转SQL
    3篇
  • Hadoop
    5篇
  • Hive
    11篇
  • Hbase
    1篇
  • Kafka
    10篇
  • Flume
    4篇
  • Zookeeper
  • Spark
  • Spark基础与案例
    12篇
  • Spark原理与优化
    6篇
  • Linux
    1篇
  • 机器学习
    7篇
兴趣领域 设置
  • 大数据
    hadoophivesparketl
创作活动更多

超级创作者激励计划

万元现金补贴,高额收益分成,专属VIP内容创作者流量扶持,等你加入!

去参加
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

Scala 重难点总结

/ 类似于 Java 的 Object// AnyVal 类型的子类// AnyRef 类型的子类// Nothing 表示抛出异常 或者 集合为空,是最底层的子类def test6():Int = {if(1 < 0) 1 else throw new Exception } // 实际会返回 Nothing// None 是对象 不是类,它的类型是 Option[Nothing]
原创
发布博客 2024.04.28 ·
1425 阅读 ·
20 点赞 ·
0 评论 ·
16 收藏

Spark中的Join操作及问题解决

目录一.数据准备二.Spark Core中的Join三.Spark SQL中的Join一.数据准备grade.txt:(id, grade)1,751,861,642,76address.txt:(id, address)1,shanghai1,beijing二.Spark Core中的Join需要把每行转换成键值对的形式。val grade = sc.textFile("D:\\study\\ideaProject\\first_maven\\input\\grade.txt"
原创
发布博客 2022.04.04 ·
3611 阅读 ·
0 点赞 ·
0 评论 ·
10 收藏

一文讲透Spark中的分区和分桶的不同

目录一.数据准备二.Spark Core中的分区三.Spark SQL中的分区和分桶(用HQL)一.数据准备partition.txt:b,2c,1b,1d,3a,2b,1二.Spark Core中的分区val rdd = sc.textFile("D:\\study\\workspace\\spark-sql-train\\input\\partition.txt") .map(_.split(",")).map(x => (x(0), x(1)))rdd.saveAs
原创
发布博客 2022.04.03 ·
3435 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

Spark中的checkpoint机制

目录一.Spark Core中的checkpoint二.Spark Streaming中的checkpoint三.Spark Structured Streaming中的checkpoint一.Spark Core中的checkpoint二.Spark Streaming中的checkpoint三.Spark Structured Streaming中的checkpoint
原创
发布博客 2022.03.14 ·
2911 阅读 ·
0 点赞 ·
0 评论 ·
3 收藏

Spark用户行为日志分析——离线项目整理

目录一.读取数据源二.Spark SQL进行ETL三.数据落地到HBase一.读取数据源用户行为日志:110.85.18.234 - - [30/Jan/2019:00:00:21 +0800] "GET /course/list?c=cb HTTP/1.1" 200 12800 "www.imooc.com" "https://www.imooc.com/course/list?c=data" - "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/5
原创
发布博客 2022.03.13 ·
5487 阅读 ·
0 点赞 ·
0 评论 ·
20 收藏

Spark用户行为日志分析——实时项目整理

目录一.数据源二.数据收集Flume三.消息队列Kafka四.Spark Streaming数据分析五.Structured Streaming数据分析六.Echarts数据可视化一.数据源二.数据收集Flume三.消息队列Kafka四.Spark Streaming数据分析五.Structured Streaming数据分析六.Echarts数据可视化...
原创
发布博客 2022.03.13 ·
1199 阅读 ·
1 点赞 ·
0 评论 ·
2 收藏

Kafka容错性测试

目录一.创建3个配置文件二.启动zk和kafka三.创建topic、消费者、生产者四.三个broker五.kill掉一个,依然能工作六.kill掉两个,依然能工作一.创建3个配置文件server.properties:broker.id=0listeners=PLAINTEXT://hadoop000:9092log.dirs=/home/hadoop/app/tmp/kafka-logserver-1.properties:broker.id=1listeners=PLAINTEXT:/
原创
发布博客 2022.03.12 ·
2054 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

Spark Streaming官网重点整理

目录一.Spark Streaming1.Input DStreams and Receivers2.Receiver Reliability3.Transform Operation4.UpdateStateByKey Operation5.Output Operations on DStreams6.DataFrame and SQL Operations7.Fault-tolerance Semantics二.Spark Structured Streaming一.Spark Streaming1
原创
发布博客 2022.03.09 ·
655 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

Spark SQL Guide——Data Sources

文章目录Parquet FilesPartition Discovery(解析分区信息)Schema Merging(模式归并)Hive metastore Parquet table conversion(Hive metastore Parquet表转换)Columnar Encryption(列式加密)Hive TablesSpecifying storage format for Hive tables(指定Hive表的存储格式)Interacting with Different Versions
原创
发布博客 2022.01.27 ·
1724 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

Hive的Metastore与Hiveserver2

文章目录Metastore原生Hive(内嵌模式)采用外部数据库(本地模式)单独起metastore服务(远程模式)Hiveserver2Metastore原生Hive(内嵌模式)Derby的内嵌模式:Derby数据库与应用程序共享同一个JVM,通常由应用程序负责启动和停止,对除启动它的应用程序外的其它应用程序不可见,即其它应用程序不可访问它;不同路径下启动hive,不同路径下都会生成metastore_db文件,每一个路径下的hive拥有一套自己的元数据,无法共享。spark和Hive一样,都
原创
发布博客 2022.01.25 ·
4680 阅读 ·
2 点赞 ·
0 评论 ·
8 收藏

对Spark中Driver的小研究

目录Standalone模式Yarn模式driver是进程吗?先说结论:1.Standalone模式中,client是spark-submit进程中开启一个线程,然后通过反射执行driver代码的main方法。cluster是开启DriverWrapper进程来运行driver。2.Yarn模式,client是spark-submit进程中开启一个线程,然后通过反射执行driver代码的main方法。cluster是ApplicationMaster进程中通过反射执行driver代码的main方法
原创
发布博客 2022.01.13 ·
1804 阅读 ·
3 点赞 ·
2 评论 ·
4 收藏

SQL案例分析及易错点整理

目录创建user表过滤行聚合函数分组子查询case when窗口函数创建user表create table user(username varchar(10),class int,performance int)insert into user values("zhang",1,6);insert into user values("zhu",1,8);insert into user values("liu",1,4);insert into user values("guo",2,6
原创
发布博客 2022.01.11 ·
568 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

《大数据技术体系详解》问题积累(持续更新)

文章目录一.数据收集1.关系型数据收集2.非关系型数据收集3.消息队列Kafka二.数据存储三.协调与资源管理四.计算引擎五.数据分析1.Hive2.Spark SQL一.数据收集1.关系型数据收集sqoop:全量收集。sqoop2和sqoop1的比较,就是将以前的CLI变为Server,然后再实现一个轻量级的CLI,可通过命令行或者HTTP来访问Server。就是把以前的CLI部署到了云端,现在的CLI只需要发送命令就行了。sqoop提交的就是一个只有map的MR程序。从mysql导入到h
原创
发布博客 2021.10.31 ·
1317 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

微信小程序入门知识点汇总

整理自慕课网实战课《微信小程序入门》1.JSON对象和JS对象的区别2.px和rpx的区别3.flex布局4.属性中字符串和JS表达式的区别5.数据绑定Paga.data和SetData函数6.DOM优先和数据优先7.生命周期函数和特殊回调函数8.条件渲染和列表渲染9.路由函数NavigateTo和RedirectTo的区别10.Catch与Bind事件的区别...
原创
发布博客 2021.09.02 ·
517 阅读 ·
3 点赞 ·
1 评论 ·
3 收藏

玩转算法(十四)——链表(排序和重排)

目录重排86. 分隔链表328. 奇偶链表143. 重排链表排序148. 排序链表147. 对链表进行插入排序重排86. 分隔链表86. 分隔链表328. 奇偶链表328. 奇偶链表143. 重排链表143. 重排链表排序148. 排序链表148. 排序链表147. 对链表进行插入排序147. 对链表进行插入排序...
原创
发布博客 2021.07.29 ·
292 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

玩转算法(十三)——链表(双链表)

目录双链表2. 两数相加445. 两数相加 II21. 合并两个有序链表双链表2. 两数相加2. 两数相加445. 两数相加 II445. 两数相加 II21. 合并两个有序链表21. 合并两个有序链表
原创
发布博客 2021.07.26 ·
178 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

玩转算法(十二)——链表(删除链表)

目录删除链表83. 删除排序链表中的重复元素203. 移除链表元素82. 删除排序链表中的重复元素 II237. 删除链表中的节点19. 删除链表的倒数第 N 个结点删除链表83. 删除排序链表中的重复元素83. 删除排序链表中的重复元素203. 移除链表元素203. 移除链表元素82. 删除排序链表中的重复元素 II82. 删除排序链表中的重复元素 II237. 删除链表中的节点237. 删除链表中的节点19. 删除链表的倒数第 N 个结点19. 删除链表的倒数第 N 个结点..
原创
发布博客 2021.07.25 ·
171 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

玩转算法(十一)——链表(反转链表)

目录反转链表206. 反转链表92. 反转链表 II24. 两两交换链表中的节点25. K 个一组翻转链表61. 旋转链表反转链表206. 反转链表206. 反转链表92. 反转链表 II92. 反转链表 II24. 两两交换链表中的节点24. 两两交换链表中的节点25. K 个一组翻转链表25. K 个一组翻转链表61. 旋转链表61. 旋转链表...
原创
发布博客 2021.07.24 ·
158 阅读 ·
1 点赞 ·
1 评论 ·
0 收藏

提倡移动计算,但是移动数据也存在

原创
发布博客 2021.06.02 ·
141 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

关于Hive和Spark on yarn的调度总结

目录参考文章参考文章Hive Driver 原理yarn-cluster和yarn-client提交模式的区别Spark Thrift Server 架构和原理介绍理解Spark SQL(一)—— CLI和ThriftServer
原创
发布博客 2021.05.22 ·
867 阅读 ·
0 点赞 ·
0 评论 ·
3 收藏
加载更多