随风奔跑之水
码龄7年
关注
提问 私信
  • 博客:177,924
    177,924
    总访问量
  • 54
    原创
  • 2,136,594
    排名
  • 55
    粉丝
  • 0
    铁粉

个人简介:理想是光明的,道路是曲折的,劲头是不可阻挡的

IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:陕西省
  • 加入CSDN时间: 2017-10-31
博客简介:

小小良

博客描述:
程序人生
查看详细资料
个人成就
  • 获得92次点赞
  • 内容获得20次评论
  • 获得568次收藏
  • 代码片获得304次分享
创作历程
  • 4篇
    2021年
  • 18篇
    2020年
  • 97篇
    2019年
  • 1篇
    2018年
成就勋章
TA的专栏
  • flink
    3篇
  • Spark
    2篇
  • Spark-SQL
    5篇
  • 精品教程
  • PostgreSQL
    1篇
  • Java基础
    13篇
  • Scala
    18篇
  • MySQL
    5篇
  • Pandas
    3篇
  • Python基础
    1篇
  • Java面向对象
    3篇
  • Java高级编程
    12篇
  • Hadoop
    38篇
  • XML
    1篇
  • Python网络爬虫
    1篇
  • 数据挖掘
    5篇
  • Python-web
    3篇
  • Python机器学习
    8篇
  • SpringBoot
  • shell
    2篇
  • 数据仓库(hive)
    23篇
兴趣领域 设置
  • 大数据
    hadoophivestormsparketl
创作活动更多

HarmonyOS开发者社区有奖征文来啦!

用文字记录下您与HarmonyOS的故事。参与活动,还有机会赢奖,快来加入我们吧!

0人参与 去创作
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

Flink理解时间和watermark机制原理

1、Flink时间管理(满足不同场景需要)https://zhuanlan.zhihu.com/p/3997518872、Flink中watermark机制(处理数据延迟和数据乱序问题)(解决数据丢失)https://blog.51cto.com/u_12824426/2581930
转载
发布博客 2021.08.20 ·
285 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Flink算子实操(图文)

原文地址:https://zhangboyi.blog.csdn.net/article/details/114288304
转载
发布博客 2021.08.19 ·
431 阅读 ·
1 点赞 ·
0 评论 ·
2 收藏

配置Hadoop集群客户端

配置Hadoop集群客户端版本更新内容备注v1.0创建文档2020-10-11v1.1新增词根相关2021-01-06Markdown在线编辑器:http://www.mdeditor.com在Hadoop和Spark集群搭建好了之后,如果我们需要向集群中发送、获取文件,或者执行MapReduce、Spark作业,通常是搭建一个外围的、集群的客户端,在这个客户端上进行操作。而不是直接在集群的NameNode或者DataNode上进行。此时,集群和客户端的结.
转载
发布博客 2021.01.13 ·
790 阅读 ·
3 点赞 ·
0 评论 ·
5 收藏

某某的一生

以下文字摘自网络,内心共鸣,随写于此26岁,你看着身边的人都结了婚婚礼的份子钱逐年递增春节回家,父母从带你串亲戚变成了带你去见相亲对象见了十几个姑娘你每次都觉得和那个她比差了一点28岁那年,你遇到了一个和你遭遇差不多的姑娘你们有一搭没一搭的聊着她说,你还不错你喝了一口可乐说:你也是你还不确定喜不喜欢她双方家长就已经摆好了订婚宴结婚的前一周,你和朋友出去喝酒你说,不想结婚朋友说,你啊,就是想太多,谁不是这么过来的? 这辈子.29岁,你们终于结了婚婚礼办的不..
原创
发布博客 2020.12.04 ·
475 阅读 ·
3 点赞 ·
2 评论 ·
2 收藏

Hive中的数据分桶

参考文章:hive分桶管理https://blog.csdn.net/freefish_yzx/article/details/77150714hive的分区和分桶https://blog.csdn.net/wl1411956542/article/details/52931499---------------------------------------------------------------------------------------------------------
原创
发布博客 2020.11.10 ·
3034 阅读 ·
1 点赞 ·
0 评论 ·
6 收藏

数据仓库-缓慢渐变维度解决方法

在从OLTP业务数据库向DW数据仓库抽取数据的过程中,特别是第一次导入之后的每一次增量抽取往往会遇到这样的问题:业务数据库中的一些数据发生了更改,到底要不要将这些变化也反映到数据仓库中?在数据仓库中,哪些数据应该随之变化,哪些可以不用变化?考虑到这些变化,在数据仓库中的维度表又应该如何设计以满足这些需要。很显然在业务数据库中数据的变化是非常自然和正常的,比如顾客的联系方式,手机号码等信息可能随着顾客的所在地的更改发生变化,比如商品的价格在不同时期有上涨和下降的变化。那么在业务数据库中,很自然的就...
原创
发布博客 2020.11.06 ·
339 阅读 ·
1 点赞 ·
0 评论 ·
2 收藏

MYSQL数据库-表维护

1、监控MySQL磁盘容量如果想知道MySQL数据库中每个表占用的空间、表记录的行数的话,可以打开MySQL的information_schema数据库。在该库中有一个TABLES表,这个表主要字段分别是:TABLE_SCHEMA:数据库名TABLE_NAME:表名ENGINE:所使用的存储引擎TABLES_ROWS:记录数DATA_LENGTH:数据大小INDEX_LENGTH:索引大小其他字段请参考MySQL的手册,我们只需要了解这几个就足够了。所以要...
原创
发布博客 2020.08.31 ·
1298 阅读 ·
1 点赞 ·
0 评论 ·
2 收藏

Spark-Shell 常用算子练习

// 在控制台执行:spark-shell// ------------------------------------------------------// 一、元素型 RDD数据val rdd = sc.parallelize(1 to 10, 3) => rdd: Array[Int] = Array(1, 2, 3, 4, 5, 6, 7, 8, 9, 10)// transformation 转换,记录了RDD演变的过程,只有action才会触发transformatio.
原创
发布博客 2020.08.27 ·
483 阅读 ·
1 点赞 ·
0 评论 ·
2 收藏

如何给证件照换底色;如何调整证件照大小

一、如何给证件照换底色1、打开Excel,点击【插入】>【图片】2、选择需要更换底色的照片,然后点击【插入】3、此时工作表中就添加了需要更换底色的照片。(白色比较复杂,如果白色会更换了,其它颜色就不在话下了)4、选中图片,在弹出的格式菜单中选择最左侧的【删除背景】工具5、同时配合【标记要保留的区域和】和【标记要删除的区域】将照片中颜色几乎相同的白色衬衣标记为要保留的区域。然后点击【保留更改】6、此时点击图片以外的区域,我们看到的照片就是已经去除背景色的照片了,.
原创
发布博客 2020.07.17 ·
3979 阅读 ·
1 点赞 ·
1 评论 ·
6 收藏

常用数据挖掘算法整理

1、热度算法和个性化推荐http://www.woshipm.com/pmd/723735.html
原创
发布博客 2020.07.14 ·
345 阅读 ·
1 点赞 ·
0 评论 ·
1 收藏

UDF(PYTHON / JAVA)入门级开发

开发前的声明 udf开发是在数据分析的时候如果内置的函数解析不了的情况下去做的开发,比方说你只想拆分一个字段,拼接一个字段之类的,就不要去搞udf了,这种基本的需求自带函数完全支持,具体参数可参考文档: http://spark.apache.org/docs/latest/api/sql/search.html?q=cast 里面列举了所有函数的介绍和使用,推荐优先使用官方推出的,因为自己写的udf如果对一些异常处理不到位可能会导致数据分析的失败或者意...
原创
发布博客 2020.07.07 ·
1845 阅读 ·
1 点赞 ·
0 评论 ·
8 收藏

文本类数据分词、词频、标签

1、贝叶斯案例3:文本关键词提取、新闻分类(python实现)https://blog.csdn.net/PbGc396Dwxjb77F2je/article/details/78786984
转载
发布博客 2020.07.01 ·
429 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

你的数据业务系统需要数据仓库吗?(合集)

参考博客:https://www.cnblogs.com/JaneZSS/p/6678548.html
原创
发布博客 2020.06.22 ·
393 阅读 ·
1 点赞 ·
1 评论 ·
2 收藏

在VMware中搭建多节点Hadoop集群(全系列篇)

https://www.cnblogs.com/chaoren399/p/10709483.html
原创
发布博客 2021.02.02 ·
747 阅读 ·
1 点赞 ·
0 评论 ·
5 收藏

Scala中特殊符号的使用

Scala中常用特殊符号
转载
发布博客 2020.06.12 ·
443 阅读 ·
1 点赞 ·
1 评论 ·
1 收藏

Linux三剑客之awk命令

Linux三剑客之awk命令
转载
发布博客 2020.06.11 ·
253 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

在IDEA中利用Maven创建Spark项目

1、安装相应sdk及环境变量配置(1)安装java-sdk(2)安装scala-sdk(3)安装spark2、安装IDEA从官网下载安装包,常规安装,在Plugins中添加所需的插件,scala等3、maven配置打开maven存放文件夹找到 conf ->settings.xml找到<mirrors>节点把下面内容写入节点内 配置为阿里云的镜像  <mirror> <id>alimaven</id>
原创
发布博客 2020.06.08 ·
2555 阅读 ·
3 点赞 ·
0 评论 ·
22 收藏

Win10下开发基于hadoop的spark、flink项目(全系列篇)

个人感觉有帮助的,就不复制了,链接如下:https://blog.csdn.net/songhaifengshuaige/article/details/79480491
原创
发布博客 2020.05.15 ·
1094 阅读 ·
1 点赞 ·
0 评论 ·
4 收藏

sparkSQL实战详解

摘要 如果要想真正的掌握sparkSQL编程,首先要对sparkSQL的整体框架以及sparkSQL到底能帮助我们解决什么问题有一个整体的认识,然后就是对各个层级关系有一个清晰的认识后,才能真正的掌握它,对于sparkSQL整体框架这一块,在前一个博客已经进行过了一些介绍,如果对这块还有疑问可以看我前一个博客:http://9269309.blog.51cto.com/9259309/1845525。本篇博客主要是对sparkSQL实战进行讲解和总结,而不是对sparkSQL源码的讲解...
转载
发布博客 2020.05.14 ·
397 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

sparkSQL的实现原理解析

这篇博客的目的是让那些初次接触sparkSQL框架的童鞋们,希望他们对sparkSQL整体框架有一个大致的了解,降低他们进入spark世界的门槛,避免他们在刚刚接触sparkSQL时,不知所措,不知道该学习什么,该怎么看。这也是自己工作的一个总结,以便以后可以回头查看。后续会对sparkSQL进行一系列详细的介绍。慢慢来吧~~~1、sql语句的模块解析 当我们写一个查询语句时,一般包含三个部分,select部分,from数据源部分,where限制条件部分,这三部分的内容在sql中有专门的名称:..
原创
发布博客 2020.05.14 ·
764 阅读 ·
1 点赞 ·
0 评论 ·
6 收藏
加载更多