sun_0128
码龄5年
关注
提问 私信
  • 博客:370,896
    社区:5
    370,901
    总访问量
  • 119
    原创
  • 1,636,155
    排名
  • 152
    粉丝
  • 0
    铁粉
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:香港
  • 加入CSDN时间: 2020-04-28
博客简介:

sun_0128的博客

查看详细资料
个人成就
  • 获得310次点赞
  • 内容获得36次评论
  • 获得1,217次收藏
  • 代码片获得691次分享
创作历程
  • 10篇
    2021年
  • 109篇
    2020年
成就勋章
TA的专栏
  • 面试
    15篇
  • flink
    1篇
  • 数据结构与算法
    8篇
  • spark
    23篇
  • 笔记
    1篇
  • 机器学习
    1篇
  • scala
    1篇
  • python
    6篇
  • Hadoop
    32篇
  • 使用linux系统
    6篇
  • 数仓项目
    2篇
  • java高级特性API复习
    7篇
  • mysql复习
    5篇
  • java面向对象复习
    2篇
  • 查询考勤记录
    1篇
  • 使用mybatis连接数据库并查询
    1篇
  • Java基础语法复习
    1篇
兴趣领域 设置
  • 大数据
    hadoophivesparketl
创作活动更多

超级创作者激励计划

万元现金补贴,高额收益分成,专属VIP内容创作者流量扶持,等你加入!

去参加
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

flink get_json

<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/mav
原创
发布博客 2021.07.09 ·
621 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

二叉树的前序中序后序遍历

package datastructure.treeclass Node[A] { private var _data: A = _ def data: A = _data def data_=(value: A): Unit = { _data = value } private var _left: Node[A] = _ def left: Node[A] = _left def left_=(value: Node[A]): Unit = {
原创
发布博客 2021.06.30 ·
291 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

前缀表达式转后缀表达式-->逆波兰计算器

package datastructure.stackimport scala.collection.mutableimport scala.collection.mutable.ArrayBufferobject PolandNotation { def main(args: Array[String]): Unit = { val exp_ = "10+((20+30)*40)-50" val expArr = toInfixArr(exp_) println("前
原创
发布博客 2021.06.23 ·
564 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

scala使用数组模拟栈,使用栈模拟计算器运算

package datastructure.stackimport java.util.Scannerimport scala.reflect.ClassTag/** * 使用数组模拟栈 */class ArrayStack[T: ClassTag]() { private var maxSize: Int = _ private var top: Int = -1 //栈顶 private var stack: Array[T] = _ //数组模拟栈存放数据 def t
原创
发布博客 2021.06.20 ·
201 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

java单向环形链表解决约瑟夫环问题

package datastructure.linkedListimport scala.util.control.Breaksclass Boy(private var no: Int ){ def getNo: Int = this.no def setNo(no: Int): Unit = { this.no=no } //next域 private var next : Boy = _ def getNext: Boy = this.next def se
原创
发布博客 2021.06.20 ·
172 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

java双向链表

package datastructure.linkedListimport scala.util.control.Breaksclass DoubleLinkedList { //先初始化一个头节点 private val head = new HeroNode2(0,"","") /** * 展示双向链表 */ def show(): Unit = { if(head.next == null){ println("链表为空") ret
原创
发布博客 2021.06.20 ·
122 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

java单向链表

package datastructure.linkedListimport scala.util.control.Breaksclass HeroNode{ var no: Int = _ var name: String = _ var nickName: String = _ var next: HeroNode = _ //指向下一个结点 def this(hNo: Int, name: String,nick: String) = { this() th
原创
发布博客 2021.06.19 ·
172 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

数组模拟环形队列

package datastructure.queueimport java.util.Scannerimport scala.reflect.ClassTagclass ArrayQueue[T: ClassTag] extends java.io.Serializable with java.lang.Cloneable { private var maxSize: Int = _ //队列最大容量 //front 变量的含义做一个调整: front 就指向队列的第一个元素, 也就
原创
发布博客 2021.06.19 ·
143 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

二维数组和稀疏数组之间的转换

object SparseArray { def getSparseArray(arr: Array[Array[Int]]): Array[Array[Int]] = { //将二维数组转换成稀疏数组 //1.遍历二维数组得到非零的数的和 var sum = 0 for (elem <- arr) { for (e <- elem) { if(e != 0) sum+=1 } } //2.创建对应的
原创
发布博客 2021.06.19 ·
185 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

shell字符串截取

变量:起始下标:长度%%%
原创
发布博客 2021.03.22 ·
159 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

英雄联盟对战,为求公平需要选取两组分值相差最低的队伍

一.分析两组分值相差最低的,也就是说一个数组分成两个子集,其子集和的差值最小可以换成背包问题,即从数组中选取一半的数作为子集,让这些子集的和与原来总和的一半越接近即可从中选取与一半的总和最接近的一个子集(即需要排序)二.代码如下object TestLm extends App { import scala.io.StdIn //输入 println("请输入10个数字,以空格区分:") val line = StdIn.readLine() //对输入切割成数组并且转为
原创
发布博客 2020.12.15 ·
408 阅读 ·
2 点赞 ·
0 评论 ·
1 收藏

特征重要性评估

文章目录1.数据2.RFECV评估3.GBDT评估1.数据user_interested,user_id,event_id,user_locale,user_gender,user_age,user_time_zone,user_member_days,user_friend_count,user_invite_ahead_days,user_had_event_count,user_invited_event_count,user_attended_event_count,user_not_atten
原创
发布博客 2020.12.04 ·
1229 阅读 ·
1 点赞 ·
2 评论 ·
4 收藏

使用python读取excel文件并且执行相关操作

# -*- coding = utf-8 -*-#@Time: 2020/12/01 22:42#@Author: sun_0128#@File: test.py#@Software: #@Descriptionimport xlrdimport os#获取目录下所有的文件def listdir(path, list_name): #传入存储的list for file in os.listdir(path): file_path = os.path.join(
原创
发布博客 2020.12.01 ·
514 阅读 ·
1 点赞 ·
0 评论 ·
1 收藏

hive使用遇到的一些需求解决

文章目录1.将某一列整数数字5展开成5个12.将所有标点符号替换成空字符(输入时候可能有些一场符号需要清洗)->正则表达式`\\pP\\pS`1.将某一列整数数字5展开成5个1select * from (select explode(split(repeat(1,5),"")) as a) t1 where t1.a!="";效果如下:hive (default)> select * from (select explode(split(repeat(1,5),"")) as a) t
原创
发布博客 2020.11.25 ·
318 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

hive 分页实现

1.支持limit n,m语法的hive版本#!/bin/bashcnt=$(set hive.cli.print.header=false;hive -e "select count(*) from exam.userbehavior;")echo "总记录数: $cnt 条"#每页10条pageSize=10pageNum=`expr $cnt + $pageSize - 1 / $pageSize`echo "总页数: $pageNum 页"for((a=0;a<=$pa
原创
发布博客 2020.11.23 ·
3142 阅读 ·
1 点赞 ·
0 评论 ·
1 收藏

算法练习-KNN分类预测

#导入需要的包import numpy as npimport pandas as pd#读取文件data = pd.read_csv("./iris.csv")#清洗数据,将Species列转化为数字data["Species"] = data["Species"].map({"virginica":0,"setosa":1,"versicolor":2})#删除Id列并替换data中的数据data.drop("Id",axis=1,inplace=True)#删除重复行并替换data
原创
发布博客 2020.09.16 ·
1052 阅读 ·
1 点赞 ·
0 评论 ·
10 收藏

大数据常见面试之算法

文章目录一.海量数据处理1.给一个超过100G大小log file ,log中存着IP地址,设计算法找到出现次数最多的IP地址2.与上题条件相同,如何找到top k的IP?3.给定100亿个整数,设计算法找到只出现一次的整数4.给两个文件,分别由100亿个query,我们只有1G内存,如何找到两个文件交集分别给出精确算法和近似算法5.如何扩展BloomFilter使得它支持删除元素的操作?6.给上千个文件,每个文件大小为1K-100M,给n个词,设计算法对每个词找到包含他的文件,只有100K内存7.有一个词
原创
发布博客 2020.09.14 ·
1075 阅读 ·
1 点赞 ·
0 评论 ·
7 收藏

大数据常见面试题之hive

文章目录一.描述一下Hive动态分区和分桶使用场景和使用方法1.分区2.分桶二.Hive是怎么集成HBase三.Hive join查询的时候on和where有什么区别四.Hive里面的left join是怎么执行的?五.Hive内部表,外部表,分区表六.Hive和mysql有什么区别,大数据为什么不用MySQL做存储和数据处理?七.Hive如何调优八.Hive数据倾斜原因和处理?九.Hive的自定义函数实现了什么接口什么方法?十.使用Hive-sql如何查询A表中B表不存在的数据?十一.如何控制Hive中M
原创
发布博客 2020.09.13 ·
997 阅读 ·
1 点赞 ·
0 评论 ·
9 收藏

大数据常见面试题之MapReduce

文章目录一.MapReduce的执行流程二.MapReduce写过吗?有哪些关键类?mapper的方法有哪些?setup方法是干嘛的?它是每读一行数据就调用一次这个方法吗?1.关键类2.mapper的方法有setup,map,cleanup,run三.有个需求,要求一条指令可以把所有文件都shuffle到同一partition中,用MapReduce的话,你怎么写?四.Hadoop Shuffle原理(越详细越好)?五.combine函数的作用?六.简列几条MapReduce的调优方法1.数据输入2.Map
原创
发布博客 2020.09.13 ·
1897 阅读 ·
1 点赞 ·
0 评论 ·
15 收藏

大数据常见面试题之HBase

一.为什么使用HBase存储HBase(Hadoop Database) 是一个靠可靠性,高性能,可伸缩,面向列的分布式数据库HBase与Hadoop的关系非常紧密,Hadoop的hdfs提供了高可靠性的底层存储支持,Hadoop MapReduce 为 HBase提供了高性能的计算能力,zookeeper为Hbase提供了稳定性及failover机制的保障. 同时其他周边产品诸如Hive可以与HBase相结合使在HBase进行数据统计处理变得简单,Sqoop为HBase提供了方便的RDBMS数据导入
原创
发布博客 2020.09.13 ·
623 阅读 ·
1 点赞 ·
0 评论 ·
8 收藏
加载更多