lbzz
码龄5年
关注
提问 私信
  • 博客:81,127
    社区:1
    81,128
    总访问量
  • 121
    原创
  • 872,605
    排名
  • 5
    粉丝
  • 0
    铁粉

个人简介:不积bit, 无以成byte

IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:广东省
  • 加入CSDN时间: 2020-03-19
博客简介:

bitbitbyte的博客

查看详细资料
个人成就
  • 获得17次点赞
  • 内容获得9次评论
  • 获得79次收藏
  • 代码片获得113次分享
创作历程
  • 1篇
    2023年
  • 72篇
    2020年
  • 38篇
    2019年
  • 10篇
    2018年
成就勋章
TA的专栏
  • scala
    3篇
  • java
    3篇
  • hadoop
    2篇
  • hive
    2篇
  • hbase
    5篇
  • yarn
    1篇
  • shell
    7篇
  • conda
    1篇
  • maven
    2篇
  • idea
    1篇
  • machinelearning
    8篇
  • python
    14篇
  • 工具
    4篇
创作活动更多

超级创作者激励计划

万元现金补贴,高额收益分成,专属VIP内容创作者流量扶持,等你加入!

去参加
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

恢复调度平台mysql主从同步

调度平台两台MySQL从节点存在Slave_SQL_Running异常,需要恢复。
原创
发布博客 2023.04.15 ·
491 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

shell常用命令大全[bigdata版]

循环遍历数组遍历文件中的所有行if增强双括号日期每月的最后一天往前推一个小时crontab定时调度hadoop检查文件toc循环遍历数组NUM=10for i in $(seq 1 $NUM)do echo "$i"done遍历文件中的所有行while read linedo echo $linedone &...
原创
发布博客 2020.08.23 ·
695 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

kafka channel的parseAsFlumeEvent解析event

kafka channel的parseAsFlumeEvent解析eventKafka Channel的parseAsFlumeEvent的默认值为true,即会为对source来的数据进行解析,解析完会对数据前加前缀,前缀为topic名,因此这种情况,下游会需要做额外的截取工作,所以,当不需要前缀名时,将该属性设置为false.实际中使用kafkachannel, 使用...
原创
发布博客 2020.07.21 ·
1433 阅读 ·
2 点赞 ·
0 评论 ·
0 收藏

hdfs的写流程以及namenode,datanode挂掉后处理

HDFS写流程client -> namenode: 请求上传第一个block -> 收到可上传的节点(距离感知, 机架感知)-> 节点之间建立通信管道 -> 以Packet为单位传输数据(Packet中的单位chunk, 默认512B, 并校验)-> 传输完成后再次向namenode请求, 上传下一个block 通信管...
原创
发布博客 2020.07.13 ·
3154 阅读 ·
0 点赞 ·
0 评论 ·
17 收藏

[转载]LSM树由来、设计思想以及应用到HBase的索引

LSM树由来、设计思想以及应用到HBase的索引
原创
发布博客 2020.07.05 ·
159 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

maven仓库清理未完整下载jar的脚本

maven的pom文件中的依赖jar包可能因为网络问题, 无法完整下载, 导致依赖无法加载, 需要先对其进行清理. 手动清理: 删除maven仓库中的相应文件夹, 或者使用一下脚本, 批量删除.@echo offremset REPOSITORY_PATH=E:\develop\repositoryremfor /f "delims=" %%i in ('dir ...
原创
发布博客 2020.06.30 ·
433 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

ResourceMananger启动报错:Protocol message end-group tag did not match expected tag

启动ResouceManager不成功, 查看日志文件:Failed on local exception: com.google.protobuf.InvalidProtocolBufferException: Protocol message end-group tag did not match expected tag.; Host Details : local hos...
原创
发布博客 2020.06.29 ·
1535 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

已知类名查找maven依赖

打开 https://search.maven.org/ 可以将该网址加入到chrome的搜索框:Chrome浏览器如何快速切换搜索引擎一. 已知全类名输入fc:org.apache.poi.xssf.usermodel.XSSFWorkbook (注:fc 代表 full class)二. 已知类名输入c:类名(注:c 代表 class...
原创
发布博客 2020.06.28 ·
811 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

scala实现kafkaProduce1.0读取文件发送到kafka

pox.xml文件<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:sche...
原创
发布博客 2020.06.28 ·
491 阅读 ·
0 点赞 ·
0 评论 ·
3 收藏

flume1.5的几种conf配置

flume版本: 1.5.2source:netcat 查看flume监听端口是否打开: netstat -tunlp | grep 44444# Name the components on this agenta1.sources = r1a1.sinks = k1a1.channels = c1# Describe/config...
原创
发布博客 2020.06.28 ·
170 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

shell:ps awk杀死进程

ps -ef | awk '/进程名/ && !/awk/{print $2}'| xargs kill -9&& !/awk/ : 并且不匹配"awk"{print $2}: 打印按空格分割的第二个字符串xargs: kill不支持管道, 是使用xargs读取数据...
原创
发布博客 2020.06.28 ·
459 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

scala的maven项目中的pom文件

如果没有添加以下依赖, 那么maven则无法编译scala文件<dependencies> <dependency> <groupId>org.scala-lang</groupId> <artifactId>scala-library</art...
原创
发布博客 2020.06.27 ·
998 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

hive开窗函数进阶

概述开窗函数的理解参见: 理解hive中的开窗函数over()中除了可以使用partition by选择分组字段外, 还有以下函数order by 排序指定聚合行的范围, 配合order by使用current row: 当前行n PRECEDING: 往前 n 行数据n FOLLOWING: 往后 n 行数据UNBOUNDED PRE...
原创
发布博客 2020.06.25 ·
694 阅读 ·
0 点赞 ·
0 评论 ·
8 收藏

理解hive中的开窗函数

开窗函数简单介绍与聚合函数一样,开窗函数也是需要对行进行分组, 然后使用聚合算子. 可是它不像普通聚合函数那样每组只返回一个值,而是每一行返回一个窗口的聚合结果.举例说明数据如下hive (default)> select * from over_test;open_test.name open_test.orderdate open_test.costj...
原创
发布博客 2020.06.25 ·
409 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

kafka中的端到端一致性(exactly-one)

端到端一致性: exactly-once传输过程要保证exactly-once, 需要内部能够实现状态保存, 当下游保存失败时, 能够更加保存的历史状态再次提交数据.而下游接受数据, 需要具备去重能力. 去重有两种方式:幂等写入, 事务写入内部: 支持checkpoint或者状态保存下一级: 数据不会被重复写入幂等写入根据key去重, 比如k-v数据库: hbase, redis事务写入...
原创
发布博客 2020.06.25 ·
1059 阅读 ·
1 点赞 ·
0 评论 ·
1 收藏

SparkSQL & Spark on Hive & Hive on Spark[转载]

SparkSQL & Spark on Hive & Hive on SparkSpark On Hive, 将Hive做为数据库, 获得表数据后, 使用Spark SQL对表操作.Hive On Spark, 将Hive的计算引擎替换Spark RDD操作....
原创
发布博客 2020.06.25 ·
133 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

hive常用的日期函数(转载)

转载: hive常用的日期函数## 当前日期和时间SELECT current_timestamp();-- 2018-04-28 11:46:03.136## 获取当前日期,当前是 2018-04-28SELECT current_date;ORSELECT current_date();-- 2018-04-28## 获取unix系统下...
原创
发布博客 2020.06.25 ·
193 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

flink底层API:KeyedProcessFunction

KeyedSteam可以调用process方法, 该方法可以接受一个KeyedProcessFunction类型的参数. KeyedProcessFunction类型的上层父类是RichFunction,对分流后每一个元素调用一次KeyedProcessFunction中的elementProcess方法,可以通过Context调用timeServier, 注册定时器, 获...
原创
发布博客 2020.06.23 ·
316 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

拉链表

概述过程:新建初始表, 增加开始时间, 结束时间, 两个字段新建临时表, 包含开始时间, 与结束时间修改初始表(旧表)中变化数据对应的结束时间后, 将初始表(旧表)数据插入到临时表中, 之后UNION ALL 当天的新增与变化数据.将临时表覆盖初始表(或旧表)的数据核心是生成临时表的两步:只要修改旧表中变化数据的日期(当天日期-1)...
原创
发布博客 2020.06.23 ·
276 阅读 ·
1 点赞 ·
0 评论 ·
1 收藏

大数据去重与布隆过滤器

使用set去重的问题: 只要用到set就需要完整的数据集, 大量数据会导致OOM大数据去重的唯一解决方案是布隆过滤器[详解布隆过滤器的原理]( https://zhuanlan.zhihu.com/p/43263751)计算bloom filter误判率...
原创
发布博客 2020.06.20 ·
286 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏
加载更多