zxfBdd
码龄9年
  • 1,395,309
    被访问
  • 30
    原创
  • 3,797
    排名
  • 150
    粉丝
关注
提问 私信
  • 加入CSDN时间: 2013-06-29
博客简介:

u011250186的博客

查看详细资料
  • 6
    领奖
    总分 2,814 当月 31
个人成就
  • 获得269次点赞
  • 内容获得124次评论
  • 获得1,658次收藏
创作历程
  • 64篇
    2022年
  • 280篇
    2021年
  • 616篇
    2020年
  • 291篇
    2019年
  • 1篇
    2016年
  • 1篇
    2015年
成就勋章
TA的专栏
  • 数据库
    94篇
  • hive
    102篇
  • 工作效率
    18篇
  • git
    13篇
  • 生活职场
    8篇
  • 财经
  • 数据结构和算法
    167篇
  • 面试
    2篇
  • spark
    63篇
  • 电脑装机
    3篇
  • js
    8篇
  • linux shell
    35篇
  • mysql
    84篇
  • CDH
    12篇
  • impala
    8篇
  • 爬虫
    20篇
  • Hadoop
    11篇
  • maven
    9篇
  • Kafka
    17篇
  • Spring_Boot
    9篇
  • 计算机从业者自身修养
    4篇
  • 笔记
  • 大数据治理
    24篇
  • redis
    20篇
  • 多线程
    6篇
  • hbase
    12篇
  • 分布式系统理论
    8篇
  • 图数据库
    12篇
  • scala
    4篇
  • es
    6篇
  • 项目管理
    4篇
  • 资源寻找
  • SQL解析
    5篇
  • ABTest
  • 监控工具
    3篇
  • Postgresql
    85篇
  • QGIS
    22篇
  • 架构师
    1篇
  • influxdb
    1篇
  • 行业事件
    1篇
  • sql使用
    1篇
  • 自由职业
  • 大数据
    292篇
  • Java
    138篇
  • flink
    93篇
  • Cassandra
    95篇
  • Python
    51篇
  • Linux
    57篇
兴趣领域 设置
  • 数据结构与算法
    排序算法推荐算法
  • 人工智能
    opencvcaffetensorflowmxnetpytorchnlpscikit-learn聚类集成学习迁移学习分类回归
  • 最近
  • 文章
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

【硬刚大数据】大数据同步工具之FlinkCDC/Canal/Debezium对比

《【硬刚大数据之学习路线篇】从零到大数据专家的学习指南(全面升级版)》前言数据准实时复制(CDC)是目前行内实时数据需求大量使用的技术,随着国产化的需求,我们也逐步考虑基于开源产品进行准实时数据同步工具的相关开发,逐步实现对商业产品的替代。本文把市面上常见的几种开源产品,Canal、Debezium、Flink CDC 从原理和适用做了对比,供大家参考。本文首发微信公众号《import_bigdata》DebeziumDebezium is an open source distribu...
转载
发布博客 前天 21:37 ·
35 阅读 ·
0 点赞 ·
0 评论

Apache Hudi在Linkflow构建实时数据湖的生产实践

可变数据的处理一直以来都是大数据系统,尤其是实时系统的一大难点。在调研多种方案后,我们选择了 CDC to Hudi 的数据摄入方案,目前在生产环境可实现分钟级的数据实时性,希望本文所述对大家的生产实践有所启发。1. 背景Linkflow 作为客户数据平台(CDP),为企业提供从客户数据采集、分析到执行的运营闭环。每天都会通过一方数据采集端点(SDK)和三方数据源,如微信,微博等,收集大量的数据。这些数据都会经过清洗,计算,整合后写入存储。使用者可以通过灵活的报表或标签对持久化的数据进行...
转载
发布博客 前天 21:26 ·
38 阅读 ·
0 点赞 ·
0 评论

WA(Write Amplification)写入放大

WA是闪存及SSD相关的一个极为重要的属性。由于闪存必须先擦除才能再写入的特性,在执行这些操作时,数据都会被移动超过1次。这些重复的操作不单会增加写入的数据量,还会减少闪存的寿命,更吃光闪存的可用带宽而间接影响随机写入性能。WA这个术语在2008年被Intel公司和SiliconSystems公司(于2009 年被西部数据收购)第一次提出并在公开稿件里使用。 举个最简单的例子:当要写入一个4KB的数据时,最坏的情况是一个块里已经没有干净空间了,但有无效的数据可以擦除,所以主...
转载
发布博客 2022.05.10 ·
12 阅读 ·
0 点赞 ·
0 评论

oracle日期排序语句,oracle先排序再分页

Oracle排序分页查询和MySQL数据库的语句还不一样,这里做简单的记录。按操作时间排序1SELECT A.*, ROWNUM RN FROM (SELECT * FROM v_log) A ORDER BY operatetime DESC结果可以发现,按时间排序了,但是rownum并不是从小到大,因为oracle是先生成rownum,再进行排序,需要在套一层查询按操作时间排序2SELECT T.*, rownum RN FROM(SELECT * FROM (SEL..
转载
发布博客 2022.05.10 ·
13 阅读 ·
0 点赞 ·
0 评论

mysql中MVCC多版本并发控制原理的详解

今天我们分享mysql中MVCC多版本并发控制原理的详解一、MVCC定义1、MVCC简介MVCC,全称Multi-Version Concurrency Control,即多版本井发控制,MVCC是一种并发控制的方法,一般在数据库管理系统中,实现对数据库的并发访问,在编程语言中实现事务内存。MVCC在MysQL InnoDB中的实现主要是为了提高数据库并发性能,用更好的方式去处理读写冲突。做到即使有读写冲突时,也能做到不加锁,非阻塞并发读。2、当前读像select lock in s...
转载
发布博客 2022.05.09 ·
33 阅读 ·
0 点赞 ·
0 评论

MMVC多版本并发控制&事务的特性与隔离级别

多版本并发控制(Multiversion concurrency control,MVCC)是一种思想,有很多种实现方法。乐观并发控制(乐观锁)和悲观并发控制(悲观锁)是并发控制主要采用的技术手段。 在关系数据库管理系统里,悲观并发控制(又名“悲观锁”,Pessimistic Concurrency Control,缩写“PCC”)是一种并发控制的方法。 在关系数据库管理系统里,乐观并发控制(又名“乐观锁”,Optimistic Concurrency Control,缩写“OCC”)是一种并发控制的方..
转载
发布博客 2022.05.09 ·
22 阅读 ·
0 点赞 ·
0 评论

Hive- UDF&GenericUDF

hive udf简介在Hive中,用户可以自定义一些函数,用于扩展HiveQL的功能,而这类函数叫做UDF(用户自定义函数)。UDF分为两大类:UDAF(用户自定义聚合函数)和UDTF(用户自定义表生成函数)。在介绍UDAF和UDTF实现之前,我们先在本章介绍简单点的UDF实现——UDF和GenericUDF,然后以此为基础在下一章介绍UDAF和UDTF的实现。Hive有两个不同的接口编写UDF程序。一个是基础的UDF接口,一个是复杂的GenericUDF接口。org.apache.hado..
转载
发布博客 2022.04.28 ·
20 阅读 ·
0 点赞 ·
0 评论

在IDEA中统计项目代码的总行数

1.安装 Statistic 插件统计项目代码,需要先安装插件,idea 插件安装方法如下:(1)点击File -> Settings。(2)进入 Settings 界面后,输入框搜索 plugins,然后点击 Plugins。(3)插件搜索框输入 Statistic,然后点击 Install 安装插件。(4)重启 Idea,使插件生效。2.查看 重启 idea 之后,在左下方可以看到 Statistic (如果没有 , 可以点击View...
转载
发布博客 2022.04.25 ·
362 阅读 ·
0 点赞 ·
0 评论

git统计某段时间内代码的修改量/总代码量

1.前往git本地项目路径下2.右键打开(Git Bash)工具3.输入命令:1)某段时间代码修改量git log --since=2021-01-01 --until=2021-05-18 --pretty=tformat: --numstat | awk '{ add += $1; subs += $2; loc += $1 - $2 } END { printf "added lines: %s, removed lines: %s, total lines: %s
", ad..
转载
发布博客 2022.04.25 ·
142 阅读 ·
0 点赞 ·
0 评论

MySQL information_schema 系统库介绍

前言:当我们安装好 MySQL 数据库后,会发现数据库实例自带有 information_schema 系统库,你是否有去关注过这个系统库呢?是否有查询过此库中的表数据呢?又是否清楚此库存在的具体作用呢?带着这些疑问,我们一起来看本篇文章。1. information_schema 简介information_schema 顾名思义就是一个信息库,是用来存储数据库的元数据(比如数据库,表的名称,列的数据类型或者访问权限等),在每个 MySQL 实例中,information_...
转载
发布博客 2022.04.24 ·
17 阅读 ·
0 点赞 ·
0 评论

MYSQL中information_schema简介

一、information_schema简介在MySQL中,把 information_schema 看作是一个数据库,确切说是信息数据库。其中保存着关于MySQL服务器所维护的所有其他数据库的信息。如数据库名,数据库的表,表栏的数据类型与访问权 限等。在INFORMATION_SCHEMA中,有数个只读表。它们实际上是视图,而不是基本表,因此,你将无法看到与之相关的任何文件。二、information_schema数据库表说明:1、SCHEMATA表:提供了当前mysql实例中所有数据库的信..
转载
发布博客 2022.04.24 ·
65 阅读 ·
0 点赞 ·
0 评论

大数据组件 in K8S

作者颜卫,腾讯高级后台开发工程师,专注于Kubernetes大规模集群管理和资源调度,有过万级集群的管理运维经验。目前负责腾讯云TKE大规模Kubernetes集群的大数据应用托管服务。大数据的发展历史大数据技术起源于Google在2004年前后发表的三篇论文,分布式文件系统GFS、分布式计算框架MapReduce和NoSQL数据库系统BigTable,俗称"三驾马车"。在论文发表后,Lucene开源项目的创始人Doug Cutting根据论文原理初步实现了类似GFS和MapReduce的功能。..
转载
发布博客 2022.04.13 ·
37 阅读 ·
0 点赞 ·
0 评论

win10+Chrome浏览器截长图方法

本方法亲测可行,操作系统为win10,其他操作系统没有试过。部分内容基于https://blog.csdn.net/ianly123/article/details/80565614并进行修正。打开 Chrome 浏览器,进入需要截图的网站页面。打开开发者工具:在页面任何地方点击鼠标右键,在弹出菜单中选择「检查」选项。或者使用快捷键组合:Ctrl + shift + i。打开命令行:快捷键组合 Ctrl + shift +p。在命令行中输入「screen」,这时自动补齐功能会显示出一些包含 .
转载
发布博客 2022.04.13 ·
101 阅读 ·
0 点赞 ·
0 评论

hive sql 自动根据时区转换

select date_format(from_utc_timestamp(1567640142000,"UTC"),'yyyy-MM-dd') as local_time2019-09-04selectdate_format(from_utc_timestamp(1567640142000,"GMT+8"),'yyyy-MM-dd')aslocal_time2019-09-05
转载
发布博客 2022.04.08 ·
67 阅读 ·
0 点赞 ·
0 评论

hive时间戳函数之unix_timestamp(),from_unixtime,to_utc_timestamp

一. 日期>>>>时间戳1.unix_timestamp() 获取当前时间戳例如:当前时间戳:select unix_timestamp() --1565858389获取当前时间:echo `date -d 'now' '+%Y-%m-%d'` -- 2020-07-16获取当前时间:echo `date +%Y%m%d` --20200716 2.unix_timestamp(string timestame) 输入的时间戳格式必须..
转载
发布博客 2022.04.08 ·
113 阅读 ·
0 点赞 ·
0 评论

hive函数to_unix_timestamp与unix_timestamp效率问题

可怕,hive版本1.2.1,实践中发现,to_unix_timestamp比unix_timestamp函数快几十甚至上百倍!!!
转载
发布博客 2022.04.08 ·
19 阅读 ·
0 点赞 ·
0 评论

UTC GMT CST

时间戳定义是:格林威治时间1970年01月01日00时00分00秒(北京时间1970年01月01日08时00分00秒)起至现在的总秒数,表示为:1970-01-01 00:00:00 UTC。它称为Unix时间(Unix time)、POSIX时间(POSIX time)。从定义可以看到,全球相同时刻,不管你是什么时区,时间戳是一致的,时间戳是不会跟着时区的改变而改变。用时间戳来表示时间全球都是一致的,但是它是很长的整数,非常不直观,因此大家常用格式化字符串来表示时间。如:1520411719 时间戳,对应
原创
发布博客 2022.04.08 ·
310 阅读 ·
0 点赞 ·
0 评论

HIVE时间戳错误unix_timestamp时间转换与本地时间不同

1.select from_unixtime(unix_timestamp(),‘yyyy/MM/dd HH:mm:ss’);执行时间与本地时间有误差时间戳:2019/01/16 02:36:13本地时:2019-01-16 10:36:10正好相差8小时安装ntp服务同步时间也无效最后翻找官方文档查看unix_timestamp获取时间属性:Converts time string in format yyyy-MM-dd HH:mm:ss to Unix timestamp (in sec.
转载
发布博客 2022.04.02 ·
82 阅读 ·
0 点赞 ·
0 评论

Hive中日期处理

1、日期函数UNIX时间戳转日期函数:from_unixtime()函数 格式 返回值 说明 from_unixtime from_unixtime(bigint unixtime[, string format]) string 转化UNIX时间戳(从1970-01-01 00:00:00 UTC到指定时间的秒数)到当前时区的时间格式 hive (temp)> select from_unixtime(1323308943,'yyyyMMdd')..
转载
发布博客 2022.04.02 ·
42 阅读 ·
0 点赞 ·
0 评论

Hive、Presto、PostgroSQL 时区、日期、时间转换(昨天、周)

UTC转GMT+0800(东八区)select from_utc_timestamp(cast(regexp_replace(regexp_replace('2019-07-12T09:01:59.056Z','T',' '),'Z','') as timestamp),"GMT+0800")【重点在于】:from_utc_timestamp(‘1970-01-01 08:00:00’,‘PST’) 函数可以将UTC时区的时间转换为其他时区,但是其第一个参数格式需要是"yyyy-MM-dd HH:.
转载
发布博客 2022.04.02 ·
132 阅读 ·
0 点赞 ·
0 评论
加载更多