BigDataToAI
码龄5年
  • 87,837
    被访问
  • 103
    原创
  • 15,995
    排名
  • 1,859
    粉丝
关注
提问 私信

个人简介:分享大数据经验

  • 加入CSDN时间: 2017-07-27
博客简介:

从大数据到人工智能的博客

博客描述:
分享大数据以及人工智能相关知识,包括hadoop、flink、hudi、kafka、deeplearning4j等
查看详细资料
  • 5
    领奖
    总分 1,647 当月 110
个人成就
  • 获得108次点赞
  • 内容获得119次评论
  • 获得172次收藏
创作历程
  • 38篇
    2022年
  • 95篇
    2021年
  • 1篇
    2020年
成就勋章
TA的专栏
  • hadoop
    6篇
  • mysql
    3篇
  • 实用工具
    23篇
  • Pinot
    2篇
  • Kyuubi
    1篇
  • hive
    12篇
  • flink
    13篇
  • k8s
    1篇
  • Java
    12篇
  • 开源热门
    20篇
  • hudi
    27篇
  • oracle
    1篇
  • spark
    2篇
  • kafka
    8篇
  • 从头构建一个flink问题处理系统
    4篇
  • 人工智能
    7篇
  • InfluxDB
    1篇
  • ambari
    2篇
  • 笔记
  • airflow
    1篇
  • zeppelin
    5篇
  • zookeeper
    1篇
  • spring-guides
    1篇
TA的推广
兴趣领域 设置
  • 大数据
    hadoophivesparkbig dataflinketl
  • 数据库管理
    数据仓库
  • 人工智能
    机器学习人工智能mxnet
推荐
欢迎来到我的技术博客! 关注小程序:"从大数据到人工智能",技术干货想看就看! 专注分享技术干货,包括Java核心技术、大数据、数据湖、人工智能、最新IT行业资讯等。
  • 最近
  • 文章
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

如何使用TPC-DS生成测试数据并导入MySQL

测试环境centos7mysql搭建指南可参考:https://lrting.top/backend/2111/安装依赖:yum install gcc make flex bison byacc git下载TPC-DS tools下载地址:https://www.tpc.org/tpc_documents_current_versions/download_programs/tools-download-request5.asp?bm_type=TPC-DS&bm_vers=3.2.
原创
发布博客 2022.05.20 ·
47 阅读 ·
0 点赞 ·
0 评论

依托于亚马逊云科技的开发者学习体验

前言截止今年(2022年),亚马逊云已经走过了16个年头,并连续十一年被Gartner认可为云计算领导者。在EC2方面从最原始的单一实例到今天支持475+实例类型,而在服务类型方面更是发展并延伸到了各行各业。说起我与亚马逊云科技的渊源,还得从上大学的时候说起,从当年免费体验亚马逊云上的服务资源,到今天在亚马逊云上的持续学习。接下来我将从产品使用、参与创新大会、深入阅读技术资源等方面聊一聊在亚马逊云上的学习历程。从免费试用亚马逊云开始我的上云服务对于一个云上开发者来说,免费套餐是AWS相对于很多其他云厂
原创
发布博客 2022.05.16 ·
1373 阅读 ·
0 点赞 ·
0 评论

Kyuubi基本安装与使用指南

Apache Kyuubi (Incubating),一个分布式和多租户网关,用于在 Lakehouse 上提供无服务器 SQL。本文为kyuubi入门文章,介绍了Kyuubi基本安装与使用,并以Spark引擎为例讲述如何提交第一个Spark SQL任务。您还可以阅读文章《Kyuubi 与 Spark ThriftServer 的全面对比分析》了解Kyuubi与Spark ThriftServer的异同点。安装包下载进入如下页面下载kyuubi安装包:https://kyuubi.apa.
原创
发布博客 2022.05.13 ·
212 阅读 ·
0 点赞 ·
0 评论

Apache Pinot基本介绍

Pinot 是一个实时分布式 OLAP 数据存储,专为提供超低延迟分析而构建,即使在极高吞吐量下也是如此。 它可以直接从流数据源(例如 Apache Kafka 和 Amazon Kinesis)中摄取,并使事件可用于即时查询。 它还可以从 Hadoop HDFS、Amazon S3、Azure ADLS 和 Google Cloud Storage 等批处理数据源中摄取。系统的核心是列式存储,具有多种智能索引和预聚合技术以实现低延迟。 这使得 Pinot 最适合面向用户的实时分析。 同时,Pinot 也
原创
发布博客 2022.05.13 ·
205 阅读 ·
0 点赞 ·
0 评论

在Docker中快速测试Apache Pinot批数据导入与查询

Pinot 是一个实时分布式 OLAP 数据存储,专为提供超低延迟分析而构建,即使在极高吞吐量下也是如此。如果你还不了解Pinot,那么可以先阅读这篇文章《Apache Pinot基本介绍》,本文介绍如何以Docker方式运行Pinot,在Docker中运行Pinot对于了解Docker的新手来说是最简单不过的了。拉取镜像docker pull apachepinot/pinot:latest或者你也可以指定pinot版本docker pull apachepinot/pinot:0.9.3
原创
发布博客 2022.05.13 ·
151 阅读 ·
0 点赞 ·
0 评论

Apache Thrift基本使用介绍

基本介绍Thrift 是用于点对点 RPC 实现的轻量级、独立于语言的软件堆栈。 Thrift 为数据传输、数据序列化和应用程序级处理提供了清晰的抽象和实现。 代码生成系统将简单的定义语言作为输入,并生成跨编程语言的代码,这些编程语言使用抽象堆栈来构建可互操作的 RPC 客户端和服务器。Thrift 使以不同编程语言编写的程序可以轻松共享数据和调用远程过程。 Thrift 支持 28 种编程语言,很有可能支持您当前使用的语言。Thrift 专门设计用于支持跨客户端和服务器代码的非原子版本更改。 这使
原创
发布博客 2022.05.13 ·
36 阅读 ·
0 点赞 ·
0 评论

windows 11系统调试hive metastore 3.1.2源码新姿势

由于工作原因,需要深入了解一下hive metastore相关源码,这几天尝试了在windows中运行hive metastore代码,这边记录一下踩坑的过程以及解决方法。window中编译遇到的问题hive在3.0之后,独立提供hive metastore服务,我们可以直接下载hive standalone metastore相关源码即可,这边以3.1.2版本为例:源码下载:wget https://repo1.maven.org/maven2/org/apache/hive/hive-stand
原创
发布博客 2022.03.17 ·
3412 阅读 ·
0 点赞 ·
0 评论

云原生时代的到来,Hive会被替代吗

Apache Hive 在 2010 年作为 Hadoop 生态系统的一个组成部分突然出现,当时 Hadoop 是进行大数据分析的新颖且创新的方式。Hive 所做的是为 Hadoop 实现了一个 SQL 接口。 它的架构包括两个主要服务:查询引擎——负责 SQL 语句的执行。一个 Metastore——负责将 HDFS 中的数据集合虚拟化为表。Hadoop 背后的概念是革命性的。 庞大的数据集存储在商品硬件集群上的分布式文件系统 (HDFS) 中。 计算作业使用 MapReduce 与数据并行
原创
发布博客 2022.03.15 ·
2880 阅读 ·
0 点赞 ·
2 评论

Flink Standalone HA搭建指南

基本环境集群主机IPhost14710.1.0.147host14810.1.0.148host14910.1.0.149配置域名映射vim /etc/hosts10.1.0.147 host14710.1.0.148 host14810.1.0.149 host149下载Flink安装包,将其放到/data目录下,并解压mkdir /data && cd /datawget http://192.168.1.3:11180/d
原创
发布博客 2022.03.09 ·
1882 阅读 ·
0 点赞 ·
0 评论

ScreenToGif 快速制作gif图的轻量工具

平常在写一些演示文稿的时候会有把某些操作制作成gif图,以加深阅读者的印象。今天和大家介绍一下一个开源gif图制作软件:ScreenToGif。安装ScreenToGif可用于屏幕、摄像头以及画板的录制,并且内置编辑器,可以直接对录制的图像进行编辑。目前,ScreenToGif支持arm64以及x86_64架构的windows操作系统,具体安装方式可见:https://www.screentogif.com/downloads使用在安装完成之后便可以双击使用,以下为默认启动窗口:点击录像机.
原创
发布博客 2022.03.08 ·
210 阅读 ·
0 点赞 ·
0 评论

rpm快速打包工具 --- rpm-package

rpm包作为redhat、centos系列操作系统的包管理工具,让我们可以轻松通过yum install xxx.rpm命令安装某些软件包。本项目介绍文件打包方法,用于将任意文件按照描述文件的组织方式打包成rpm包。项目地址https://github.com/xiaozhch5/rpm-package如何使用您可以从源码编译该项目或者从release包中下载!源码编译安装编译依赖:jdk8maven3git clone https://github.com/xiaozhch5/rpm
原创
发布博客 2022.03.03 ·
543 阅读 ·
0 点赞 ·
0 评论

快速安装k3s kubernetes集群

K3s 是 Rancher 发布的经过完全认证的 Kubernetes 发行版。K3s 易于使用且更轻量,全部组件都打包在了一个二进制文件里。并且这个二进制文件小于 100 MB。下面介绍在三台centos7服务器上快速搭建k3s kubernetes集群。基础环境主机操作系统IPrancher01centos710.0.2.9rancher02centos710.0.2.78rancher03centos710…2.211安装MySQL 5.7数据
原创
发布博客 2022.02.26 ·
324 阅读 ·
1 点赞 ·
3 评论

给apache hudi加个依赖解决找不到类的问题可以算贡献代码嘛

发布动态 2022.02.22

基于Java实现Avro文件读写功能

Apache Avro是一个数据序列化系统。具有如下基本特性:丰富的数据结构。一种紧凑、快速的二进制数据格式。一个容器文件,用于存储持久数据。远程过程调用 (RPC)。与动态语言的简单集成。 代码生成不需要读取或写入数据文件,也不需要使用或实现 RPC 协议。 代码生成作为一种可选的优化,只值得为静态类型语言实现。模式(schema)Avro 依赖于模式。 读取 Avro 数据时,写入时使用的模式始终存在。 这允许在没有每个值开销的情况下写入每个数据,从而使序列化既快速又小。 这也便于使用
原创
发布博客 2022.02.17 ·
442 阅读 ·
0 点赞 ·
0 评论

2022 1月Github热门项目

新年伊始,有些人慢慢回到工作岗位,而另一些人决定继续在家编码。 无论是在您舒适的家中开发 - 还是在随便一家咖啡馆 - 它都没有阻止Github社区发布很棒的开源项目和更新。接下来让我们来看看一月份发布的GitHub精选顶级项目nut.js 2.0项目地址:https://github.com/nut-tree/nut.js我们在 Release Radar 上谈论了很多关于 Node.js 项目的内容,这里有另一个给你。 nut.js 是 Node.js 的桌面自动化框架。 它适用于 Windows
原创
发布博客 2022.02.15 ·
354 阅读 ·
1 点赞 ·
0 评论

字节跳动基于Hudi的数据湖集成实践

本文是字节跳动数据平台开发套件团队在Flink Forward Asia 2021: Flink Forward 峰会上的演讲,着重分享了字节跳动数据湖技术上的选型思考和探索实践。本文重点分享字节的探索实践,对话框回复数字9可以阅读关于技术选型的思考。文 | Gary Li  字节跳动数据平台开发套件团队高级研发工程师,数据湖开源项目Apache Hudi PMC Member在选择了基于Hudi的数据湖框架后,我们基于字节跳动内部的场景,打造定制化落地方案。我们的目标是通过Hudi来支持所有带U
转载
发布博客 2022.02.14 ·
416 阅读 ·
0 点赞 ·
0 评论

Linux 性能全方位调优经验总结

性能优化性能指标高并发和响应快对应着性能优化的两个核心指标:吞吐和延时应用负载角度:直接影响了产品终端的用户体验系统资源角度:资源使用率、饱和度等性能问题的本质就是系统资源已经到达瓶颈,但请求的处理还不够快,无法支撑更多的请求。性能分析实际上就是找出应用或系统的瓶颈,设法去避免或缓解它们。选择指标评估应用程序和系统性能为应用程序和系统设置性能目标进行性能基准测试性能分析定位瓶颈性能监控和告警对于不同的性能问题要选取不同的性能分析工具。下面是常用的L
转载
发布博客 2022.02.12 ·
368 阅读 ·
1 点赞 ·
0 评论

docker运行oracle数据库指南

docker启动oracle数据库拉取镜像docker pull registry.cn-hangzhou.aliyuncs.com/helowin/oracle_11g容器中运行镜像docker run -itd -p 1521:1521 --name oracle11g registry.cn-hangzhou.aliyuncs.com/helowin/oracle_11g进入容器,进行基本设置docker exec -it oracle11g bash切换到root用户,新增环境变
原创
发布博客 2022.02.11 ·
781 阅读 ·
1 点赞 ·
1 评论

Java中实现线程安全的几种方法

我们知道Java有一个特性,多线程,它是一个同时运行多个线程的过程。 当多个线程处理相同的数据,并且我们的数据值发生变化时,这种情况不是线程安全的,我们会得到不一致的结果。 当一个线程已经在一个对象上工作并阻止另一个线程在同一个对象上工作时,这个过程称为线程安全。在Java中,通过如下方法实现线程安全:使用线程同步使用Volatile关键字使用Atomic变量使用final关键字使用线程同步同步是一次只允许一个线程完成特定任务的过程。 意思是当多个线程同时执行,想要同时访问同一个资源时,就
原创
发布博客 2022.02.10 ·
2704 阅读 ·
0 点赞 ·
0 评论

Java中的多线程基本介绍

在 Java 中,多线程是指同时执行两个或多个线程以最大限度地利用 CPU 的过程。 Java 中的线程是一个轻量级进程,只需要较少的资源即可创建和共享进程资源。多线程和多进程用于 Java 中的多任务处理,但我们更喜欢多线程而不是多进程。 这是因为线程使用共享内存区域有助于节省内存,而且线程之间的内容切换比进程快一点。线程的生命周期线程在其生命周期中必须经历五种状态。 此生命周期由 JVM(Java 虚拟机)控制。 这些状态是:NewRunnableRunningNon-Runnable
原创
发布博客 2022.02.08 ·
295 阅读 ·
0 点赞 ·
0 评论
加载更多