- 博客(868)
- 资源 (43)
- 收藏
- 关注
原创 金融业大数据应用场景
如果能够引入外部数据,还可以进一步加快数据价值的变现。外部数据中比较好的有社交数据、电商交易数据、移动大数据、运营商数据、工商司法数据、公安数据、教育数据和银联交易数据等。大数据在金融行业的应用范围较广,典型的案例有花旗银行利用 IBM 沃森电脑为财富管理客户推荐产品,并预测未来计算机推荐理财的市场将超过银行专业理财师;摩根大通银行利用决策树技术,降低了不良贷款率,转化了提前还款客户,一年为摩根...
2020-04-07 17:05:48
9674
3
原创 量化交易主流框架介绍
量化交易主流框架介绍talibtalib的简称是Technical Analysis Library,主要功能是计算行情数据的技术分析指标numpy介绍:一个用python实现的科学计算包。包括:1、一个强大的N维数组对象Array;2、比较成熟的(广播)函数库;3、用于整合C/C++和Fortran代码的工具包;4、实用的线性代数、傅里叶变换和随机数生成函数。numpy和稀疏矩阵运算包s...
2018-10-15 19:16:46
7031
8
原创 IDEA无需破解,永久免费!学Java必看
但即使没有订阅,IDEA 依然能够正常使用,可以免费用于商业和非商业项目,畅享 Java 和 Kotlin 开发所需的全部功能。IntelliJ IDEA 继续在第一时间为最新 Java 版本提供支持,同时还会为即将发布的 Java 版本提供早期支持,例如,允许您直接在 IDE 中安装抢先体验版。与 Java 25 不同,Java 26 没有引入任何新的稳定语言功能,但带来了模式匹配和延迟常量预览功能,这些功能已在 IntelliJ IDEA 中得到支持。
2026-06-10 17:15:49
47
原创 【Doris从0到1】(二)Docker部署
输出解析: Alive=true(FE)或 Alive=1(BE)表示节点运行正常。使用 MySQL 客户端连接集群,检查 FE 和 BE 状态。第 1 步(1/3):下载启动脚本。第 3 步(3/3):验证集群状态。第 2 步(2/3):启动集群。
2026-06-09 08:05:42
170
原创 【Doris从零到一】(一)Apache Doris 概述
Apache Doris 是一款基于 MPP 架构的高性能、实时分析型数据库,以高效、简单、统一著称:在亚秒级时间内返回海量数据查询结果,一套系统同时支持高并发点查询和高吞吐复杂分析。
2026-05-26 17:14:42
601
原创 Notepad++ 下载避坑指南
最近团队新入职了几名应届同学,统一配发了新办公电脑,首要工作想让他们几个自主完成环境配置。原以为安装 Notepad++ 是一件无脑的小事,结果折腾了半天,要么下载到带捆绑、弹窗广告的流氓软件,要么误入收费钓鱼网站,最后还是我单独下载发他们了了安装包。这件事也让我发现,看似简单的软件安装也藏着超多互联网下载陷阱,还是决定写一篇博文整理一下可能踩的坑。(大周一上班花了点时间写的,希望对大家有帮助, ̄︶ ̄。
2026-05-25 10:41:11
492
原创 一文读懂Kafka中的“消费”(对标MySQL数据库)
Kafka存了一堆实时数据,Flink/程序把这些数据拿出来、读一遍、做计算处理,这个全过程就叫消费。Kafka消费:靠Offset书签,只读新数据、从未读的位置继续读,不会重复读历史数据(同消费者组内)Kafka:Flink任务持续读取Topic数据 → 过滤、开窗、聚合统计 → 这就是消费数据。Kafka消费:永久运行、持续监听,新数据一来,立刻自动读取处理,永不停止。Kafka:数据是动态流式的,源源不断新增,属于无界数据。MySQL查询:一次性执行,查完结束,静态读离线数据。
2026-05-21 15:24:42
136
原创 【Kafka笔记】(四)Kafka 三种消费模式
开启 Checkpoint 后,Flink 自动管理 Offset,宕机重启不丢数据、不重复数据。实现依赖:Flink Checkpoint + Kafka 手动 Offset 提交。Flink 通过 group.id 绑定消费者组,记录消费位置。Kafka 分区数决定 Flink 最大并行消费能力。实时任务 99% 数据源都是 Kafka。不丢不重,精准消费,企业生产唯一标准。数据一定能消费成功,可能重复消费。不会重复消费,可能丢失数据。
2026-05-21 15:14:45
133
原创 【Kafka笔记】(二)核心架构与专属名词解释
生产标准:关闭 Kafka 自动提交,依赖 Flink 精准 Offset 管理。例如:vehicle_data(车联网数据)、order_log(订单数据)生产铁律:Flink 并行度 ≤ Kafka 分区数,否则消费能力无法拉满。手动提交:消费成功再提交,Flink Checkpoint 就是手动精准提交。核心:Flink 消费数据,本质就是消费某个 Topic 的数据。示例:Flink 任务、数据同步服务、消息推送服务。自动提交:简单但容易丢数据、重复数据(生产禁用)
2026-05-21 15:07:40
423
原创 【Kafka笔记】(一)认识 Kafka
Kafka 是一款分布式、高吞吐、低延迟、持久化的消息队列/流处理平台。通俗的讲Kafka 就是一个“实时数据中转站+数据蓄水池”上游业务/设备产生数据 → 发给 Kafka 存起来下游 Flink、服务、数仓 → 从 Kafka 实时拉取数据计算。
2026-05-21 14:59:33
118
原创 【FlinkSQL笔记】(三)Flink SQL 核心重难点(窗口函数、水印)
实时场景(车联网、物联网)中,网络波动、设备重连会导致:先产生的数据,后到达Flink,直接导致窗口统计结果错误。
2026-05-21 14:22:43
466
原创 【FlinkSQL笔记】(二)Flink SQL 基础语法详解
TIMESTAMP(3):高精度时间戳(实时任务必备,保留3位毫秒)group.id:消费者组,自定义不重复即可,用于记录消费偏移量。bootstrap.servers:Kafka集群地址端口。STRING:字符串(对应MySQL varchar)connector:指定数据源类型,固定kafka。format:数据序列化格式,企业99%为json。latest:从当前最新数据开始消费(生产默认)earliest:从头消费所有历史数据(测试用)BIGINT:长整型(计数、时间戳常用)DOUBLE:浮点型。
2026-05-21 14:16:42
260
原创 【FlinkSQL笔记】(一)什么是Flink SQL
Flink SQL 是 Flink 官方推出的流批一体 SQL 计算语法,无需编写大量代码,用标准SQL即可开发实时计算任务。核心优势:零代码压力:复用标准SQL语法,学习成本极低企业主流:云平台(华为云/阿里云)实时任务90%基于Flink SQL开发能力全覆盖:实时清洗、聚合、开窗、关联、数据同步均可实现天然实时:毫秒级延迟,支持乱序数据处理。
2026-05-21 14:11:01
238
原创 【Flink学习】(九)Flink 容错机制 Checkpoint 与 Savepoint
本文整理 Flink 生产级容错方案,学会保障线上实时任务稳定运行,避免数据异常问题。
2026-05-20 22:45:31
238
原创 【Flink学习】(六)Flink 三大时间语义 + 水位线 Watermark
本文我主要整理Flink 时间相关知识,实时计算最大难点:数据乱序,为窗口计算打下基础。
2026-05-20 22:31:29
323
原创 【Flink学习】(五)Flink 并行度与任务链,任务运行核心原理
本文主要整理Flink 底层任务运行机制,学会合理设置并行度,初步具备任务调优思维。
2026-05-20 22:28:29
125
原创 【Flink学习】(四)Flink 常用转换算子,数据流数据处理
Split 分流、SideOutput 侧输出流,将一条数据流拆分多分支,实现不同数据不同逻辑处理。sum 求和、max 最大值、min 最小值、reduce 自定义聚合算子,流式持续聚合计算。KeyBy 算子:数据流分组,等同于 SQL group by,实时分组核心。FlatMap 算子:一对多数据拆分,字符串拆分、数组拆分。Map 算子:一对一数据转换,字段修改、数据格式转换。Filter 算子:数据过滤,剔除脏数据、无效数据。Connect:合并不同类型数据流,相互关联处理。
2026-05-20 22:26:14
110
原创 一文读懂Flink全家桶(Flink、Flink SQL、PyFlink、Java Flink )
Flink、Flink SQL、PyFlink、Java Flink 到底啥关系?其实全是同一个 Apache Flink 框架,只是写法不一样、语言不一样、用法不一样。
2026-05-20 00:43:29
610
原创 【Flink学习】(三)Flink 数据源详解,主流 Source 数据读取
Flink 对接 Kafka 消费实时数据,配置消费者组、主题、序列化方式,实现实时读取消息队列数据。内置数据源、文件数据源、网络数据源、Kafka 主流数据源、自定义数据源。3、区分有界流(文件)、无界流(实时数据流)本地测试:集合、元素、Socket 数据源。线上实时业务:统一使用 Kafka 数据源。离线分析:本地文件、HDFS 文件。2、读取 HDFS 分布式文件。1、读取本地单行文本文件。
2026-05-20 00:37:32
169
原创 【Flink学习】(二)Flink 本地环境搭建,运行第一个入门程序
/ 1. 获取流执行环境// 设置全局并行度// 2. 读取本地文本文件作为数据源// 3. 数据拆分处理});// 分组求和统计次数.sum(1).print();// 5. 执行任务env.execute("第一个Flink入门程序");
2026-05-20 00:19:37
102
原创 【Flink学习】(一)初识 Flink,大数据实时计算核心认知
Apache Flink 是一款分布式、高性能、高吞吐、低延迟的开源流式计算引擎,支持流处理、批处理,目前大数据实时领域主流框架。
2026-05-20 00:16:10
138
原创 一文读懂华为云DataArts:企业数据管理一站式平台
在数据驱动的时代,华为云DataArts以一站式全生命周期管理、云原生弹性架构、低代码AI赋能、全链路安全可信、生态深度融合五大核心优势,解决企业数据管理全流程痛点,助力企业从“数据杂乱”到“数据治理”再到“数据价值释放”的跨越。无论你是互联网、金融、制造、政务还是零售行业,无论企业规模大小,DataArts都能适配需求,成为企业数字化转型的核心“数据引擎”,让数据真正成为驱动业务增长的核心生产力。
2026-05-14 09:36:43
441
原创 企微机器人消息推送(Python实现案例)
企微机器人推送,本质就是用一个带唯一密钥的 Webhook 地址,通过 HTTP POST 把 JSON 消息发给企微服务器,由它转发到指定群。具体可参考官网:https://developer.work.weixin.qq.com/document/path/99110。你的系统 / 脚本向这个 URL 发HTTP POST+JSON 消息体。全程是单向推送:你的系统→企微服务器→群成员,无需扫码、无需授权。企微服务端校验 key 合法后,把消息转发到对应群聊。下面把原理、流程、关键细节讲清楚。
2026-05-14 08:36:09
433
原创 Obsidian使用指南
Obsidian(黑曜石) 是一款主打本地私有、双向链接与知识网络的 Markdown 笔记与知识管理软件,常被用来构建个人 “第二大脑”。官方网站:https://obsidian.md/下载链接:https://obsidian.md/download。
2026-04-01 17:01:32
948
原创 查看impala版本
在Apache Impala中,查看版本信息通常可以通过几种方法来实现。Apache Impala是一个开源的大数据查询引擎,它允许用户以SQL的方式查询存储在Hadoop上的数据。打开终端或命令提示符。
2026-03-31 16:22:54
75
原创 2026 最强开源 AI 智能体:OpenClaw,为什么全网都叫它 AI 龙虾?
OpenClaw 国内优化版:https://github.com/jiulingyun/openclaw-cn。GitHub 源码:https://github.com/openclaw/openclaw。官方文档(含中文):https://docs.openclaw.ai/zh-CN。技能市场(3000 + 插件):https://clawhub.ai/2、自动写代码、跑脚本、处理 Excel、发邮件、爬网页。官网:https://openclaw.ai/
2026-03-10 13:37:23
1538
2
原创 HBase集群连接方式
如果您已经创建了HBase集群,可以使用HBase Shell、Thrift server、Java api方式连接集群,进行数据业务操作。
2026-01-27 08:46:27
177
原创 压缩文件zip和rar格式有什么区别
采用 RAR 专有压缩算法(结合了 LZSS、LZ77 等改进算法),压缩率显著高于 ZIP,尤其是在压缩多个文件或大型文件包时,能节省更多存储空间。RAR 是 WinRAR 公司的专有格式,受专利保护,解压 RAR 文件虽然多数软件支持,但创建 RAR 文件通常需要付费购买 WinRAR 授权(个人用户可免费试用,但商业用途需付费)。ZIP是开放标准,无专利和版权限制,几乎所有操作系统(Windows、macOS、Linux、Android、iOS)都原生支持,无需额外安装软件就能解压。
2025-12-29 15:51:55
2366
原创 RAR压缩包的三种加密方法
文件压缩成RAR压缩包后,想要保护文件内容不被他人随意解压,我们可以给rar压缩包设置加密,这里分享3种方法进行加密。
2025-12-29 15:46:16
561
原创 电脑自带Edge浏览器进行PDF文件合并
Edge 原生没有 “一键合并多个 PDF” 的可视化按钮,可进行Edge 扩展一键合并。具体步骤如下。
2025-12-29 15:24:46
1111
原创 Windows 11 与 Windows 10系统对比
Windows 11 是微软在 Windows 10 基础上推出的新一代系统,核心差异体现在 UI 设计、硬件要求、功能体验、安全机制 四个维度,同时对新硬件适配和现代化交互做了针对性优化。以下是博主整理的部门对比内容。
2025-12-25 11:54:02
3078
原创 Windows 11 的OOBE是什么意思
OOBE 全称,中文译为 “开箱体验”,是新电脑首次开机时系统自动启动的引导配置流程,仅在全新未激活的 Windows 系统中出现,也是判断电脑是否为新机的核心依据之一。
2025-12-25 11:06:13
1101
原创 电脑参数自检-BIOS
博主最近买了太新电脑(联想小新Pro),整理了一系列验机相关知识。今天来说一下BIOS。除了用验机工具进行验机,BIOS/UEFI 是新电脑验机的核心环节之一,可在无系统环境下快速核对硬件配置、序列号、出厂信息与电池健康,结合系统工具交叉验证,能高效识别翻新 / 篡改、硬件故障与配置不符问题。用BIOS验机前准备工作:先做三码与外观初检BIOS 序列号(SN)、机身底部 SN、包装盒 SN 必须一致,任一不符即可疑。检查机身螺丝无拧痕、接口无插拔磨损、屏幕无坏点、电池无鼓包,避免先通电掩盖瑕疵。
2025-12-25 10:35:31
1640
原创 BIOS简介
BIOS(基本输入输出系统)是固化在主板闪存芯片上的底层固件,是电脑开机后运行的第一个程序,负责硬件初始化、系统引导与基础参数管理,是连接硬件与操作系统的关键桥梁。
2025-12-25 10:12:58
1059
原创 电脑检测软件—图吧工具箱
图吧工具箱全称是 “图拉丁吧硬件检测工具箱”,它由百度贴吧 “图拉丁吧”(简称图吧)的社区成员于 2014 年发起并维护,最初是吧友整理的检测工具包,后发展为有统一启动器、持续更新的独立工具合集。图吧工具箱是开源、免费、绿色、纯净的硬件检测工具合集,专为所有计算机硬件极客、DIY爱好者、各路大神及小白制作。集成大量常见硬件检测、评分工具,一键下载、方便使用。
2025-12-23 13:22:18
9925
机器学习02--K近邻算法
2018-11-08
机器学习09--决策树02
2018-11-08
笨办法学python
2018-10-18
数据分析--matplotlib绘图和可视化
2018-11-08
MySQL性能优化之参数配置
2018-11-08
python面试笔试题(现场应聘收集)
2018-10-18
机器学习01--机器学习入门知识(数据科学 5 机器学习介绍)
2018-11-08
机器学习03--决策树01
2018-11-08
集群搭建手册_CDH5.13.1版.docx
2020-03-11
Airflow安装配置和web端插件安装
2020-07-01
navicat 连接oracle 11g驱动包
2020-05-28
陀螺仪调度部署和使用(美云智数).rar
2020-05-14
Day2-pandas-Ⅰ.xmind
2020-01-13
Day3-pandas-Ⅱ.xmind
2020-01-13
Day4-pandas-Ⅲ.xmind
2020-01-13
Day7-pandas-Ⅳ:数据加载与透视表.xmind
2020-01-13
Day1-IPython与Numpy.xmind
2020-01-13
Day5-Scipy.xmind
2020-01-13
azkaban安装包(web+excutor)
2020-03-27
Day10-决策树与贝叶斯.xmind
2020-01-13
Day9-LinearRegression线性回归与逻辑斯蒂回归.xmind
2020-01-13
TensorFlow.xmind
2020-01-13
Day8-KNN.xmind
2020-01-13
Day6-matplotlib.xmind
2020-01-13
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅