天选之子123-CSDN博客

原创文本解析到大模型应用

最近接到一个比较恶心的工作，之前有个同事将很多个小的文档整合到了一个大文档中，同时暴露出一个新的问题，大的文档虽然查找问题比较方便但是维护起来较为麻烦，所以需要将大的文档按照标题拆分成为多个文档。原始文档为PDF文档，观察得出以下处理思路文档是有目录的文档中的二级标题即为文件名（例如：1.中华人民共和国公司法（2023 年修订））可以获取到文档的页码位置。目录中的页码即为标题的文档范围临界判断，文档页中其实页标题出现的行即为该文档的起始位置，第二个标题出现的行即为上一标题的结束位置。

2025-04-30 09:56:15 1309

原创什么是flink

Apache Flink 是一个框架和分布式处理引擎，用于在无边界和有边界数据流上进行有状态的计算。Flink 能在所有常见集群环境中运行，并能以内存速度和任意规模进行计算。Apache Flink 功能强大，支持开发和运行多种不同种类的应用程序。它的主要特性包括：批流一体化、精密的状态管理、事件时间支持以及精确一次的状态一致性保障等。Flink 不仅可以运行在包括 YARN、 Mesos、Kubernetes 在内的多种资源管理框架上，还支持在裸机集群上独立部署。

2025-03-03 15:27:30 1238

原创 Kibana

Kibana是一个开源的分析和可视化平台，提供用户界面对 Elasticsearch 数据进行可视化。可以用Kibana来搜索，查看，并和存储在Elasticsearch索引中的数据进行交互。可以轻松地执行高级数据分析，并且以各种图标、表格和地图的形式可视化数据。

2025-03-03 15:27:12 379

原创我的创作纪念日

提示：你过去写得最好的一段代码是什么？提示：当前创作和你的工作、学习是什么样的关系。提示：可以和大家分享最初成为创作者的初心。提示：在创作的过程中都有哪些收获。提示：职业规划、创作规划等。

2025-02-20 13:03:15 206 1

原创 ES集群部署

内网环境windows机器在同一局域网下可以配置为一个集群，本机模拟三节点的集群，在windows环境下设置不同的端口实现。重在体验。将windows下的安装包解压到三个文件夹下，并修改配置文件 elasticsearch.yml。

2025-02-18 09:57:42 341

原创 ES的python操作

ES是用java开发的，所以应用层面的ES操作绝大多数项目会采用java进行ES的操作。但java操作对于不会写java的人来说并不太友好（记得上次写java还是大四的时候做毕业设计，距今快9年了），所以想试试python这门胶水语言是否可以进行ES操作。当然java的相关操作也是需要知晓的，因为java必然是可以进行操作的。但是python这门胶水语言无法保证所有操作都能进行。

2025-02-18 09:57:11 556

原创 ES的java操作

在pom文件中添加依赖包</</</</</</</</</</</</</</</</</</</</</</</</</

2025-02-13 16:59:30 676

原创 ES的安装部署以及基本操作

ElasticSearch是一个分布式、Restful风格的搜索和数据分析引擎，能够解决不断涌现的各种用例。ES 是一个开源的高扩展的分布式全文搜索引擎，它可以近乎实时的存储、检索数据；本身扩展性很好，可以扩展到上百台服务器，处理 PB 级别的数据。REST 指的是一组架构约束条件和原则。满足这些约束条件和原则的应用程序或设计就是 RESTful。Web 应用程序最重要的 REST 原则是，客户端和服务器之间的交互在请求之间是无状态的。从客户端到服务器的每个请求都必须包含理解请求所必需的信息。

2025-02-13 16:58:54 1885

原创 spark streaming基础操作

Spark Streaming 用于流式数据的处理。Spark Streaming 使用离散化流(discretized 作为抽象表示，叫作 DStream。DStream 是随时间推移而收到的数据的序列。在内部，每个时间区间收到的数据都作为 RDD 存在，而 DStream 是由这些 RDD 所组成的序列(因此得名“离散化”)。简单来说，DStream 就是对 RDD 在实时数据处理场景的一种封装。DStream 是随时间推移而收到的数据的序列。

2025-01-26 10:56:12 1339

原创 spark运行流程

spark运行流程

2025-01-26 10:55:16 902

原创 spark的三大数据api以及操作

RDD（ResilientDistributedDataset）叫做数据集，是Spark中最基本的数据处理模型。代码中是一个抽象类，它代表一个弹性的、不可变、可分区、里面的元素可并行计算的集合。RDD的特点。

2025-01-20 14:01:31 676

原创 windows重启服务

有些应用是部署在windows机器上的，而windows机器与linux相比有个缺点，tomcat运行在windows上运行回显信息一直占用在内存中，导致内存占用过高系统卡顿。当重启服务后又会释放内存，所以考虑定时重启。

2025-01-20 14:00:25 515

原创 kettle学习

Kettle，也称为Pentaho Data Integration (PDI)，是一个开源的ETL（Extract, Transform, Load）工具，由Pentaho社区开发。ETL工具主要用于数据仓库的构建过程，它能够从不同来源抽取数据，进行清洗、转换、集成，并将数据加载到目标数据库或数据仓库中。：Kettle是一个完全开源的工具，用户可以免费使用。：Kettle可以在多种操作系统上运行，包括Windows、Linux和macOS。

2025-01-06 08:45:41 1006 1

原创债券回购简述

债券回购交易指正回购方（卖出回购方、资金融入方）将给逆回购方（买入贩售方、资金融出方）融入资金的同时，双方约定在，由正回购方按照向逆回购方返还资金，逆回购方向正回购方返还出质债券的融资行为。本来挺简单个东西说的这么麻烦。简单说，我有券但没钱，我找了我的有钱兄弟大聪明。正好大聪明想要我的券。我把券押给他，但我又有点舍不得，所以约定到某一天的时候我拿钱把券买回来。这里的我就是回购方（因为要把券买回来），相对应的大聪明就是逆回购方。

2025-01-06 08:30:55 1553 2

原创我的创作纪念日

没什么憧憬，想看什么就看看，有什么总结就写出来记录一下。

2024-12-11 09:26:24 170

原创债券的基础知识（一）

笔者上大学的时候有个兄弟大头哥，虽学习不好但大话西游打的一绝，他靠着打游戏爆装备上学的时候就年入10w了。但有个问题爆装备之前得需要先买点卡刷装，大头哥没钱就想着问大家，每次借钱的时候一般都打个，承诺一个月爆装以后归还本金支付利息（好借好还再借不难）。其实银行、企业甚至国家，也会有类似的情况，但它们借钱的层次就比大头哥高级多了。比如想搞某个投资建设，并不是能马上拿到钱，而自己本身又难以支付投资费用，一借钱那就是几个小目标，银行都付不起这个投资费用了，也不可能谁就一下能付的出这个钱。

2024-10-24 08:09:40 1356

原创元数据管理

元数据是描述数据的数据，包括技术和业务流程，数据规则和约束，逻辑和物理的数据结构。用来帮助组织理解数据，有助于处理、维护、集成、保护和治理数据。就像去一个大的图书馆看书一样，如果有一个图书分布的描述，会方便我们找到相关领域的书籍。

2024-10-24 08:08:31 741

原创 O32学习1

为什么有些资料包括百度到的一些官方理解会难以理解，总结原因如下：1、片面：以O32学习为例，单个系统的学习其实也并不只是学习单一业务，业务之间是有一定关联性的，没有形成框架之前是云里雾里的，笔者就是如此。2、粗浅：有些解释是较为粗浅的，不是通过一些简单的数据字典就能透析到业务规则，反而应该是业务规则的基础上将元数据和业务规则相结合。3、以专有名词解释专有名词：无论是秘技自珍还是处于什么样的想法，一部分人的一个不好的习惯就是用一个很专业的名词去解释你不懂的名词。

2024-09-25 13:31:10 1020

原创一个自制的比较low的刷题软件

工作中往往涉及一些考试，比如阿里云ACP认证，华为GAUSS认证、软考等，应对这些考试的时候，我们往往是先看书后刷题（当然也有直接刷题的大神，毕竟考试，懂的都懂）。有的题库是可以在部分免费刷题软件找到的，比如233网校就有证券从业的题库，但有些题库则很难找到免费的刷题渠道。某宝一查，发现好多卖线下题库的，10元到50元不等。笔者本着能不花钱就不花钱的原则（ps：绝不是因为出不起10块钱），所以琢磨能不能自己搞一个刷题软件，毕竟好些题网上也有啊。

2024-09-25 13:30:33 790

原创资管产品的分类

理财产品一般由于银行或者银行的子公司发起，通过募集资金进行投资。银行是资金的管理者和投资者。净值型产品主要收益取决于净值的变化。产品净值增长取决于多方面因素1、投资资产价值增长市场表现良好时，产品底层的债券、股票的价格上涨产品净值增长。2、投资策略调整通过合理的资源配置和风险管理策略，在市场发生波动时降低产品波动，甚至实现产品增值3、红利再投资产品盈利并决定分红的时候，会有部分投资者将红利再投资于本产品，从而增加持有份额和产品的单位净值。4、市场供求关系。

2024-09-09 10:43:00 1534 1

原创数据治理——数据管理

数据管理是为了交付、控制、保护并提升数据和信息资产的价值，在其整个生命周期中制订计划、制度、规程和实践活动，并执行和监督的过程。数据管理所涉及的范围是广泛的包括技术、流程、和组织架构涉及数据运营日常的方方面面。

2024-09-09 10:41:54 970

原创词云图制作

这就是词云。“词云”的概念最早是美国西北大学新闻学副教授、新媒体专业主任里奇•戈登（ Rich Gordon ）提出的。词云（ Word Cloud ），又称文字云、标签云（ Tag Cloud ）、关键词云（ Keyword Cloud ），是文本数据的一种可视化展现方式，它一般是由文本数据中提取的词汇组成某些彩色图形。词云图的核心价值在于以高频关键词的可视化表达来传达大量文本数据背后的有价值的信息。

2024-07-24 16:13:57 1144

原创 SPARK概述

spark是一种基于内存的、快速、通用、可拓展的大数据分析计算引擎hadoop的基础计算框架是MapReduce，但是MapReduce并不能满足流式循环迭代的场景。Spark的核心技术是RDD（Resilient Distributed Datasets 弹性分布式数据集）可以快速在内存中进行迭代。Spark的启动比MapReduce要快，Spark采用fork线程的方式，而MapReduce采用的是新建进程的方式。

2024-07-23 14:24:39 462

原创 flask学习

Flask是一个使用 Python 编写的轻量级 Web 应用框架。其 WSGI 工具箱采用 Werkzeug ，模板引擎则使用 Jinja2。Flask使用 BSD 授权。Flask也被称为 “microframework” ，因为它使用简单的核心，用 extension 增加其他功能。Flask没有默认使用的数据库、窗体验证工具。Flask是一个轻量级的可定制框架，使用Python语言编写，较其他同类型框架更为灵活、轻便、安全且容易上手。

2024-07-16 11:05:26 1005

原创爬取基金收盘价并用pyecharts进行展现

因为使用到了一些第三方的包，包还是比较大的如果直接从社区下载比较费劲，所以建议配置国内镜像源，这里以清华的镜像源为例。安装第三方包。

2024-06-06 14:49:41 491 1

原创为何大多数据治理都以失败告终

这是笔者在数据行业的第七个年头了，深感数据行业是个易入难精的行业。易入，即便是行外人花几天学学如何写sql也就算是达到可以入门的标准了。难精，入门以后随着接触的东西越来越多以后，会发现可以细化的领域其实很多。元数据管理、数据模型、数据标准、数据质量、数据存储与分布、数据架构、数据生命周期管理、数据流程管理等。单一某个领域都是值得深入学习的。但是在最近和几个数据同行的交流中发现做数据治理的几个兄弟不论是以哪个方向展开的，都会很快进入痛苦期，甚至不乏某些项目直接以失败告终。

2024-06-05 15:53:40 1031 1

原创 PYTHON版本选取以及第三方包的统一

官网地址当前官网提供的最新安全稳定版本为python 3.10，所以选择 python3.10.11 作为统一的python版本。配置清华镜像源。

2024-05-13 08:56:50 618

原创数据质量管理

数据往往是用来支持决策和服务业务的，不少企业搭建数据中台让数据更好的利用起来发挥价值。但在使用的过程中往往会由于缺乏管理经验、没有完整的数据源架构、数据流程或者业务流程不完美、缺乏数据质量管理经验等原因或多或少的存在数据质量问题。（对于没有一个好的数据中台不重视数据的公司更是如此）。然而错误的数据常常导致错误的判断，从而做出有失偏颇的决策。所以数据质量是数据管控中很重要的一个环节。

2024-05-13 08:56:16 396

原创 SPARK运行环境

spark可以运行在常见的集群环境之下。

2024-05-03 07:17:51 1178

原创图计算（兴趣）

和朋友聊天的时候无意间被问了这样一个为题（如图所示 ps：这都是一群什么样的朋友老研究这稀奇古怪的玩意）。定睛一看这不就是算法里面的迪杰斯特拉算法吗，14年上大学那会儿C语言写的可利索了。但现在属实不做这个很久了。好在一直在做python的开发，就试着研究python这门胶水语言是不是也能做这件事，果然啊。虽然研究的很粗浅但觉得比较有意思就试着写了写（也不知道该叫什么名字，就叫图计算吧）。

2024-05-03 07:15:33 302

原创 O32系统学习

O32系统即，最开始是为基金公司开发的投资交易管理系统，到后来逐步涉及到券商、券商资管、保险、信托、期货，私募，甚至财务公司，金融控股集团，非标交易所等等。2003年之前，由于使用的是SqlServer数据库，当时还叫做S1.0、S2.0；2003年3月恒生推出O3系统，开始引入Oracle数据库，在S2.0系统基础上升级，所以改叫O3（"O"取用"Oracle"首字母，3代表升级了，不再是之前的S2.0了）；

2024-05-02 06:00:00 6389

原创 GIT使用

Git是一个版本管理控制系统（缩写VCS），它可以在任何时间点，将文档的状态作为更新记录保存起来，也可以在任何时间点，将更新记录恢复回来。在开发中，Git已成为现在主流的一种代码托管技术（版本管理工具），基本上大多数的公司都在使用Git进行协同开发。很多代码托管平台也是基于Git来实现的。

2024-05-01 07:08:05 1099

原创 Gitlab安装部署

查看Linux系统的版本信息查看Linux系统发行版信息然后下载匹配版本的 gitlab，因为 gitlab 官网下载比较缓慢，所以这里附带了清华的镜像安装包大概长这样，el7表示是 Centos 71、从 GitLab 12.1 版本开始，PostgreSQL 成为了唯一官方支持的数据库管理系统 (DBMS)。之前的版本支持 MySQL，但从 12.1 版本开始，GitLab 官方推荐并仅支持使用 PostgreSQL 作为其后端数据库。

2024-05-01 07:07:30 1425

原创 Scala

spark新一代内存级大数据计算框架，是大数据的核心内容。在对 spark 进行二次开发时，由于 Spark 是基于 Scala 基础之上编写的，故而为更好地学习 Spark,需要Scala 此门语言与掌握 spark框架的源代码。Scala 是 Scalable Language 的简写，含义为可升级、可攀登，是一门多范式的编程语言（面向对象：命令式编程的一种方式/函数式编程），函数的地位得到提升，其运用十分到位。总的来说就是在对spark进行二次开发时java学的不太好的朋友可以用scale

2024-03-12 16:52:23 1246

原创 MAXWELL

binlog记录了mysql的操作日志（DDL和DML）。一方面保证了主从一致，另一方面也方便数据的恢复。找到mysql的配置文件在参数节 [mysqld] 下可以配置参数 log-bin。参数值列表如下参数值说明优势不足statement语句级，记录每次一执行写操作的语句节约空间可能会导致主从数据不一致（update某张表的时间字段为 now()）row记录每次操作后每行记录的变化确保数据一致性空间消耗较大mixed。

2024-01-22 16:45:54 626