- 博客(49)
- 收藏
- 关注
原创 开启智能体与大模型的开发:如何离线部署dify(亲测可用)
Dify是一款开源的大语言模型(LLM) 应用开发平台。它融合了后端即服务(Backend as Service)和 LLMOps的理念,使开发者可以快速搭建生产级的生成式 AI 应用。即使你是非技术人员,也能参与到 AI 应用的定义和数据运营过程中
2025-06-13 15:16:08
241
原创 如何选择正确的团队交互模式:协作、服务还是促进?
分析不同团队间的协作(Collaboration)、服务(Service)、促进(Facilitation)交互模式,可以采用多种成熟的方法论和框架
2025-06-06 15:27:31
496
原创 如何在linux系统使用rpm安装zip与unzip
在 Linux 系统上使用 rpm 命令安装 zip 和 unzip需要手动下载 RPM 包并安装,适用于 RHEL、CentOS、Fedora 等基于 RPM 的发行版。以下是详细步骤
2025-06-03 14:20:24
267
原创 特征工程中之八:语义分析和大规模文本数据处理系统库Gensim
Gensim 是一个专注于非监督文本建模的 Python 库,尤其擅长处理大规模文本数据的语义分析任务
2025-05-29 15:47:56
512
原创 特征工程中之七:点积的定义与核心作用
通过点积,可以灵活地将复杂对象(文本、图像等)转换为可计算的相似性指标或组合特征,从而支撑后续的机器学习任务。
2025-05-29 14:20:16
286
原创 系统研发进阶:如何构建系统化的技术管理知识体系
如何构建系统化的技术管理知识体系需要经典理论与前沿实践相结合,需要从技术深度到管理高度的全维度知识,完成从技术根基与架构设计、工程管理与效能提升、技术领导力与决策、前沿技术管理、知识体系构建方法论五个维度的提升
2025-05-22 17:11:27
578
原创 创建信任所有证书的HttpClient:Java 实现 HTTPS 接口调用,等效于curl -k
在 Java 生态中,HttpClient和 Feign 都是调用第三方接口的常用工具,但它们的定位、设计理念和使用场景有显著差异。
2025-05-22 09:30:30
578
原创 特征工程六-2:特征转换中的线性判别分析(LDA)
线性判别分析(LDA,Linear Discriminant Analysis)是一种监督学习的降维和分类方法,旨在找到能够最大化类间差异且最小化类内差异的特征投影方向
2025-05-16 10:58:59
672
原创 特征工程六-1:特征转换中的主成分分析PCA
主成分分析(PCA,Principal Component Analysis)是一种常用的降维和数据特征提取方法,通过线性变换将原始数据映射到低维空间,同时保留数据的主要变异信息
2025-05-16 09:21:33
454
原创 同类多源数据根据优先级筛选:分组(Grouping)与规约(Reduction)联合使用
分组(Grouping)与规约(Reduction)联合使用是Java Stream API中非常强大的功能组合,能够高效处理复杂的数据聚合需求。下面我将详细介绍典型应用场景和实现方式。
2025-05-09 14:50:33
396
转载 java使用ProcessBuilder执行linux命令
ProcessBuilder 是 Java 中用于创建和管理操作系统进程的类,位于 java.lang 包中。与传统的 Runtime.exec() 方法相比,ProcessBuilder 提供了更细粒度的控制(如环境变量、工作目录、输入/输出重定向等)
2025-05-07 15:42:31
72
原创 特征工程四-2:使用GridSearchCV 进行超参数网格搜索(Hyperparameter Tuning)的用途
多数情况下,超参数的选择是无限的,因此在有限的时间内,除了可以验证人工预设的几种超参数组合外,也可以通过启发式的搜索方法对组合进行调优,这种超参数搜素的方法称为 网格搜索。
2025-04-29 17:36:36
665
原创 特征工程四:数据特征提取TfidfVectorizer的使用
TfidfVectorizer 是 scikit-learn 中用于文本特征提取的核心工具,它将原始文本转换为 TF-IDF 特征矩阵,是自然语言处理(NLP)和文本挖掘的基础组件
2025-04-27 16:33:21
1031
原创 特征工程三:数据特征之词干提取器(stemmer)
SnowballStemmer(雪球词干提取器)是自然语言处理(NLP)中用于词形归并的核心工具
2025-04-27 15:52:23
387
原创 特征工程二:为什么要在特征工程中使用Pipeline
Pipeline 是 scikit-learn 中用于顺序执行多个数据处理和建模步骤的工具。它会将输入数据逐步传递给每个步骤,前一个步骤的输出作为下一个步骤的输入,最终输出处理后的数据或模型预测结果
2025-04-17 19:05:36
409
原创 特征工程一:Z分数标准化与行均一化
在数据处理和机器学习中,Z分数标准化(Z-Score Normalization)和 行均一化(Row Normalization) 是两种常见的归一化方法,但它们的计算方式和应用场景不同。
2025-04-17 16:50:22
467
原创 ApacheTika类型解析:透过后缀的文件类型检测方式
Apache Tika 是一个开源的 内容类型检测和内容提取工具库,由 Apache 软件基金会维护。它能够自动识别和解析上千种文件格式(如文档、图像、音频、视频等),并从中提取结构化文本和元数据
2025-04-03 15:00:49
455
转载 什么是向量数据库,在大模型中的应用
随着大模型应用的深化,向量数据库正在成为连接非结构化数据与智能应用的核心枢纽。在实际落地时,常用来:用户提问 → 向量化 → 向量库检索 → 拼接上下文 → 大模型生成回答
2025-03-24 15:28:45
335
原创 prompt工程一:如何编写高效提示词
提示词是用户与大模型交互的核心工具,通过精准设计可引导输出方向(如角色设定)、激活相关知识并调节生成行为(如链式推理)。其质量直接影响结果的准确性与规范性,使提示工程成为优化模型性能的关键技术。然而,效果受文化语境、语言歧义及模型偏见的制约。未来,自适应提示技术将深化人机协作,成为释放大模型潜能的“隐形控制器”。
2025-03-19 17:21:22
300
原创 简单的数据库分级分类算法模型实现
在数据库管理中,分级分类算法模型可以用于对数据进行分类和分级,以便更好地管理和保护数据。以下是一个基于深度学习的数据库分级分类算法模型的示例,使用 Python 和 TensorFlow/Keras 实现。首先,我们需要准备数据。假设我们有一个包含数据库表及其分类标签的数据集。每个表有一组特征(如列数、行数、数据类型等),并且每个表都有一个分类标签(如“敏感数据”、“非敏感数据”等)。2. 构建模型接下来,我们构建一个简单的神经网络模型来进行分类。3. 训练模型使用训练数据来训练模型。4. 评估模
2025-03-03 09:24:25
411
原创 清华大学关于deepseek的使用介绍
下载地址https://download.csdn.net/download/qq_37713191/90361723
2025-02-10 11:41:47
574
转载 关于flink复杂事件处理Flink-CEP
它们构成了一个新的“复杂事件流”,流中的数据就变成了一组一组的复杂事件,每个数据都包含了一个圆形和一个三角形。设定一些行为模式,可以对用户的异常行为进行实时检测。利用 CEP 可以用预先定义好的规则,对用户的行为轨迹进行实时跟踪,从而检测出具有特定行为习惯的一些用户,做出相应的用户画像。CEP 可以帮助在复杂的、看似不相关的事件流中找出那些有意义的事件组合,进而可以接近实时地进行分析判断、输出通知信息或报警。具体的处理过程是,把事件流中的一个个简单事件,通过一定的规则匹配组合起来,这就是“复杂事件”;
2025-01-02 09:11:40
85
原创 数据资产化探索
目前国家已经出台了《关于构建数据基础制度更好发挥数据要素作用的意见》提出了建立保障权益、合规使用的数据资产产权制度,目前来看,还处在基础立法阶段,只有完成了可执行的数据财产权确认、厘清数据权属,处理好数据流通使用环节中的权利关系,才能保障数据交易合法、合规。它对数据资产定价、确权提出了新的挑战。数据增值服务是一种利用大数据技术,对原始数据进行加工、处理和分析,以提供更有价值的信息和服务的活动,这种服务不仅包括数据的收集和存储,更重要的是通过高级的数据分析方法和技术,来挖掘数据中的深层次价值。
2024-12-27 16:01:39
254
原创 mysql数据库信创适配(微服务版)
信创适配的主要目的是确保原有的系统或软件可以正常运行在信创环境(如国产CPU、操作系统、数据库等)上。这涉及到核心芯片协议、基础硬件、操作系统、数据库、中间件、服务器以及应用软件等多个层面的匹配与优化
2024-12-18 15:57:28
596
原创 docker部署elasticsearch与kibana
8、执行命令docker-compose -f docker-compose-kibana.yml up -d --build。4、执行命令docker-compose -f docker-compose-es.yml up -d --build。6、由于kibana是一个可视化工具,本身并不产生数据,所以不需要挂载数据目录。7、编辑kibana的docker-compose-kibana.yml。2、编辑es的docker-compose-es.yml。10、通过kibana访问es。
2024-12-18 10:18:28
815
转载 Nginx+keepalived配置高可用
在使用 Nginx 做反向代理或者负载均衡的时候,都是以 Nginx 为入口,如果 Nginx 宕机了,那么所有的服务都无法正常提供,影响非常严重。所有我们需要保证 nginx 高可用,就是配置备份机,前一个挂了,还有后一个。为了避免负载均衡服务器宕机造成严重影响,就需要建立一个备份机。主服务器和备份机上都运行高可用(High Availability)监控程序,通过传送诸如“I am alive”这样的信息来监控对方的运行状况。
2024-10-12 17:47:25
261
转载 应用系统多租户设计
每一个租户(这里具体描述为企业),有自己独立的应用实例,数据库,比如有一个数据中台产品,跟珠海政府,长沙市政府 共同签订了产品服务合同,为了数据安全,需要在珠海机房搭建一套数据中台系统,又要在长沙机房搭建一台数据中台服务,(假如各地政府没有定制化需求)如果面对的是银行、医院等需要非常高数据隔离级别的租户,可以选择这种模式,提高租用的定价。这是第一种方案,即一个租户一个数据库,这种方案的用户数据隔离级别最高,安全性最好,但成本也高。如果出现故障,数据恢复比较困难,因为恢复数据库将牵扯到其他租户的数据;
2024-01-11 08:50:28
170
转载 python中urllib.request与requests
除了requests模块可以发送请求之外, urllib模块也可以实现请求的发送,只是操作方法略有不同!urllib在python中分为urllib和urllib2,在python3中为urllib下面以python3的urllib为例进行讲解构造简单请求#构造请求#发送请求获取响应传入headers参数#构造headersMSIE 9.0;#构造请求#发送请求传入data参数 实现发送post请求(示例)data = {'pid': '',
2023-12-28 18:21:23
1657
vector-database (向量数据库)
2025-06-12
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人