- 博客(26)
- 收藏
- 关注
原创 数据预处理-数据清洗(缺失值、重复值、异常值)
数据清洗1、处理缺失值2、处理重复值3、处理异常值4、文本数据清洗数据处理1、特征工程支持2、数据格式标准化3、数据合并与拆分
2025-05-16 14:55:57
761
原创 Tensorflow释放GPU资源
现有问题:用tensorflow进行模型训练,训练完成后用tf.keras.backend.clear_session()命令无法真正实现释放资源的效果。解决方案:创建多进程,将模型训练作为子进程,模型训练完成后,子进程会自动释放GPU资源。框架:tensorflow。
2025-04-18 13:53:11
493
原创 机器学习算法——时间序列分析
1、自回归1.1自回归模型 AR1.2移动平均模型 MA1.3自回归移动平均模型 ARMA1.4自回归积分移动平均模型 ARIMA1.5季节性自回归积分移动平均模型 SARIMA2、指数平滑法2.1 单指数平滑2.2 双指数平滑2.3 三指数平滑2.4 布朗指数平滑3、广义自回归条件异方差 GARCH4、间歇性时间序列预测4.1 克罗斯顿方法 Croston's Method4.2 TSB方法5、动态时间弯曲5.1 动态时间弯曲 DTW5.2 快速动态时间弯曲 FD
2025-03-29 07:06:37
1056
原创 机器学习算法——聚类任务
1、K-Means2、K-medoids3、K-medians4、层次聚类5、DBSCAN6、OPTICS7、谱聚类 Spectral Clustering8、高斯混合模型GMM9、模糊C-means FCM10、Mean Shift11、BIRCH12、Affinity Propagation13、对比总结14、完整代码
2025-03-10 17:20:03
847
原创 机器学习算法——回归任务
1、多元线性回归2、岭回归3、Lasso回归4、弹性网络回归5、多项式回归6、指数回归7、自然对数回归8、广义线性模型 GLM9、Cox比例风险模型10、决策树回归11、随机森林回归12、梯度提升回归13、XGBoost回归14、LightGBM回归15、CatBoost回归16、支持向量回归 SVR17、K近邻回归 KNN18、贝叶斯回归19、神经网络回归
2025-03-04 17:44:34
1267
原创 机器学习算法——分类任务
1、决策树2、随机森林3、梯度提升树4、逻辑回归5、支持向量机SVM6、K近邻 KNN7、朴素贝叶斯8、多层感知机9、统一分类
2025-03-03 17:56:04
1445
原创 MySQL VS SQL Server
MySQL 和 SQL Server 在所有权、商业性质、适用场景、性能特点、数据类型、语法差异、安装和配置以及安全机制等方面都存在着不同,用户可以根据自身的需求和实际情况来选择合适的数据库管理系统。
2024-11-01 14:13:16
1366
原创 模型融合 VS 模型集成
模型融合(Model Fusion)和模型集成(Model Ensemble)是在机器学习和数据挖掘领域中常涉及的两种提升模型性能的方法,它们之间存在一些区别:
2024-10-28 17:23:45
1048
原创 Python之多线程
这是 Python 中最基本的创建线程的方法。通过定义一个函数,然后将这个函数作为参数传递给Thread类的构造函数来创建线程。每个线程对象代表一个独立的执行线程。通过创建一个新的类,继承自threading.Thread类,然后重写run方法。在run方法中定义线程要执行的任务。这样创建的类的实例就是一个线程对象。这个模块提供了一个高级的接口来管理线程池。ThreadPoolExecutor可以自动管理线程的创建、复用和销毁。可以通过提交任务(函数及其参数)到线程池来并发执行任务。
2024-10-23 13:33:30
880
原创 LLM大语言模型项目知识点总结——Python基础知识
基于有道自研两阶段检索框架,能够做到数据越多,问答效果越好!光学字符识别,是一种利用计算机自动识别和解析图像中的文字信息的技术。它能够将纸质文档、图片、照片等载体上的文字信息转化为计算机可编辑和处理的文本数据。总结:当处理字符串转换时,虽然 eval 函数可以通过变量作用域限制一些危险操作,但无法完全堵住所有非法操作。是一种二进制协议,定义了一组规则和标准,以确保消息可以在不同的应用程序和平台之间传递和解释。一个 npm 包,用于加载 .env 文件中定义的环境变量赋值给到 process.env 中。
2024-10-07 19:29:17
1286
原创 LLM大语言模型项目知识点总结——Gunicorn、Flask和Docker
web服务器网关接口,只是一个规范,是一个协议,不是服务器,只是服务器和应用程序通信的接口规范。WSGI 协议 规定了Web服务器与Python Web应用程序或框架之间的建议标准接口,以促进跨各种Web服务器的Web应用程序可移植性。WSGI的目标是促进现有服务器和应用程序或web框架的轻松互连。就是一个工具,可以把想跑的程序、库文件、配置文件都一起打包。然后在任何一个计算机的节点上,都可以使用这个打好的包。有了容器,一个命令就能把想跑的程序跑起来,做到了一次打包,到处使用。
2024-10-07 19:15:54
752
原创 LLM大语言模型项目知识点总结——数据库:Elasticsearch、Milvus
Elasticsearch 是一个分布式的、基于 RESTful API 的搜索和分析引擎,广泛用于大规模的数据存储和快速检索。(就是一个数据库)Milvus是一款向量数据库,于 2019 年开源,可用于存储、索引和管理由深度神经网络学习与其他机器学习模型生成的海量向量。
2024-10-07 18:54:51
1681
原创 预训练语言模型公平性-公平性度量、去偏方法
● Context-debias[5]一种微调方法,通过在中间(隐藏)层中的正交投影,消除预训练上下文嵌入中的词或句子级别的不同粒度或不同层(实验选用了第一、最后一、所有层)的偏见,保留了预先训练的上下文单词嵌入模型中的语义信息。● A中去偏,T中保留语义信息。
2024-08-09 17:07:20
781
原创 模型压缩-模型蒸馏、模型剪枝、模型量化
过参数化主要是指在训阶段,在数学上需要进行大量的微分求解,去捕捉数据中的微小的变化信息,一旦完成迭代式的训练之后,网络模型在推理的时候不需要这么多参数,而剪枝算法正是基于过参数化的理论基础提出来的。剪枝算法核心思想就是减少网络模型中的参数量和计算量,同时尽量保证模型的性能不受影响。数字精度(如32位浮点数、16位浮点数或8位浮点数或8位整数),所能表示的范围不同。不同的数字精度会影响模型大小和推理时间,范围越大,精度越高,模型越大,推理时间越长。卷积神经网络特点:参数量大,计算量大,内存占用多,精度高。
2024-08-07 23:36:48
3833
原创 LLM大语言模型-ChatGPT、LLaMA、ChatGLM、文心一言、通义千问
LLM大语言模型-ChatGPT、LLaMA、ChatGLM、文心一言、通义千问。
2024-07-25 17:31:31
2186
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人