机器学习
文章平均质量分 66
一望无际的大草原
知识的传播者,人工智能大数据与传统行业融合的探索者,能源行业专业化应用数据服务的设计与实践者。
展开
-
如何将在线大模型的API 封装为本地 API服务
目前,LLM大模型正以雨后春笋般出现,不同领域、厂家的大模型层出不穷,有支持本地微调、部署的开源大模型,也有提供 Web 及 API 服务的通用大模型。不同的大模型有着不同的调用方式及参数,比如讯飞星火认知大模型支持websocket 连接调用,文心一言则直接使用 request 调用,ChatGPT和智谱AI等有自己的开放API直接调用,可以说,各自之间都存在差异。对于不同调用方式的大模型,如果不能统一调用,就需要在程序代码中增加很多复杂的业务逻辑和细节,增加了程序开发的工作量,也增加了Bug和维护成本。原创 2024-02-18 22:39:07 · 576 阅读 · 0 评论 -
文档分割和文档词向量化的几种实现方式
本文主要基于大模型,或调用大模型API实现文档的分割和文档词的向量化,类似于word2vec机制,大家在未来做相关分析、情感分析、文字生成、智能推荐等方面,都需要先将已管理的文档进行分割和向量化,分割时为了将大的篇幅变短,变为以核心关键词为主的list,向量化是将关键词组合的文档进行矢量化表征,目的是为了借助计算机实现数学方面的运算处理。目前基于大模型主要有以下三种方式实现向量化。原创 2024-02-13 12:28:44 · 684 阅读 · 0 评论 -
如何基于OpenCV和Sklearn库开展数据降维
在做数据分析或者机器学习应用过程中,不可避免的需要对数据进行降维操作,好多垂直行业业务中经常出现数据量少但维度巨大的情况。数据降维的目的是为了剔除不相关或冗余特征,使得数据易用,去除无用数据,实现数据可视化,提高模型精确度,减少运行成本,减少特征个数并关注本质特征,确保数据特征属性间相互独立。原创 2023-12-02 22:29:22 · 333 阅读 · 0 评论 -
如何基于gensim和Sklearn实现文本矢量化
利用机器学习或深度学习开展文本分类或关联性分析之前,由于计算机只能分析数值型数据,而人类所熟悉的自然语言文字,机器学习算法是一窍不通的,因此需要将大类的文本及前后关系进行设计,并将其转换为数值化表示。一般来说,文本语言模型主要有词袋模型(BOW)、词向量模型和主题模型,目前比较常见是前两种,各种机器学习框架都有相应的word2vec的机制和支持模型,比如gensim和Scikit-learn(简称Sklearn),词袋模型向量化技术主要有One-Hot、文本计数数值化、词频-逆文档频率(TF-IDF)原创 2023-11-28 22:45:24 · 457 阅读 · 0 评论 -
如何基于OpenCV和Sklearn算法库开展机器学习算法研究
目前比较有名的机器学习算法库主要有OpenCV和Scikit-learn(简称Sklearn),二者都支持各种机器学习算法,主要有监督学习、无监督学习、数据降维等,OpenCV的所有机器学习相关函数都在OpenCV ML里面描述,OpenCV对图像处理方面有比较大的优势,后续在单独说明,Sklearn是目前机器学习领域最完整、同时也是最具影响力的算法库,基于Numpy, Scipy和matplotlib,包含了大量的机器学习算法实现,同时,Sklearn包含了非常多的已建设规范好的数据集,如波士顿数据集等。原创 2023-11-15 17:31:18 · 877 阅读 · 0 评论 -
大模型对外提供应用的三种服务方式及示例
我们开发完成的软件模块为了体现价值,都需要对外提供服务,最原始的方式就是将源码或编译好的类库提供给需要使用的客户进行引入使用,但对于大模型的应用来说,这种方式显然不行,一个是由于模型太大,需要更多的存储资源和计算资源等,客户侧一般没有相应的资源,一个是由于部署运行环境的复杂性和可运维性,导致这种应用方式的成功率和可移植性较低,因此,目前比较多的是以下三种方式,主要有终端Terminal、Web应用服务和Rest服务等。原创 2023-09-14 08:51:29 · 684 阅读 · 0 评论 -
CUDA Toolkit多版本安装与配置
CUDA Toolkit多版本安装目的是为了将CUDA Toolkit支持多个版本,并将当前版本更新到后续支持常见pytorch的版本(即cuda11.6),目前该系统默认安装的是cuda10.2,cuda11.0和cuda11.2。CUDA一般有两种API,一个是驱动API(Driver Version),依赖NVIDIA驱动,由nvidia-smi查看; 另一个是运行API(Runtime Version)是软件运行所需要的,比如python环境需要的cuda api版本等。一般驱动API版本>=运行A原创 2023-09-01 15:20:55 · 4433 阅读 · 0 评论 -
Llama-2大模型本地部署研究与应用测试
目前正在开展大模型部署,目前开源大模型主要就是Llama、ChatGLM大模型等,包括Llama-1和Llama-2,在其基础上的改进大模型有Chinese-LLaMA、OpenChineseLLaMA、Moss、baichuan等等,本文主要对原始Llama大模型进行了本地部署与测试,后续再逐步学习,结合行业数据资源进行finetune,希望在开源模型的基础上对油气行业大模型建设有所帮助,大模型部署测试如下。原创 2023-08-26 12:32:55 · 2900 阅读 · 0 评论 -
python中常见的矩阵变换总结
利用python做数据处理和分析过程中,如在开展机器学习的数据预处理、数据格式转换等等,不可避免的会涉及到各种矩阵变换,其中使用最多的就是numpy下的矩阵变换,以下是日常用到的一些矩阵变换总结,主要有矩阵中数据类型的整体转换、矩阵维度增减、多矩阵拼接、矩阵切片获取和多矩阵迭代等等,当然,pandas也有相应的矩阵变换操作,相对更复杂,后续会逐步发出来,供参考。原创 2023-08-11 14:49:53 · 1169 阅读 · 0 评论 -
机器学习模型选择评估和超参数调优
如何选择模型?如何评估模型?如何调整模型的超参数?模型评估要在测试集上进行,不能在训练集上进行,否则评估的准确率总是100%,模型调参要在验证集上迭代进行。所以,一般我们准备好数据集后,要将其分为训练集和测试集,分配比例一般在5:5到8:2之间,即最多训练集80%,测试集20%,验证集包含在训练集中。sklearn中有sklearn.model_selection.train_test_split方法来实现数据集的拆分。原创 2023-08-05 22:48:15 · 527 阅读 · 0 评论 -
机器学习的关键词和算法总结
随着全球各行业的数据治理、数字化转型智能化辅助的引入发展,机器学习(包括深度学习)在逐步深入到各行各业,所以,有必要对机器学习的常见术语,经典算法及应用场景进行一次总结,其实机器学习兴起目的是为了解决人类的各种各样的分类回归问题,通过人类智能化的设计,实现机器的自动化或智能化,而且机器主要学习人类解决问题的归纳和综合逻辑方法,但目前还无法实现演绎逻辑。特别是一些数据量密集,准确性要求快捷及时的场景,比如人脸识别、车牌设备、行人检测、安全预警、垃圾邮件识别等等。原创 2023-07-30 15:49:09 · 1139 阅读 · 0 评论