后端
文章平均质量分 65
后端学习内容,包括java,python,c#,c++,nodejs等
redis,mybatis
一望无际的大草原
知识的传播者,人工智能大数据与传统行业融合的探索者,能源行业专业化应用数据服务的设计与实践者。
展开
-
如何基于pdf2image实现pdf批量转换为图片
最近为了将pdf报告解析成为文本和图片,需要将大量多页的pdf文件拆分下单独的一页一页的图像,以便后续进行OCR和图像处理,因此就需要实现将pdf2image,就结合开源的pdf2image和poppler,简单实现了pdf转换为png图片格式的转换工具原创 2024-11-03 22:39:01 · 147 阅读 · 0 评论 -
LibreTranslate的本地部署与应用服务开发
一个开源翻译方案(即LibreTranslate),对于通用和计算机类内容的翻译效果还是不错的,因此就对开源翻译代码进行了本地部署和应用服务开发及测试。主要对源码的启动参数、api服务、认证服务和访问权限等内容进行了补充完善,并将依赖的翻译argos-translate包进行了本地配置,还有流量ip限制等。原创 2024-10-26 12:07:23 · 48 阅读 · 0 评论 -
基于curl和wget命令编写的多文件或大文件批量上传下载
最近需要在windows和服务器linux系统之间传递大量的文件,部分文件非常大(TB以上),并且文件夹中包含文件或文件夹,需要先进行上传再进行组织,因此就想办法结合curl和wget命令编写了命令或脚本工具,供大家参考学习。本文主要实现了单文件上传下载,多文件/嵌套文件夹上传下载,如果需要续传,记得加上-C参数。原创 2024-10-19 12:51:22 · 275 阅读 · 0 评论 -
仓颉语言学习和编程实验
仓颉编程语言作为一款面向全场景应用开发的现代编程语言,通过现代语言特性的集成、全方位的编译优化和运行时实现、以及开箱即用的IDE工具链支持,为开发者打造友好开发体验和卓越程序性能。具备高效编程、安全可靠、轻松并发、卓越性能等设计理念,可以说仓颉整合了C++、Java、python、javascript等语言的各种优点特性,是一种大模型浪潮下的AI for PL、PL for AI的形态,支持面向应用开发的一系列工具链,包括语言服务(高亮、联想)、调试(跨语言调试、线程级可视化调试)、静态检查、性能分析。原创 2024-07-28 14:46:41 · 636 阅读 · 0 评论 -
基于FastApi框架的后端服务实践案例
利用python在做后端数据处理过程中,发现从响应性能、框架灵活性和安全可靠性等角度来综合考虑,总体推荐基于FastApi框架来编写不同类型的后端服务,因此记录并分享给大家。本文主要采用FastApi框架实现http web服务,支持储层研究方面的趋势分析、倾向计算等专业算法实现,实现了如何跨域访问、如何设置白名单、如何设置静态资源,同时包括了常见的get/post请求的处理、单文件/多文件上传解析,并且结合了swagger,实现了服务端接口文档的自动编写和测试发布说明等。原创 2024-06-29 21:30:00 · 265 阅读 · 0 评论 -
数字孪生技术体系和核心能力整理
通过学习,发现数字孪生技术的构建过程其实就是数字孪生体的构建与应用过程,数字孪生体的构建是一个体系化的系统工程,数字化转型的最终形态应该就是数实融合互动互联的终极状态。数实融合是每个行业必答题。数字化转型让数字空间和物理空间的交互普遍和频繁,通过数字空间的计算、分析、推演来优化物理空间,已成为数字化转型重要的方法论,数字化转型相关的标准、技术和应用方面推进数字孪生产业的发展完善。原创 2024-06-08 22:06:51 · 310 阅读 · 0 评论 -
python中如何实现不同目录下定义的组件调用
在做不同目录下组件之间调用时,总是无法找到相应的变量或方法组件,因此写了一个简单的测试脚本进行的测试,供大家参考,整体来说是需要在使用的地方之前将对应目录加载到系统path中原创 2024-04-15 09:34:39 · 254 阅读 · 0 评论 -
数据安全技术体系建设的整体考量和建议落地方案
随着企业数据治理和应用建设工作的不断深入,数据安全变得越来越重要了,大家作为数据安全和流程体系建设的技术管理者、架构师、技术人员和数据运营管控人员,数据安全需要在技术和管理方面结合企业实际进行思考和落地,安全技术体系建设是一个整体性系统工程,需要从上往下的整体规划,也需要从下往上的分步实施和汇总总结梳理,是一门实践性较强的工程。以下内容来自数据安全与流通相关书籍的阅读和总结整理,供大家参考。原创 2024-02-25 18:22:13 · 95 阅读 · 0 评论 -
如何将在线大模型的API 封装为本地 API服务
目前,LLM大模型正以雨后春笋般出现,不同领域、厂家的大模型层出不穷,有支持本地微调、部署的开源大模型,也有提供 Web 及 API 服务的通用大模型。不同的大模型有着不同的调用方式及参数,比如讯飞星火认知大模型支持websocket 连接调用,文心一言则直接使用 request 调用,ChatGPT和智谱AI等有自己的开放API直接调用,可以说,各自之间都存在差异。对于不同调用方式的大模型,如果不能统一调用,就需要在程序代码中增加很多复杂的业务逻辑和细节,增加了程序开发的工作量,也增加了Bug和维护成本。原创 2024-02-18 22:39:07 · 576 阅读 · 0 评论 -
如何基于OpenCV和Sklearn库开展数据降维
在做数据分析或者机器学习应用过程中,不可避免的需要对数据进行降维操作,好多垂直行业业务中经常出现数据量少但维度巨大的情况。数据降维的目的是为了剔除不相关或冗余特征,使得数据易用,去除无用数据,实现数据可视化,提高模型精确度,减少运行成本,减少特征个数并关注本质特征,确保数据特征属性间相互独立。原创 2023-12-02 22:29:22 · 333 阅读 · 0 评论 -
如何基于gensim和Sklearn实现文本矢量化
利用机器学习或深度学习开展文本分类或关联性分析之前,由于计算机只能分析数值型数据,而人类所熟悉的自然语言文字,机器学习算法是一窍不通的,因此需要将大类的文本及前后关系进行设计,并将其转换为数值化表示。一般来说,文本语言模型主要有词袋模型(BOW)、词向量模型和主题模型,目前比较常见是前两种,各种机器学习框架都有相应的word2vec的机制和支持模型,比如gensim和Scikit-learn(简称Sklearn),词袋模型向量化技术主要有One-Hot、文本计数数值化、词频-逆文档频率(TF-IDF)原创 2023-11-28 22:45:24 · 457 阅读 · 0 评论 -
如何利用Python实现分词和NER的Web服务
家都知道python在数据处理、数据分析和机器学习等方面的强大之处,那么如何使用Python实现Web方式的HTTP应用和服务呢,其实有很多种方式,比如gradio、streamlit等等实现web应用,利用FastApi实现web服务等,具体详见之前的[大模型应用文章],本文采用tornado框架实现http web服务,并结合自然语言处理(NLP)的分词和实体识别的需求,分别实现如何提供相应的http服务。原创 2023-11-05 15:55:27 · 190 阅读 · 0 评论 -
大模型对外提供应用的三种服务方式及示例
我们开发完成的软件模块为了体现价值,都需要对外提供服务,最原始的方式就是将源码或编译好的类库提供给需要使用的客户进行引入使用,但对于大模型的应用来说,这种方式显然不行,一个是由于模型太大,需要更多的存储资源和计算资源等,客户侧一般没有相应的资源,一个是由于部署运行环境的复杂性和可运维性,导致这种应用方式的成功率和可移植性较低,因此,目前比较多的是以下三种方式,主要有终端Terminal、Web应用服务和Rest服务等。原创 2023-09-14 08:51:29 · 684 阅读 · 0 评论 -
基于Streamlit的应用如何通过streamlit-authenticator组件实现用户验证与隔离
Streamlit框架中默认是没有提供用户验证组件的,大家在基于streamlit快速实现web应用服务过程中,不可避免的需要配置该应用的访问范围和权限,即用户群体,一般的做法有两种,一种是通过用户密码验证机制,要求只有成功登录后的用户才可访问该应用,一种是白名单策略,比如通过系统级的防护墙进行设置,或者通过Fastapi的白名单过滤机制(即app.middleware('http'))实现。原创 2023-09-07 17:37:24 · 2124 阅读 · 0 评论 -
CUDA Toolkit多版本安装与配置
CUDA Toolkit多版本安装目的是为了将CUDA Toolkit支持多个版本,并将当前版本更新到后续支持常见pytorch的版本(即cuda11.6),目前该系统默认安装的是cuda10.2,cuda11.0和cuda11.2。CUDA一般有两种API,一个是驱动API(Driver Version),依赖NVIDIA驱动,由nvidia-smi查看; 另一个是运行API(Runtime Version)是软件运行所需要的,比如python环境需要的cuda api版本等。一般驱动API版本>=运行A原创 2023-09-01 15:20:55 · 4433 阅读 · 0 评论 -
Llama-2大模型本地部署研究与应用测试
目前正在开展大模型部署,目前开源大模型主要就是Llama、ChatGLM大模型等,包括Llama-1和Llama-2,在其基础上的改进大模型有Chinese-LLaMA、OpenChineseLLaMA、Moss、baichuan等等,本文主要对原始Llama大模型进行了本地部署与测试,后续再逐步学习,结合行业数据资源进行finetune,希望在开源模型的基础上对油气行业大模型建设有所帮助,大模型部署测试如下。原创 2023-08-26 12:32:55 · 2900 阅读 · 0 评论 -
python中常见的矩阵变换总结
利用python做数据处理和分析过程中,如在开展机器学习的数据预处理、数据格式转换等等,不可避免的会涉及到各种矩阵变换,其中使用最多的就是numpy下的矩阵变换,以下是日常用到的一些矩阵变换总结,主要有矩阵中数据类型的整体转换、矩阵维度增减、多矩阵拼接、矩阵切片获取和多矩阵迭代等等,当然,pandas也有相应的矩阵变换操作,相对更复杂,后续会逐步发出来,供参考。原创 2023-08-11 14:49:53 · 1169 阅读 · 0 评论 -
机器学习模型选择评估和超参数调优
如何选择模型?如何评估模型?如何调整模型的超参数?模型评估要在测试集上进行,不能在训练集上进行,否则评估的准确率总是100%,模型调参要在验证集上迭代进行。所以,一般我们准备好数据集后,要将其分为训练集和测试集,分配比例一般在5:5到8:2之间,即最多训练集80%,测试集20%,验证集包含在训练集中。sklearn中有sklearn.model_selection.train_test_split方法来实现数据集的拆分。原创 2023-08-05 22:48:15 · 527 阅读 · 0 评论 -
利用python绘制二维向量图
为了实现地层数据的变化趋势的可视化模拟,最近研究了python环境下的可视化方案,为后续的流体运动的仿真模拟做好储备,主要采用matplotlib中的quiver函数,实现二维等值线数据的随深度或者地层数据的变化趋势绘制。python3.10环境,利用 matplotlib.pyplot、scipy.interpolate、numpy、pandas实现数据的处理,网格数据的生成,矩阵数据的合并等。,数据格式和数据读取、数据处理方法类似。典型二维向量场箭头图的绘制。利用实际地层数据绘制。原创 2023-07-23 18:02:24 · 1708 阅读 · 0 评论 -
利用python绘制二三维曲面和矢量流线图
本文主要在python3.10环境下,利用 matplotlib.pyplot、scipy.interpolate、numpy、pandas实现数据的处理,网格数据的生成,各自平面图和三维图形的绘制,并加入自定义颜色栏。在绘图开始之前,需要准备数据,一般包括读取和准备数据,以及简单的数据处理过滤等,后续会在此基础上进行绘图操作或继续进行数据处理及可视化等。原创 2023-07-08 16:17:45 · 2730 阅读 · 2 评论 -
基于GeoToolkit/INT实现二维等值线图绘制示例
本示例主要基于GeoToolkit/INT实现二维等值线图绘制,利用相同的数据处理方法统一了地层数据和断层数据格式,主要针对地质专业经常用到的地层数据解析和二维等值线(等高或等深线)可视化需求,本示例实现了不同地质年代地层的三种类型快速可视化,详细效果如下,包括前端、后端设计等内容。原创 2023-05-27 12:09:23 · 1546 阅读 · 0 评论 -
读书笔记--读数学之美有感
大学期间学过信号处理课程的同学一定非常熟悉这个模型,以及工作中从事后端数据传输处理(比如电子邮件的发送接收设计等)的小伙伴一定非常熟悉,原来,这些技能其实早在人类祖先的交流中就拥有了,只是没有一个相对规范的称呼,通信模型。数字进制的概念描述是不同位置的数字表示不同的量,中国用个十百千万千万亿兆,罗马人用I:1,V:5,X:10,L:50,C:100,D:500,M:1000。经过多年的自然语言的研究,科学家发现,要让机器具有智能,不是让机器理解自然语言,而是靠数学,准确的说是靠统计学。原创 2023-05-19 17:39:57 · 728 阅读 · 0 评论 -
基于GeoToolKit/INT完成不同年代地层与断层的可视化组合显示示例
本文结合GeoToolKit/INT组件,针对业务中经常提出的多种地质对象的组合解析与可视化需求,本文实现了不同地质年代地层的演化过程,并结合断层数据进行组合显示。本篇主要阐述三维地层成果数据的可视化展示和初步的交互实现,包括前端、后端设计、地层数据及文件格式等内容。原创 2023-05-09 17:34:47 · 786 阅读 · 0 评论 -
Mysql数据库的备份恢复
最近正在做一个异地数据的定期同步汇总工作,涉及到的数据库主要是Mysql数据库,用于存储现场的一些IOT采集的实时数据,所以做了以下备份恢复测试,现场和总部网络可定期通讯,但速度有限,因此计划采用备份还原增量文件方式进行,具体运行环境:Windows10 + mysql-8.0.19-winx64。# 备份 生成新的二进制文件(例:mysql-bin.0000004,mysql-bin.0000005),这个脚本要求每天做,相当于增量的基础二进制文件,后续用这个恢复数据库。# 1.一般恢复(用的最多)原创 2023-04-28 10:41:56 · 806 阅读 · 0 评论 -
数据格式转换--GeoMap contour如何转换为同一深度的xyz多点数据
在沉积储层研究或盆模研究过程中,很多专业软件(如Trinity)输出的文件格式有GeoMapcontour、egrid、xyz等等,很多成图应用支持的格式是x1,x2,y1,y2,z,大家将其用于其他专业应用或成图过程中,需要进行不同类型的数据格式转换,最典型的数据格式转换如下,因此就用python简单写了一个数据转换格式工具,也有对应C++,java或js编写的程序。原创 2023-02-25 11:12:11 · 479 阅读 · 0 评论 -
ElasticSearch+Neo4j+ElasticSearch Head实现全文检索应用
本文主要阐述利用ES、知识图谱(Neo4j)实现全文检索,并利用ElasticSearch Head开源项目进行全文检索测试。实验在图谱的帮助下如何开展全文检索功能,为后续的复杂查询或语义检索做准备。原创 2022-12-23 17:47:49 · 1665 阅读 · 5 评论 -
【经验分享】一名慕星人多年的工作感想
一名慕星人多年的工作感想原创 2022-12-16 08:55:07 · 129 阅读 · 0 评论 -
利用机器学习完成储层预测
利用机器学习完成储层预测原创 2022-12-16 08:46:45 · 279 阅读 · 0 评论 -
SQL SERVER2017 无法安装机器学习服务的问题解决方式
MS SQL Server2017无法按照python和R环境的问题解决办法。原创 2022-12-16 08:42:29 · 388 阅读 · 0 评论 -
什么是实时数据,有哪些特征及与离线数据的对比分析
什么是实时数据,有哪些特征及与离线数据的对比分析原创 2022-12-09 23:04:13 · 7516 阅读 · 0 评论 -
NLTK中英文分词下载配置与实例学习
NLTK中英文分词下载配置与实例学习原创 2022-11-05 19:00:45 · 983 阅读 · 0 评论 -
自然语言处理技术及处理框架学习
自然语言处理原创 2022-10-29 21:14:57 · 1648 阅读 · 0 评论 -
汇编程序学习回顾
汇编程序的学习回顾。原创 2022-10-22 20:16:55 · 452 阅读 · 0 评论 -
GeoToolkit之地震数据SesmicWidget组件介绍及示例
地震数据服务设计。原创 2022-09-23 22:37:55 · 693 阅读 · 2 评论 -
数据应用服务规划及建设思考
数据应用服务规划及建设的初步思考,供大家参考。未来逐步形成种类各异,面向不同用户,不同级别的应用服务和数据服务。原创 2022-09-12 20:08:51 · 1838 阅读 · 0 评论 -
sql server2017企业版安装R和Python包的方法
1.在安装sql server2017企业版时,在最后一步会出现如下问题。建议回到前面不知不选择安装R和python,单将这些地址中的cab包下载下来,之后手动配置和安装。下面是默认下载下来的文件名下面是修改后的文件名(必须修改啊)注意:从这四个连接下载下来的文件名默认是1033,中文的操作系统一定要改为2052(即安装的sql server版本也是中文的,两者一致),否则......原创 2022-08-28 19:37:31 · 297 阅读 · 0 评论