数据应用
文章平均质量分 68
以数据应用实践案例为主
一望无际的大草原
知识的传播者,人工智能大数据与传统行业融合的探索者,能源行业专业化应用数据服务的设计与实践者。
展开
-
如何基于pdf2image实现pdf批量转换为图片
最近为了将pdf报告解析成为文本和图片,需要将大量多页的pdf文件拆分下单独的一页一页的图像,以便后续进行OCR和图像处理,因此就需要实现将pdf2image,就结合开源的pdf2image和poppler,简单实现了pdf转换为png图片格式的转换工具原创 2024-11-03 22:39:01 · 147 阅读 · 0 评论 -
python中如何实现不同目录下定义的组件调用
在做不同目录下组件之间调用时,总是无法找到相应的变量或方法组件,因此写了一个简单的测试脚本进行的测试,供大家参考,整体来说是需要在使用的地方之前将对应目录加载到系统path中原创 2024-04-15 09:34:39 · 254 阅读 · 0 评论 -
文档分割和文档词向量化的几种实现方式
本文主要基于大模型,或调用大模型API实现文档的分割和文档词的向量化,类似于word2vec机制,大家在未来做相关分析、情感分析、文字生成、智能推荐等方面,都需要先将已管理的文档进行分割和向量化,分割时为了将大的篇幅变短,变为以核心关键词为主的list,向量化是将关键词组合的文档进行矢量化表征,目的是为了借助计算机实现数学方面的运算处理。目前基于大模型主要有以下三种方式实现向量化。原创 2024-02-13 12:28:44 · 684 阅读 · 0 评论 -
业务数据技术中台概念与相互关系
企业的应用架构建设模式主要为数据+中台(平台)+应用,这里的企业就涵盖互联网大企业和传统企业,大家都在开展必做的事情,即数字化时代的企业数字化转型 。同时,正好最近在做顶层设计和数字化转型整体应用架构设计,就梳理了一下中台发展历程,中台是阿里巴巴在2015年最早提出来的(所谓的大中台、小前台)。其实,很早以前银行系统早就提出了middlelayer的概念,只是当时叫做中间层,并没有叫做中台,感觉中台还是平台的概念,只是中台更加体系化和系统化,并加入了一些管理运营机制方面的内容。原创 2024-01-06 18:49:16 · 449 阅读 · 0 评论 -
读书笔记--构建数据湖仓阅读有感
数据因业务开展而产生,后续数据收集汇总后,数据需要用来分析和使用,进而形成分析服务,用于支持企业的战略决策和价值挖掘,用于商业决策,而分析数据需要不同类型数据的融合关联,以及提供数据挖掘的分析基础设施环境,否则数据就还是以原始数据方式存放,没有合适的信息和工具供数据科学家或用户便捷使用,因此提出了数据湖仓,他综合了数据仓库的数据结构和数据管理特性,同时借鉴了数据湖的低成本存储和支持多种类型数据的组织存储特性等。原创 2023-12-24 23:45:00 · 957 阅读 · 0 评论 -
工业数据的特殊性和安全防护体系探索思考
随着工业互联网的发展,工业企业在生产运营管理过程中会产生各式各样数据,主要有研发设计数据、用户数据、生产运营数据、物流供应链数据等等,这样就形成了工业大数据,这些数据需要依赖企业的网络环境和应用系统进行内外部流通才能实现价值挖掘,如何高效安全的管控这些数据?并基于这些数据,结合企业的业务流程和管理活动,引入信息新技术驱动,开展多种形式的数据应用,实现数据价值挖掘呢?就需要理清楚这些数据的特点,应用价值效果,如何建立安全合规防护体系,实现数据在不断流通过程中的再利用和价值再造等等。原创 2023-12-18 10:58:28 · 365 阅读 · 0 评论 -
信息安全、网络安全和数据安全的相互关系
信息安全概念最大,也是最早的概念,甚至在没有计算机就已经出现了,网络安全和数据安全是并行的概念,网络安全和基础设施安全是通信链路与基础设施的安全,网络安全需要建立在基础设施安全的基础上开展,因此统称为网络安全,数据安全是最近随着数据转变为生产要素才提出的,主要围绕数据的全生命周期(采集、存储、利用、加工、传输、提供和公开等)开展的安全防护与监测控制工作。总体来说,信息安全包含数据安全、网络安全,网络安全离不开基础设施安全,数据安全与网络安全是平等地位。原创 2023-12-10 21:35:07 · 578 阅读 · 0 评论 -
企业数字化转型应该做什么
企业做数字化转型目的是为了赋能业务,因为原有老业务发展了这么多年,好做的都已经做完了,目前已进入了深水区,需要引入新的创新源泉,需要跨界创新,特别是这几年IT技术的发展,需要通过IT进行借力赋能,数字化和信息化最大的区别在于随着数字化转型的不断演进,数字化成果会直接指导业务行动。同时,大家也要意识到企业数字化转型不是一连就成,一连就智能,需要结合业务环节,不断分析业务,应用于业务,需要时间,需要全员多个岗位人员的共同努力,在日常业务开展过程中,逐步将知识和经验数字化并沉淀到系统中。原创 2023-12-02 23:32:22 · 156 阅读 · 0 评论 -
如何基于OpenCV和Sklearn算法库开展机器学习算法研究
目前比较有名的机器学习算法库主要有OpenCV和Scikit-learn(简称Sklearn),二者都支持各种机器学习算法,主要有监督学习、无监督学习、数据降维等,OpenCV的所有机器学习相关函数都在OpenCV ML里面描述,OpenCV对图像处理方面有比较大的优势,后续在单独说明,Sklearn是目前机器学习领域最完整、同时也是最具影响力的算法库,基于Numpy, Scipy和matplotlib,包含了大量的机器学习算法实现,同时,Sklearn包含了非常多的已建设规范好的数据集,如波士顿数据集等。原创 2023-11-15 17:31:18 · 877 阅读 · 0 评论 -
如何利用Python实现分词和NER的Web服务
家都知道python在数据处理、数据分析和机器学习等方面的强大之处,那么如何使用Python实现Web方式的HTTP应用和服务呢,其实有很多种方式,比如gradio、streamlit等等实现web应用,利用FastApi实现web服务等,具体详见之前的[大模型应用文章],本文采用tornado框架实现http web服务,并结合自然语言处理(NLP)的分词和实体识别的需求,分别实现如何提供相应的http服务。原创 2023-11-05 15:55:27 · 190 阅读 · 0 评论 -
知识图谱--Jena基础操作和检索推理应用
本次主要对Jena的基础操作和如何应用进行了实践总结,同时结合了D2R,将结构化数据转换成Jena可以加载的格式(即RDF,后缀是.nt),Apache Jena作为一种开源的Java语义网框架,主要功能有RDF数据管理、RDFS和OWL本体管理、SPARQL查询处理;推理主要有基于规则的推理引擎,可执行RDFS和OWL本体推理任务。利用Apache Jena存储数据目前主要采用TDB方式,性能最好, 支持几十亿条记录,同时利用Apache Jena Fuseki存储和管理三元组,支持SPARQL查询。原创 2023-10-27 22:37:20 · 667 阅读 · 0 评论 -
大模型与知识图谱如何相互助力
在大模型发展的当下,知识图谱与大模型的融合发展成为一个有意义的探索方向。知识图谱是对数据/文本的压缩,通过知识建模定义的知识的结构规范,提炼出知识最本质特征和语义。因此,schema是一种强范式指令,大模型是in-context learning,借助大模型来,实现自动生成常识知识的schema定义(垂直细领域、业务实体特有schema仍需专家)、以schema作为prompt约束,生成高质量的结构化知识并沉淀到知识图谱。比如在知识建模、知识抽取、知识推理探测等方向开展互动。原创 2023-10-22 17:12:08 · 287 阅读 · 0 评论 -
读书笔记--华为数据之道有感
通过研读华为数据之道,了解到华为作为一家非数字原生企业,其业务涵盖研发、营销、制造、供应、采购、服务等,业务相当复杂。因此华为在开展数据治理过程中明确了由谁来对数据负责,特别是对数据质量负责,明确了数据质量的衡量或度量指标,并成立了数据管理部,确定其职能定位,构建了面向业务交易支撑的信息架构。通过对华为的数据治理工作经验的学习与分析,结合自身业务,得出如下一些可供借鉴的地方,特别要强调的是数据治理的目的是为了支撑业务、沉淀数据资产、形成知识,再结合认知智能深挖数据价值,提升企业的安全合规能力和竞争能力。原创 2023-10-14 14:39:17 · 992 阅读 · 0 评论 -
读书笔记--知识图谱基础概念与关键环节解析
知识图谱相当于一张网,是一种大型知识库,一种揭示实体之间关系的语义网络,是事物及其关系的形式化描述,分为通用知识图谱和领域(行业)知识图谱,如DBpedia,OpenKG,Wikidata.知识图谱为多源、异构、海量、动态数据的表达、组织、管理和利用等提供了一种更为有效的方式,知识图谱促进了理解和处理,使得智能化水平更高,更接近人类认知思维。原创 2023-09-29 23:26:55 · 1275 阅读 · 0 评论 -
基于Streamlit的应用如何通过streamlit-authenticator组件实现用户验证与隔离
Streamlit框架中默认是没有提供用户验证组件的,大家在基于streamlit快速实现web应用服务过程中,不可避免的需要配置该应用的访问范围和权限,即用户群体,一般的做法有两种,一种是通过用户密码验证机制,要求只有成功登录后的用户才可访问该应用,一种是白名单策略,比如通过系统级的防护墙进行设置,或者通过Fastapi的白名单过滤机制(即app.middleware('http'))实现。原创 2023-09-07 17:37:24 · 2124 阅读 · 0 评论 -
CUDA Toolkit多版本安装与配置
CUDA Toolkit多版本安装目的是为了将CUDA Toolkit支持多个版本,并将当前版本更新到后续支持常见pytorch的版本(即cuda11.6),目前该系统默认安装的是cuda10.2,cuda11.0和cuda11.2。CUDA一般有两种API,一个是驱动API(Driver Version),依赖NVIDIA驱动,由nvidia-smi查看; 另一个是运行API(Runtime Version)是软件运行所需要的,比如python环境需要的cuda api版本等。一般驱动API版本>=运行A原创 2023-09-01 15:20:55 · 4433 阅读 · 0 评论 -
机器学习模型选择评估和超参数调优
如何选择模型?如何评估模型?如何调整模型的超参数?模型评估要在测试集上进行,不能在训练集上进行,否则评估的准确率总是100%,模型调参要在验证集上迭代进行。所以,一般我们准备好数据集后,要将其分为训练集和测试集,分配比例一般在5:5到8:2之间,即最多训练集80%,测试集20%,验证集包含在训练集中。sklearn中有sklearn.model_selection.train_test_split方法来实现数据集的拆分。原创 2023-08-05 22:48:15 · 527 阅读 · 0 评论 -
利用python绘制二维向量图
为了实现地层数据的变化趋势的可视化模拟,最近研究了python环境下的可视化方案,为后续的流体运动的仿真模拟做好储备,主要采用matplotlib中的quiver函数,实现二维等值线数据的随深度或者地层数据的变化趋势绘制。python3.10环境,利用 matplotlib.pyplot、scipy.interpolate、numpy、pandas实现数据的处理,网格数据的生成,矩阵数据的合并等。,数据格式和数据读取、数据处理方法类似。典型二维向量场箭头图的绘制。利用实际地层数据绘制。原创 2023-07-23 18:02:24 · 1708 阅读 · 0 评论 -
如何基于GeoToolKit/INT实现矢量流线的聚集动画效果示例
利用相同的数据处理方法统一了不同年代地层的数据格式(目前js解析支持的格式有ZMap、TS、XYZ和XYZA等),本文主要基于GeoToolKit/INT组件,针对地质研究经常在二维等值线基础上模拟计算地层中物体流动的模拟仿真可视化诉求,主要在ContourShape背景上,绘制矢量流线和SymbolShape的动画显示,最终实现了某个时期地层的物体流动的矢量流线动画效果,仿真油气的聚集过程的二维可视化,包括前端、后端设计等内容。原创 2023-07-02 09:07:18 · 753 阅读 · 2 评论 -
智能型数字档案馆构建设想
档案作为企业重要的正式权威的数据资源,随着企业的数字化转型,档案工作更需要数字化转型,档案管理与利用急需借助信息技术手段来管理好和记录好,急需挖掘档案资源,发挥其价值,档案的基本价值:凭证价值+参考价值。原创 2023-06-03 21:30:04 · 564 阅读 · 0 评论 -
OSDU(Open Group Open Subsurface Data Universe)数据平台研究笔记
OSDU解决方案,其核心是将数据和应用分离。使各家公司专注不同业务,降低独立设计开发平台的带来的建设成本,形成关键参考公共组件,加速上游数字化转型。原创 2023-04-14 17:30:36 · 1723 阅读 · 0 评论 -
专业数据处理--如何根据已有储层数据实现多层数据的快速插值
大家在做储层数据可视化分析与展示过程中,由于人工解释的层位有限,导致显示不那么精细逼真,一般情况下,研究人员主要解释有代表性的目的层,层与层之间的地质情况一般通过专业软件的插值功能或算法来实现,最常见的插值方法有线性插值、邻近插值等,当解释的层位数量达到一定程度后,后续的动态三维可视化显示就相对连续和逼真了。因此工作中就需要通过已知两层或多层数据,通过各种插值算法实现中间地段的快速插值计算来获取数据,有时会插入一层,有时会插入多层,大部分专业软件只能一次插入一层,最终只要满足研究需要,效果达到预期。原创 2023-03-24 22:04:04 · 281 阅读 · 0 评论 -
数据格式转换--GeoMap contour如何转换为同一深度的xyz多点数据
在沉积储层研究或盆模研究过程中,很多专业软件(如Trinity)输出的文件格式有GeoMapcontour、egrid、xyz等等,很多成图应用支持的格式是x1,x2,y1,y2,z,大家将其用于其他专业应用或成图过程中,需要进行不同类型的数据格式转换,最典型的数据格式转换如下,因此就用python简单写了一个数据转换格式工具,也有对应C++,java或js编写的程序。原创 2023-02-25 11:12:11 · 479 阅读 · 0 评论 -
ElasticSearch+Neo4j+ElasticSearch Head实现全文检索应用
本文主要阐述利用ES、知识图谱(Neo4j)实现全文检索,并利用ElasticSearch Head开源项目进行全文检索测试。实验在图谱的帮助下如何开展全文检索功能,为后续的复杂查询或语义检索做准备。原创 2022-12-23 17:47:49 · 1665 阅读 · 5 评论 -
【经验分享】一名慕星人多年的工作感想
一名慕星人多年的工作感想原创 2022-12-16 08:55:07 · 129 阅读 · 0 评论 -
利用机器学习完成储层预测
利用机器学习完成储层预测原创 2022-12-16 08:46:45 · 279 阅读 · 0 评论 -
Cypher高级查询--典型算法--利用Graph Data Science(GDS)的算法实现数据分析与知识洞察
本文继续基于上一篇文章,深入研究基于图谱的各类算法,相比传统的关键词搜索,关系关联查询,全文检索等,基于知识图谱的算法将充分利用知识图谱的实体关系及其属性权重等信息,为大数据分析做支撑,使得数据分析和知识洞察更直观,可解释和快速解决应用诉求,并可快速落地实施。原创 2022-12-15 23:06:16 · 503 阅读 · 0 评论 -
Cypher高级查询
Cypher高级查询原创 2022-11-19 22:03:09 · 2188 阅读 · 0 评论 -
数字化与高质量发展之百年大变局下的科技创新--学习王坚院士讲座的记录和读后感
数字化与高质量发展之百年大变局下的科技创新--学习王坚院士讲座的记录和读后感。未来将是数据+计算=AI时代,AI的出现不但不是我们的终结,还是我们未来开始的开始。原创 2022-11-12 18:14:47 · 1020 阅读 · 0 评论 -
GeoToolkit之地震数据SesmicWidget组件介绍及示例
地震数据服务设计。原创 2022-09-23 22:37:55 · 693 阅读 · 2 评论 -
数据应用服务规划及建设思考
数据应用服务规划及建设的初步思考,供大家参考。未来逐步形成种类各异,面向不同用户,不同级别的应用服务和数据服务。原创 2022-09-12 20:08:51 · 1838 阅读 · 0 评论