数据处理
文章平均质量分 56
一望无际的大草原
知识的传播者,人工智能大数据与传统行业融合的探索者,能源行业专业化应用数据服务的设计与实践者。
展开
-
调用nltk分词库时出现nltk_data Error loading averaged_perceptron_tagger问题的解决办法
[nltk_data] Error loading averaged_perceptron_tagger,Name or service not known问题的解决办法。原创 2024-04-12 13:41:06 · 128 阅读 · 0 评论 -
如何基于OpenCV和Sklearn库开展数据降维
在做数据分析或者机器学习应用过程中,不可避免的需要对数据进行降维操作,好多垂直行业业务中经常出现数据量少但维度巨大的情况。数据降维的目的是为了剔除不相关或冗余特征,使得数据易用,去除无用数据,实现数据可视化,提高模型精确度,减少运行成本,减少特征个数并关注本质特征,确保数据特征属性间相互独立。原创 2023-12-02 22:29:22 · 300 阅读 · 0 评论 -
如何基于gensim和Sklearn实现文本矢量化
利用机器学习或深度学习开展文本分类或关联性分析之前,由于计算机只能分析数值型数据,而人类所熟悉的自然语言文字,机器学习算法是一窍不通的,因此需要将大类的文本及前后关系进行设计,并将其转换为数值化表示。一般来说,文本语言模型主要有词袋模型(BOW)、词向量模型和主题模型,目前比较常见是前两种,各种机器学习框架都有相应的word2vec的机制和支持模型,比如gensim和Scikit-learn(简称Sklearn),词袋模型向量化技术主要有One-Hot、文本计数数值化、词频-逆文档频率(TF-IDF)原创 2023-11-28 22:45:24 · 356 阅读 · 0 评论 -
如何利用Python实现分词和NER的Web服务
家都知道python在数据处理、数据分析和机器学习等方面的强大之处,那么如何使用Python实现Web方式的HTTP应用和服务呢,其实有很多种方式,比如gradio、streamlit等等实现web应用,利用FastApi实现web服务等,具体详见之前的[大模型应用文章],本文采用tornado框架实现http web服务,并结合自然语言处理(NLP)的分词和实体识别的需求,分别实现如何提供相应的http服务。原创 2023-11-05 15:55:27 · 156 阅读 · 0 评论 -
python中常见的矩阵变换总结
利用python做数据处理和分析过程中,如在开展机器学习的数据预处理、数据格式转换等等,不可避免的会涉及到各种矩阵变换,其中使用最多的就是numpy下的矩阵变换,以下是日常用到的一些矩阵变换总结,主要有矩阵中数据类型的整体转换、矩阵维度增减、多矩阵拼接、矩阵切片获取和多矩阵迭代等等,当然,pandas也有相应的矩阵变换操作,相对更复杂,后续会逐步发出来,供参考。原创 2023-08-11 14:49:53 · 1024 阅读 · 0 评论 -
利用python绘制二维向量图
为了实现地层数据的变化趋势的可视化模拟,最近研究了python环境下的可视化方案,为后续的流体运动的仿真模拟做好储备,主要采用matplotlib中的quiver函数,实现二维等值线数据的随深度或者地层数据的变化趋势绘制。python3.10环境,利用 matplotlib.pyplot、scipy.interpolate、numpy、pandas实现数据的处理,网格数据的生成,矩阵数据的合并等。,数据格式和数据读取、数据处理方法类似。典型二维向量场箭头图的绘制。利用实际地层数据绘制。原创 2023-07-23 18:02:24 · 1326 阅读 · 0 评论 -
利用python绘制二三维曲面和矢量流线图
本文主要在python3.10环境下,利用 matplotlib.pyplot、scipy.interpolate、numpy、pandas实现数据的处理,网格数据的生成,各自平面图和三维图形的绘制,并加入自定义颜色栏。在绘图开始之前,需要准备数据,一般包括读取和准备数据,以及简单的数据处理过滤等,后续会在此基础上进行绘图操作或继续进行数据处理及可视化等。原创 2023-07-08 16:17:45 · 2455 阅读 · 2 评论 -
基于GeoToolKit/INT完成不同年代地层与断层的可视化组合显示示例
本文结合GeoToolKit/INT组件,针对业务中经常提出的多种地质对象的组合解析与可视化需求,本文实现了不同地质年代地层的演化过程,并结合断层数据进行组合显示。本篇主要阐述三维地层成果数据的可视化展示和初步的交互实现,包括前端、后端设计、地层数据及文件格式等内容。原创 2023-05-09 17:34:47 · 621 阅读 · 0 评论 -
专业数据处理--如何根据已有储层数据实现多层数据的快速插值
大家在做储层数据可视化分析与展示过程中,由于人工解释的层位有限,导致显示不那么精细逼真,一般情况下,研究人员主要解释有代表性的目的层,层与层之间的地质情况一般通过专业软件的插值功能或算法来实现,最常见的插值方法有线性插值、邻近插值等,当解释的层位数量达到一定程度后,后续的动态三维可视化显示就相对连续和逼真了。因此工作中就需要通过已知两层或多层数据,通过各种插值算法实现中间地段的快速插值计算来获取数据,有时会插入一层,有时会插入多层,大部分专业软件只能一次插入一层,最终只要满足研究需要,效果达到预期。原创 2023-03-24 22:04:04 · 229 阅读 · 0 评论