自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(57)
  • 收藏
  • 关注

原创 大语言模型-文本检索任务基准 BEIR

BEIR(A Heterogeneous Benchmark for Zero-shot Evaluation of Information Retrieval Models)文本检索任务的基准,使用`18 个数据集`为检索系统的零样本评估提出了一个标准化基准, BEIR 基准上在`9个不同领域的检索任务`评估 `10 种不同的检索方法`。

2024-07-20 12:50:04 708

原创 大语言模型-中文文本向量模型评估基准 C-MTEB

C-MTEB 有35个数据集,覆盖文本召回(NDCG@10),排序(MAP),分类(average precision),相似度匹配(Spearman’s correlation),聚类(average precision),文本对分类(average precision)共六个方向,最终模型表现由6大任务指标取平均值得到。

2024-07-19 17:56:44 298

原创 大语言模型-文本向量模型评估基准 MTEB

MTEB(Massive Text Embedding Benchmark)涵盖112种语言的58个数据集,包含如下`8种任务`。

2024-07-19 17:25:20 980

原创 大语言模型-检索测评指标

1. MRR (Mean Reciprocal Rank)平均倒数排名2. AP(Average Precision)平均精度3. MAP(Mean Average Precision)平均准确率等检索评估指标

2024-07-19 14:42:30 983

原创 大语言模型-Transformer-Attention Is All You Need

Transformer是一种由谷歌在2017年提出的深度学习模型。主要用于自然语言处理(NLP)任务,特别是序列到序列(Sequence-to-Sequence)的学习问题,如机器翻译、文本生成等。Transformer彻底改变了之前基于循环神经网络(RNNs)和长短期记忆网络(LSTMs)的序列建模范式,并且在性能上取得了显著提升。

2024-07-17 23:14:51 843

原创 大语言模型-基础及拓展应用

基础模型(transformer)组合模型(bert、gpt)句子向量(simcse)文档解析(openpaser、fitz)

2024-07-17 13:57:28 423

原创 python借助elasticsearch实现标签匹配计数

给定一组标签 [{“tag_id”: “1”, “value”: “西瓜”}, {“tag_id”: “1”, “value”: “苹果”}],我想精准匹配到现有的标签库中存在的标签并记录匹配成功的数量。

2024-04-16 18:14:12 468

原创 python借助elasticsearch实现精准查询与bm25查询

Elasticsearch query查询;python向量库;bm25搜索,精准匹配

2024-03-05 14:59:21 748

原创 Celery结合flask完成异步任务与定时任务

Celery 常用于 web 异步任务、定时任务等。使用 redis 作为 Celery的「消息代理 / 消息中间件」。这里通过Flask-Mail使用qq邮箱延时发送邮件作为示例。

2023-09-25 15:39:22 1132 3

原创 常见优化器总结

优化器 是为了让参数根据损失函数更快更准的朝着最优方向更新的一种策略。神经网络是根据损失函数不断调整网络参数,使得最终能够获得近似最优解。

2023-09-21 20:28:03 253 1

原创 windos本地文件上传到ubuntu

【代码】windos本地文件上传到ubuntu。

2023-09-13 10:01:18 152

原创 mysql 快速上传数据

快速上传数据这个应该是比inset into values更快的插入数据的办法了

2023-09-12 20:34:11 224

原创 CopyRE关系抽取

模型包括编码器和解码器两部分编码器:将输入的句子(源句子)转换为固定长度的语义向量 解码器:读取该矢量并直接生成三元组。

2023-07-10 15:27:09 422 1

原创 条件随机场模型

线性链条件随机场用于标注问题,在条件概率模型P(Y|X)中,Y是输出变量表示标记序列,X是输入变量表示需要标注的观测序列。设有联合分布P(Y),由无向图G=(V, E)表示,在图G中,节点表示随机变量,边表示随机变量之间的依赖关系。均为线性链表示的随机变量序列,若在给定随机变量序列X的条件下,随机变量序列Y的条件概率分布P(Y|X)构成条件随机场,即满足马尔可夫性。条件随机场,设X与Y是随机变量,P(Y|X)是在给定X的条件下Y的条件概率分布。对任意结点v成立,则称条件概率分布P(Y|X)为条件随机场。

2023-05-31 16:30:09 1227

原创 决策树模型

本文只关注决策树的生成算法,介绍决策树的实现步骤。

2023-05-31 14:09:37 802

原创 隐马尔科夫模型

隐马尔可夫模型是关于时序的概率模型,描述由一个隐藏的马尔科夫链随机生成不可观测的状态的序列,再由各个状态随机生成一个观测而产生观测的序列的过程。

2023-05-31 14:08:58 813

原创 激活函数(Activation functions)

激活函数(Activation functions)对于人工神经网络 模型去学习、理解非常复杂和非线性的函数来说具有十分重要的作用。

2023-05-26 17:32:36 1059

原创 TPlinker解读

TPLiner,解决了之前的联合抽取模型中出现的问题,曝光偏差,即在训练阶段,与推理阶段不一致产生的影响,在解码阶段需要分多步进行,这也是它们存在曝光偏差的本质原因,TPLinker 将联合抽取描述为一个 token 对链接问题,并引入了一种新的连接方式。

2023-05-25 15:56:31 1898

转载 手动计算神经网络

神经网络最骨干的结构是由一层层相互连接的神经元组成的,信息在多个层中由前往后计算最后输出结果,这种模型称为多层感知机(MLP);为了训练出一个能够解决问题的MLP,我们使用数据通过求误差最小化的方法更新MLP的参数,这种方法称为反向传播(Back Propagation )算法。于是MLP+BP算法就是最经典的深度学习模型之一”在小红书上看到一篇关于神经网络的介绍,精简易懂,转载一下。

2023-02-23 12:00:04 110

原创 事理知识图谱

事理知识图谱可以将文本中对事件以及事件之间的关系抽取并抽象出来,构建成一个有向图形式的事理知识库。在结构上,事理知识图谱是一个有向有环图,其节点表示事件,有向边表示事件之间的演化关系,比如顺承、因果、条件和上下位等逻辑关系。事理知识图谱是描述事件之间演化规律和模式的事理逻辑知识库。

2023-02-23 11:05:15 1525

原创 时间序列分解法

影响时间序列变化的因素通常由长期趋势,季节变动,周期变动,不规则变动几部分组成Tt​St​Ct​It​Yt​fTt​St​Ct​It​Yt​Tt​St​Ct​It​Yt​Tt​×St​×Ct​×It​。

2023-02-19 17:19:28 2666

原创 时间序列分析——平滑法

平滑法是进行趋势分析和预测时常用的一种方法,利用修匀技术削弱短期随机波动对序列的影响,使序列平滑化,从而显示出变化的规律。根据平滑技术的不同,平滑法可分为移动平均法和指数平滑法。

2023-02-19 16:00:02 1777

原创 图的基本概念

图G由节点集合V=V(G)和边集合E=E(G)组成,其中V为非空有限集合。集合V中的节点(node)用红色标出,通过集合E中黑色的边(edge)连接。完全二分图 :若V的每个顶点与U的每个顶点都关联,称为完全二分图补图:一个图G的补图Gˉ\bar{G}Gˉ也是以V(G)为顶点集的一个图,但是两个顶点在Gˉ\bar{G}Gˉ中邻接当且仅当它们在G中不邻接。下图b为a的补图。是完全图去除G的边集后得到的图。子图:所有顶点和边都属于图G的图称为G的子图生成子图:含有G的所有顶点的子图称为G的

2023-02-15 17:19:56 1660

原创 知识图谱表示

知识图谱的向量表示:将知识图谱中包括实体和关系的内容映射到连续向量空间方法的研究领域。(也叫做知识图谱嵌入、知识图谱的表示学习、知识表示学习)知识图谱嵌入方法的训练需要基于监督学习。在训练过程中可以学习到语义层信息。

2023-02-14 17:31:22 1415

原创 多分类问题

针对多类问题的分类中,具体讲有两种,即multiclass classification和multilabel classification。multiclass是指分类任务中包含不止一个类别时,每条数据仅仅对应其中一个类别,不会对应多个类别。multilabel是指分类任务中不止一个分类时,每条数据可能对应不止一个类别标签,例如一条新闻,可以被划分到多个板块。

2023-02-09 11:48:16 676 1

原创 NLP学习——信息抽取

自动从半结构或无结构的文本中抽取出结构化信息的任务。常见的信息抽取任务有三类:实体抽取、关系抽取、事件抽取。

2023-02-09 11:30:41 1958

原创 向量的点积与叉积

向量的点积叉积

2023-02-08 11:41:35 1597

原创 python使用开源库进行克里金插值

python使用开源库进行克里金插值

2023-02-06 15:19:02 910

原创 python使用gdal将栅格文件转为shp

python使用gdal将栅格文件转为shp

2023-02-06 14:20:32 1085

原创 python使用开源库进行反距离权重插值

python使用开源库进行反距离权重插值,GDAL等

2023-02-06 13:56:23 1613 2

原创 python判断点是否落在某区域内--空间关系判断

python判断点是否落在某区域内--空间关系判断

2023-02-03 16:33:04 1842

原创 python判断3维空间中两线段是否相交--空间关系判断

- 判断这条线段与选中线段是否共面 - 若两线段共面 判断两线段是否满足快速排斥实验 - 若两线段满足快速排斥实验 判断两条线段是否满足跨立实验 - 若满足跨立实验 则认为两条线段相交

2023-02-03 16:21:37 740

原创 python使用gdal将shp文件转为TIF

python使用gdal将面shp文件转为TIF

2023-02-03 16:08:40 1554 4

原创 ecchart关系图展示(知识图谱)

ecchart关系图展示(知识图谱)

2023-02-03 15:53:40 1529

原创 python使用gdal读取shp文件

python读取shp文件

2023-02-02 12:00:04 1399

原创 使用py2neo操作neo4j

python链接neo4j

2023-02-02 11:55:13 654

原创 CSDN写博客时的公式编辑-CSDN公式编辑

很久没有在CSDN上编辑文字了。想打一些公式却不记得了如何进行编辑。好在浏览器收藏夹里收藏着:公式编辑:http://ctex.math.org.cn/blackboard.html直接录入数学公式;键盘同时按下CTRL+SHIFT+L复制LATEX源码到论坛发帖框;LATEX源码放在$之间;忘记了在哪里窥探到这个链接的分享,感谢这位大佬!...

2021-04-05 21:04:33 151

原创 分类器性能的评估

分类模型的性能根据模型正确和错误预测的检验记录计数进行评估,这些计数存放在混淆矩阵表格中––––

2021-04-05 20:48:09 879 1

原创 r语言基础学习——数据对象

常用数据对象:1、向量2、矩阵3、列表4、数据框6、因子和表一、向量R语言最基本的数据类型是向量(vector)x <- c(1,5,2,4,5,7) # 创建一个向量添加或删除向量元素:x <- c(x[1:3],3,x[4:6]) # 在向量中添加一个元素3x# 结果[1] 1 5 2 3 3 4 5指定位置更改向量元素x[1] <- 9 # 将X向量中第1个元素赋值9x# 结果[1] 9 5 2 4 5 7在不合理的位置更改向量元素时x

2021-03-29 21:36:41 901 1

原创 听说今晚会有流星雨 可惜这里是阴天2020.08.12

也许是真的喜欢你吧,脑子里总是会闪现你的样子。几天前就听到新闻报道今天会有流星雨的时候,就一直想着你了。我们已经四年没有再见了。希望能够各自安好,微博里面抒发感情看到的人太多了 就在这里偶尔感慨一下吧。...

2020-08-12 22:38:35 122

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除