ws_nlp_-CSDN博客

原创 SegaBERT论文详解及翻译（全面改进Transformer类预训练模型，自然语言任务超过BERT的SegaBERT，2020年4月论文）

SegaBERT论文详解及翻译摘要预训练模型取得了SOTA的结果在多种nlp任务中。它们中的大多数基于Transformer结构，使用token的序列输入位置来区分token。然而，句子索引和段落索引对于标识一篇文档中的token位置也同样重要。我们假设使用更好的位置信息做text encoder可以生成更好的篇章表示。为了证实这个观点，我们提出了一个segment-aware BERT，使用了段落索引，句子索引和token索引去代替了transformer中的token位置信息来进行embedding

2020-06-10 11:39:07 922

原创 Faiss的原理以及Faiss与Lsh的对比（整理版）

方法原理IVF原理：使用聚类方法减少搜索范围流程训练：将库向量进行128个（K个）聚类，保存聚类中心和每个类中的向量预测：将预测向量与128个聚类中心对比，找到所属聚类中心，只在同类的库向量中进行查询预测计算开销K次（D维）每个预测向量与K个聚类中心进行相似度计算，原向量维度128维（D维）PQ原理：使用聚类方法优化距离计算将每个向量切分成4组（M组）向量，对每组进行聚类，利用聚类中心来代替库向量的位置计算查询向量与所有聚类中心的距离，利用查表方法来代替计算向量距离流程训练：将库

2020-06-04 12:27:01 2699

原创使用tfidf加权的word2vec来计算文本向量

使用tfidf加权的word2vec来计算文本向量，可以用来计算文本相似度首先根据训练数据计算出word2vec和tfidf_model然后预测每句时，用tfidf_model计算每个词的tfidf再用每个词的word2vec与tfidf相乘，最后取平均得到文本向量这里面有个问题，希望会的同学能帮忙解答tfidf用到了文档频率，训练数据的文档频率可以获取。当预测每个文档时，其他的文档对tfidf模型不可见，那么是如何计算的呢，是用预测文档的tf与训练数据的idf相乘做计算嘛？...

2020-05-29 17:58:29 5147 14

原创使用LSH来计算余弦相似度

A.学习LSHLSH-余弦相似度详解原理，在余弦空间中构造一条直线当两个向量在直线一边时，认为这两个向量较相似。那么我们有两个向量A，B，和一条直线a。假设A在直线a上方，标记为1B在直线a下方，标记为0因此我们认为A和B不相似。为了更准确的估计，我们构造了多条直线b，c，d，e那么A的标记可能为，1，1，1，0，0B的标记为，0，1，1，0，0直观上来看A和B就比较相似了目的：用近似来简化计算假如每个向量有1000维度，有1000个向量那么我们想找所有近似，就要两两计算要10

2020-05-27 10:24:09 1725 1

原创 Universal Sentence Encoder 论文详解

Universal Sentence Encoder 论文详解Abstract提出了两个句向量模型（用于迁移学习，下同）。衡量了模型复杂度，资源消耗，迁移能力和任务效果。Baseline为词向量模型。句向量模型效果比较好，少量标记数据就可以有较好的效果。Introduction标记成本限制了NLP任务的效果，许多模型使用预训练词模型加上少量标记样本进行迁移学习，句向量模型效果更好。本文提出了两种句向量模型，发现少量标记样本就可以取得很好效果。同时我们也衡量了模型的工程特性。（时间开销，内存需求等

2020-05-22 14:42:11 2462

原创 SBERT论文详解

Sentence-BERT: Sentence Embeddings using Siamese BERT-NetworksAbstractBERT在句对回归任务中表现很好，但是计算开销很大。我们使用孪生网络对BERT做fine-tune使得句向量可以用于cos相似度计算，减少开销，保持准确。评估后效果比SOTA较好。IntroductionSBERT使得BERT适用于句对回归，聚类，文本信息检索。原始BERT需要输入两个句子，句对回归开销大。改进方法输入一个句子，使用ave或者CLS，效果

2020-05-20 17:09:17 3250 2

原创 pycharm换行当前代码

一般是看数据的时候需要用到。

2024-05-14 09:01:55 466

原创大模型conda环境安装步骤

命令如：conda install pytorch torchvision torchaudio pytorch-cuda=12.1 -c pytorch -c nvidia。先nvidia-smi查看cuda版本。1、默认安装完成conda。然后去pytorch官网。3、pytorch安装。

2024-05-07 11:20:48 386 1

原创大模型预测时超长文本原理

这里是重要图谱，实际上应该是记录了所有层的每个token的结果，以便后来去进行attention。

2023-12-14 16:32:20 252

原创二级目录下的引用

a文件和b文件+空白__init__.py。

2023-12-13 15:31:54 127

原创关于释放显存

但是del方法仅进程内部释放了，其他进程使用时仍有冲突。但是del方法可以在进程内部释放内存。即加载下一个模型或者实例时重复使用。进程内其他方法，例如。均无法释放进程的内存。注意不del不能使用。

2023-12-04 09:59:53 227

原创 windows使用linux命令

m2的包很好用，建议windows环境可以装一下，简单的功能可以实现。

2023-11-29 09:30:13 90

原创 pychram中terminal隐藏时

可以使用view中的tool windows来管理工具窗口，打开终端。

2023-11-29 09:26:11 118

原创论文详解KnowledGPT: Enhancing Large Language Models with Retrieval and Storage Access on Knowledge Bases

这个是优化了embedding的方法，将问题变为实体抽取，关系抽取，步骤生成，然后embedding不同部分，可能是多重embedding加上关系的实体链接后embedding，然后再检索，再回答。1-2-2-1、embedding模型，计算sim得到关系候选(利用A，B搜索A，B，C)1-2、设计了三个KB函数流程：实体查询，实体+关系-实体查询，实体+实体=关系查询。1-2-1-1、embedding模型，计算sim得到候选。1-2-1-2、实体查询，查询候选知识，截断。1-2-1、实体链接。

2023-10-10 11:50:50 653

原创 windows情况下使用grep时出现二进制

需要注意的是，有时候windows字符显示多加了空格等等，简单的解决方法是grep时选择合适的字符。比如 grep -v ‘beijing’ test.txt > test_new.txt。windows下安装包可以使用linux命令。但是使用grep会出现二进制现向。会出现乱码，有可能是二进制引起的。这时候就用grep -a 命令。

2023-09-24 09:59:30 215

原创 Multi-granularity Temporal Question Answering over Knowledge Graphs论文阅读

3.问题中抽出时间，展开所有d的TKG表示，并经过位置转换合并为事件向量td，然后经过训练的transformer，取cls为时间表示，2.TKG编码向量，实体，关系，时间三个维度，再编码实际的K中知识图谱向量，s，r，o，t（通过实际知识图谱进行学习）1.使用一个roberta取cls对问题进行编码E-q，使用一个ner抽取文章中的实体o和s，以及事件t。4.得分函数，根据，主体，问题，客体，时间四个向量，选取最合适的属于TKG的实体。给定知识图谱，给定相关问题，给出答案。

2023-09-21 10:18:33 197 1

原创 simcse用pytorch计算loss

simcse用pytorch计算loss

2023-02-15 16:44:20 353

原创 python创建虚拟环境

python创建虚拟环境

2023-02-15 10:24:06 197

原创装虚拟机的几个问题

装虚拟机之后的步骤

2023-02-10 11:12:31 138

原创 find搜索

linux下搜索命令find用法

2023-02-09 14:01:16 128

原创 python打印出一个类的所有属性

python打印类所有属性

2022-11-16 11:52:33 1903

原创 pycharm使用eval reset不能重置

pycharm使用eval reset

2022-11-08 10:40:00 2829 3

原创 pycharm插件 Eval Reset 安装方法

安装的时候最好离线安装1、下载插件下载地址：https://plugins.zhile.io/files/ide-eval-resetter-2.1.6.zip2、拖进窗口，检查plugins3、help中会出现eval reset，点击重置，右下角有自动重置按钮4、重启看一下时间是否已经重置5、在线方法可以参考https://blog.csdn.net/yu1014745867/article/details/119355937...

2021-08-18 09:56:47 10338 5

原创聚类方法（简）

k-means，确定中心点，然后迭代缺点：初始值敏感dbscan，确定近邻距离，然后划分缺点：参数敏感，不好确定距离，有的两者间可能很远，有的两者间很近

2021-07-06 10:13:23 160

原创 CRF和HMM简易区别

CRF是无向图，HMM有向图CRF是判别模型，HMM是生成模型CRF所有极大团，求势函数，就是除了转移概率（x->y），还有极大团的状态特征HMM只依赖前一个时刻状态，与转移（x->y）无关

2021-07-01 17:07:41 492

原创 python遇到中文路径的一种解决办法

使用surrogateescape进行转换，这里边整个路径都转换完毕，可以切分取其中中文label = path.encode(‘utf-8’, ‘surrogateescape’).decode(‘utf-8’).split(’/’)[-2]

2021-06-24 16:21:31 1369

原创 python判断字符或者字符串是否为数字或字母

s.isdigit()s.isalpha()s.isalnum()大小写可以用s.lower()

2021-06-16 10:48:20 249

原创 SimCSE详解，Simple Contrastive Learning of Sentence Embeddings

简介contrastive(对比)学校框架，提升句子embedding效果无监督，句子本身和句子自己带有dropout使用NLI数据集，entailment（蕴含）对作为正例，contradiction（矛盾）对作为负例在STS任务上，效果好介绍无监督simcse预测句子本身，仅使用dropout作为噪声换句话说，我们把相同的输入句子放到预训练encoder两次，包括两个embedding作为正例对，这两个encoder单独dropout（互不影响，不同的dropout形成不同的embeddi

2021-06-07 20:13:24 1735

原创 python判断中文字符

中文字符的编码为u’\u4e00’ <= ch <= u’\u9fff’其中包括了中文简体和中文繁体字def check_contain_chinese(check_str): for ch in check_str: if u'\u4e00' <= ch <= u'\u9fff': return True return Falsefor x in l: print(check_contain_chinese

2021-03-12 18:25:46 623

原创 pycharm如何实现多行编辑

快捷按钮，command + shift + 8然后按住shift移动，就会有多个光标

2021-03-02 20:29:48 1633

原创 pycharm如何对比两个文件

路径view-compare with

2021-02-02 17:14:00 1649

原创 python输出格式转换，可以转换多个类型嘛

使用关键字参数（简写）输出可以转换多个类型嘛先上代码m = 0.23521print(f'{m:.2%}')# 23.52%n = 23print(f'{n:.2f}')# 23.00print(f'{n:.2%}')# 2300.00%print(f'{n:.2f%}')# errorprint(f'{n:.2%f}')# error结论是不能，一个整数，可以转换为百分数，也可以转换为浮点数虽然转换百分数隐藏含义是先转换为浮点数但是当合并两个转换类型时，都会报错

2021-01-23 10:30:35 154 1

原创 python格式化百分比输出，如何将浮点数输出为百分数，不需要额外代码的简便方法

m = 0.23521print(f’{m:.2%}’)# 23.52%

2021-01-23 10:14:07 1948

原创 ACL2020论文-知识图谱词义消岐论文翻译及详解（EWISER）

论文原名：Breaking Through the 80% Glass Ceiling:Raising the State of the Art in Word Sense Disambiguationby Incorporating Knowledge Graph Information概要神经结构是最新的词义消岐技术（WSD）。然而，它们有限的使用了大量被编码在基础词汇知识（LKB）中的关系信息。我门提出了一个提升WSD的方法。...

2021-01-21 19:49:26 508

原创 You have an error in your SQL syntax问题解决，mysql语句如何打印前5行

本来使用 rand limit 来随机几行，但是表太大的时候rand很慢，想到首先打印前几行看下情况。首先查了一下，网上要使用select top n * from table_name然而使用了很多次都报错，后来才知道mysql不实用top，其语句跟sql还是有区别的，使用limit。最后的语句时select * from table_name LIMIT n...

2021-01-19 16:33:56 132

原创 CogLTX的核心思想，这段话的中文意思是什么

“The central executive – the core of the (working memory) system that is responsible for coordinating(multi-modal) information”, and “functions like a limited-capacity attentional system capable ofselecting and operating control processes and strategies”

2021-01-18 11:53:25 252 1

空空如也

空空如也