qq_47537678-CSDN博客

原创科研周报1月2号

张晴-山东大学-23届毕业生：

2025-01-07 13:43:22 212

原创 Adversarial Watermarking Transformer: Towards Tracing Text Provenance with Data Hiding

对抗性水印转换器：通过数据隐藏追踪文本来源核心思想引入了对抗水印转换器（AWT), 它具有联合训练的编码器-解码器和对抗训练，给定输入文本和二进制消息，生成使用给定消息不显眼地编码的输出文本。进一步研究不同的训练推理策略，以金量减少对输入文本的语义和正确性的更改。AWT是第一个端到端模型，它通过自动学习（没有基本事实）单词替换及其位置来隐藏文本中的数据，以便对消息进行编码。目标是在语言中自动且不受阻碍地隐藏数据，最终为文本生成模型的输出添加水印。AWT对抗性水印变压器无需配对训练数据或设计

2025-01-07 13:38:55 466 1

原创 REMARK-LLM-main运行过程

运行遇到的问题及解决过程如下。

2025-01-05 14:06:19 454

原创 REMARK-LLM：用于生成大型语言模型的稳健且高效的水印框架

可以使用消息解码模块提取插入的签名来验证水印的存在。它将提取的消息与插入的签名进行比较，以确定LLM是否生成文本。模块，将二进制签名注入LLM生成的文本中。将LLM生成的文本及其相应的签名编码到潜在特征空间中。ChatGPT等大语言模型LLM的开发取得的进展标志着人机对话交互的范式转变。2、通过最小化插入和从加水印的文本中提取的水印签名之间的消息恢复损失来确保水印提取、1、通过最小化LLM生成的文本和加水印的文本之间的语义损失来保持语义保真度。模块，将消息编码的密集分布转换为带水印文本标记的稀疏分布。

2025-01-02 18:40:18 1277

原创 RLHF，LM模型

使用经典的预训练目标训练一个语言模型。基于LM来生成训练奖励模型（RM，也叫偏好模型）的数据，并在这一步引入人类的偏好信息。RLHF思想：使用强化学习的方式直接优化带有人类反馈的语言模型。RLHF使得在一般文本数据语料库上训练的语言模型能与复杂的人类价值观对齐。端到端的方式：意味着把整个奖励评估过程看作一个连贯的任务，让语言模型直接学习输入（如文本序列）和奖励信号之间的映射关系。···聚合问答数据并训练一个奖励模型（Reward Model， RM）···预训练一个语言模型LM。

2024-12-27 23:40:14 380

原创 Direct Preference Optimization: Your Language Model is Secretly a Reward Model

通过对语料库中各种N-gram组合的统计和计算，语言模型可以为给定的前几个单词（如“我喜欢”）找出一系列可能的下一个单词（如“阅读”“运动”“旅游”等），并计算它们出现的概率。当计算“爱”这个单词与其他单词的关系时，计算“爱”的查询向量和其他单词（“我”“自然”“语言”“处理”）的键向量的点积，得到注意力分数，然后转换为注意力权重。例如：对于句子“我喜欢___”，语言模型会根据前面的“我喜欢”这几个词，给出一系列可能的下一个单词（如“阅读”“运动”“旅游”等）以及它们各自出现的概率。

2024-12-27 21:16:20 1256

原创自注意力机制（self-attention）

《Attention Is All You Need》

2024-12-27 17:43:52 196

原创数据处理部分

数据处理部分

2022-06-08 14:17:22 391

原创关键词抽取

SIFRank关键词抽取

2022-06-08 14:14:05 561

原创 TextRank模型改进

模型改进-TextRank

2022-06-08 14:12:09 832 1

原创系统实现思路

面向问题的检索

2022-06-08 14:09:36 2774

原创 SIFRank_zh模型实现

主要是更换关键词抽取模型从textrank更改为用预训练模型的抽取选择的模型是：SIFRank_zh原模型是在英文上进行的，现模型修改为在中文上进行。核心算法：预训练模型ELMO + 句向量模型SIF一、词向量ELMO的优势：1、经过大规模预训练，较TFIDF、TextRank等基于统计和图的具有更多的语义信息2、ELMO是动态的，可以改善一词多义问题3、ELMO通过Char-CNN编码，对生僻词非常友好4、不同层的ELMO可以捕捉不同层次的信息二、句向量SIF的优势：1、根据词频对词

2022-04-19 12:52:18 1185

原创 Lucene查询的底层实现IndexSearch（下）

系列文章目录提示：这里可以添加系列文章的所有文章的目录，目录需要自己手动添加例如：第一章 Python 机器学习入门之pandas的使用提示：写完文章后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录系列文章目录前言一、pandas是什么？二、使用步骤1.引入库2.读入数据总结前言提示：这里可以添加本文要记录的大概内容：例如：随着人工智能的不断发展，机器学习这门技术也越来越重要，很多人都开启了学习机器学习，本文就介绍了机器学习的基础内容。提示：以下是本篇文章正文内容，下面案例可

2022-03-27 03:01:04 926

原创 Lucene查询的底层实现IndexSearch（上）

系列文章目录（一）问答系统的文段检索（二）lucene全文检索底层原理理解（三）Lucene查询的底层实现IndexSearch文章目录系列文章目录前言IndexReaderLeafReaderCompositeReaderIndexReaderContextIndexReader 指向索引文件夹QueryParser 解析查询语句生成查询对象搜索查询对象重写Query对象树多态创建weight树获取termstates构造TermWeight前言搜索的过程理解：从索引中读出词典及倒排表信息

2022-03-27 02:57:30 1497

原创 Lucene 源码分析

Lucene源码项目结构Lucene项目每个目录包含的类以及用途：文章目录Lucene源码项目结构Analysiscodecs二、使用步骤1.引入库2.读入数据总结Analysis主要用于对query，document的解析，拆解为tokencodecs示例：pandas 是基于NumPy 的一种工具，该工具是为了解决数据分析任务而创建的。二、使用步骤1.引入库代码如下（示例）：import numpy as npimport pandas as pdimport matpl

2022-03-22 15:25:25 1493

原创 lucene全文检索底层原理理解

系列文章目录（一）问答系统的文段检索（二）lucene全文检索底层原理理解文章目录系列文章目录前言反向索引创建索引将被索引的原文档(Document)分词(Tokenizer) -----> 词元（Token）语言处理(Linguistic Processor) ----> 词(Term)词(Term) ----> 索引组件(Indexer)词(Term) --> 创建一个字典字典排序合并相同的词(Term) ---> 文档倒排(Posting List) 链表

2022-03-21 13:33:55 1124

原创问答系统的文段检索

开放领域问答的一个重要方法：检索器 + 阅读器模型。其中，检索器负责从海量文档中检索相关段落。本文主要介绍关于检索器的内容Open-domain 的 Question Answering (QA) 一般需要先从大量的文档库中检索出一些和问题相关的文档（retrive），相关的方法有 TF-IDF 和 BM25。文章目录前言TF-IDF 和 BM25实现的目标效果当前思路具体实现当前问题预期效果前言例如：随着人工智能的不断发展，机器学习这门技术也越来越重要，很多人都开启了学习机器学习，本文就介绍了

2022-03-20 00:32:30 1708

原创（十八）模型用到的方法总结整理 + 个人总结

2021SC@SDUSC

2021-12-26 09:48:44 2913

原创 bert2joint_dataloader.py

2021SC@SDUSC

2021-12-20 19:29:32 419

原创 Encoder-Decoder

2021SC@SDUSC为了更好的理解模型代码，进行的相关知识补充学习Encoder-Decoder（以下借鉴网络博客内容）模型主要是 NLP 领域里的概念。它并不特值某种具体的算法，而是一类算法的统称。Encoder-Decoder 算是一个通用的框架，在这个框架下可以使用不同的算法来解决不同的任务。Encoder-Decoder 这个框架很好的诠释了机器学习的核心思路：将现实问题转化为数学问题，通过求解数学问题，从而解决现实问题文章目录Encoder-Decoder前言Seq2Seq

2021-12-14 13:41:48 6033

原创 Keyphrase Chunking - bert2chunk_dataloader.py分析

2021SC@SDUSC

2021-12-13 09:51:43 728

原创 loader_utils.py + word2Vec补充学习

2021SC@SDUSC

2021-12-07 09:05:56 680

原创 jsonify_multidata.py + Constant.py

2021SC@SDUSC

2021-11-28 20:18:51 313

原创 spllit_json.py代码分析

2021SC@SDUSC

2021-11-21 16:29:40 567

原创 preprocess.py 代码分析下

2021SC@SDUSC

2021-11-16 18:26:33 819

原创 preprocess.py代码分析

2021SC@SDUSC

2021-11-12 10:29:41 1685 1

原创 prepro_utils.py代码分析（下）

2021SC@SDUSC

2021-11-08 00:11:01 666

原创数据预处理

系列文章目录提示：这里可以添加系列文章的所有文章的目录，目录需要自己手动添加例如：第一章 Python 机器学习入门之pandas的使用提示：写完文章后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录系列文章目录前言数据预处理数据质量准确性完整性一致性相关性时效性可信性可解释性二、使用步骤1.引入库2.读入数据总结前言提示：这里可以添加本文要记录的大概内容：例如：随着人工智能的不断发展，机器学习这门技术也越来越重要，很多人都开启了学习机器学习，本文就介绍了机器学习的基础内容。

2021-11-03 09:44:33 1758

原创数据处理之prepro_utils.py

2021SC@SDUSC

2021-11-02 19:03:52 960

原创论文 - 补充理解

2021SC@SDUSC系列文章目录随着神经网络的发展，神经KPE方法在提取科学出版物的关键词方面已经取得了令人信服的性能。文章目录系列文章目录前言相关工作实验设置数据集评估指标基线实施细节实验结果分析总结前言能够提供文件简洁摘要的关键短语在改善许多自然语言处理（NLP）和信息检索（IR）任务方面显示出其潜力，如总结、推荐和文件检索。高质量的关键词显示了两个特征，即短语性和信息量。短语性是指在文档的局部语境中，一连串的词可以作为一个完整的语义单位的程度。信息量表明一个文本片段在多大程

2021-10-25 21:02:52 683

原创 model.py(上）

torchtorch.no_grad()torch.no_grad() 是一个上下文管理器，被该语句 wrap 起来的部分将不会track 梯度。 withtorch.no_grad()中的数据不需要计算梯度，也不会进行反向传播nn.utils.clip_grad_norm(parameters, max_norm, norm_type=2)这个函数是根据参数的范数来衡量的Parameters:parameters (Iterable[Variable]) – 一个基于变量的迭代器，会进

2021-10-25 19:24:46 698

原创 config.py 代码分析

2021SC@SDUSC

2021-10-21 18:27:19 414

原创 BERT for Keyphrase Extraction

2021SC@SDUSC

2021-10-19 22:32:28 1349

原创 sent2vec

环境配置EmbedRank在标准数据集上实现了比基于图形的最先进系统更高的F分数，适用于实时处理大量Web数据。利用EmbedRank，我们还为新短语引入了基于嵌入的最大边际相关性(MMR)，从而显式地增加了所选关键词的覆盖率和多样性。一项包括200多张选票的用户研究表明，虽然减少短语的语义重叠不会导致F分的增加，但我们的高度多样性选择是人类更喜欢的。保证了关键词的两个最具挑战性的性质：由候选短语与整个文档的嵌入距离获得的信息性；由候选短语之间的距离表示的多样性。文章目录环境配置相关信息装置本

2021-10-17 18:28:49 1691 3

原创 2021-10-17

2021SC@SDUSC

2021-10-17 10:31:09 109

原创图像数组表示

图像数组表示Numpy:Python科学计算工具包，其中包含了大量有用的思想，比如数组对象（用来表示向量、矩阵、图像等）以及线性代数函数。数组对象可以帮助实现数组中的重要操作，比如矩阵乘积、转置、解方程系统、向量乘积和归一化，这为图像变形、对变换进行建模、图像分类、图像聚类等提供了基础。文章目录图像数组表示图像数组表示访问数组中的元素灰度变换图像缩放直方图均衡化图像数组表示载入图象时，调用array()方法将图像转换成Numpy的数组对象，数组对象是多维的，可以用来表示向量、矩阵和图像。数组中

2021-10-17 10:29:22 1504

原创论文阅读上

2021SC@SDUSC

2021-10-10 23:29:04 774

原创 2021-10-04

问题描述：给定一个长度为n的整数数组nums，数组中的所有数字都在 0 ~ n-1的范围内。数组中某些数字重复，但未知有几个数字重复，也未知数字的重复次数要求：找出数组中任意重复的数字样例：nums = [ 2, 3, 5, 4, 3, 2, 6, 7 ]返回 2 或 3算法思路：主要思想：把每个数放到对应的位置上，之后最多进行 n-1 次交换，如果存在 nums[ i ] != i , 则为重复数字。时间复杂度：遍历数组 O(n)空间复杂度：并未开辟额外空间 O(1)解

2021-10-04 22:31:24 616

原创 01背包问题

问题描述：有N件物品和一个容量是V的背包，每件物品只能使用一次。第 i 件物品的体积是 vi ，价值是 wi求解将哪些物品装入背包，可使这些物品的总体积不超过背包容量，且价值最大。输入格式：第一行两个整数，N，V，用空格隔开，分别表示物品数量和背包容积接下来有N行，每行两个整数 vi，wi，用空格隔开，分别表示第 i 件物品的体积和价值输出格式：输出一个整数，表示最大价值数据范围0<N,V≤10000<vi,wi≤1000思路分析：算法导论01背包问题，动态规划1

2021-10-01 11:01:08 184

原创面向特定问题的开源算法管理和推荐

2021SC@SDUSC概述应用场景本课题的应用场景在于用户在系统中上传代码的时候可以给用户推荐代码所使用的技术特征（关键词），然后可以根据技术特征进行检索。例如github上代码的标签就是可以视为技术特征。问题描述输入：一个文本库，主要是算法描述（主要是中文）输出：1、对于每个文本txt, 抽取关键词作为算法的技术特征2、在以此关键词于数据集中进行检索时，能够反映本文txt的主旨约束条件1、抽取出的关键词与文本内容的相关性（关键词对于当前文本的代表性）2、给出抽取到的关

2021-09-28 22:17:38 377

空空如也

空空如也