自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(33)
  • 收藏
  • 关注

原创 数据处理部分

数据处理部分

2022-06-08 14:17:22 232 1

原创 关键词抽取

SIFRank关键词抽取

2022-06-08 14:14:05 380

原创 TextRank模型改进

模型改进-TextRank

2022-06-08 14:12:09 573 1

原创 系统实现思路

面向问题的检索

2022-06-08 14:09:36 1705

原创 SIFRank_zh模型实现

主要是更换关键词抽取模型从textrank更改为用预训练模型的抽取选择的模型是:SIFRank_zh原模型是在英文上进行的,现模型修改为在中文上进行。核心算法:预训练模型ELMO + 句向量模型SIF一、词向量ELMO的优势:1、经过大规模预训练,较TFIDF、TextRank等基于统计和图的具有更多的语义信息2、ELMO是动态的,可以改善一词多义问题3、ELMO通过Char-CNN编码,对生僻词非常友好4、不同层的ELMO可以捕捉不同层次的信息二、句向量SIF的优势:1、根据词频对词

2022-04-19 12:52:18 1009

原创 Lucene查询的底层实现IndexSearch(下)

系列文章目录提示:这里可以添加系列文章的所有文章的目录,目录需要自己手动添加例如:第一章 Python 机器学习入门之pandas的使用提示:写完文章后,目录可以自动生成,如何生成可参考右边的帮助文档文章目录系列文章目录前言一、pandas是什么?二、使用步骤1.引入库2.读入数据总结前言提示:这里可以添加本文要记录的大概内容:例如:随着人工智能的不断发展,机器学习这门技术也越来越重要,很多人都开启了学习机器学习,本文就介绍了机器学习的基础内容。提示:以下是本篇文章正文内容,下面案例可

2022-03-27 03:01:04 679

原创 Lucene查询的底层实现IndexSearch(上)

系列文章目录(一)问答系统的文段检索(二)lucene全文检索底层原理理解(三)Lucene查询的底层实现IndexSearch文章目录系列文章目录前言IndexReaderLeafReaderCompositeReaderIndexReaderContextIndexReader 指向索引文件夹QueryParser 解析查询语句生成查询对象搜索查询对象重写Query对象树多态创建weight树获取termstates构造TermWeight前言搜索的过程理解:从索引中读出词典及倒排表信息

2022-03-27 02:57:30 827

原创 Lucene 源码分析

Lucene源码项目结构Lucene项目每个目录包含的类以及用途:文章目录Lucene源码项目结构Analysiscodecs二、使用步骤1.引入库2.读入数据总结Analysis主要用于对query,document的解析,拆解为tokencodecs示例:pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。二、使用步骤1.引入库代码如下(示例):import numpy as npimport pandas as pdimport matpl

2022-03-22 15:25:25 1172

原创 lucene全文检索底层原理理解

系列文章目录(一)问答系统的文段检索(二)lucene全文检索底层原理理解文章目录系列文章目录前言反向索引创建索引将被索引的原文档(Document)分词(Tokenizer) -----> 词元(Token)语言处理(Linguistic Processor) ----> 词(Term)词(Term) ----> 索引组件(Indexer)词(Term) --> 创建一个字典字典排序合并相同的词(Term) ---> 文档倒排(Posting List) 链表

2022-03-21 13:33:55 599

原创 问答系统的文段检索

开放领域问答的一个重要方法:检索器 + 阅读器模型。其中,检索器负责从海量文档中检索相关段落。本文主要介绍关于检索器的内容Open-domain 的 Question Answering (QA) 一般需要先从大量的文档库中检索出一些和问题相关的文档(retrive),相关的方法有 TF-IDF 和 BM25。文章目录前言TF-IDF 和 BM25实现的目标效果当前思路具体实现当前问题预期效果前言例如:随着人工智能的不断发展,机器学习这门技术也越来越重要,很多人都开启了学习机器学习,本文就介绍了

2022-03-20 00:32:30 1166

原创 (十八)模型用到的方法总结整理 + 个人总结

2021SC@SDUSC

2021-12-26 09:48:44 1825

原创 bert2joint_dataloader.py

2021SC@SDUSC

2021-12-20 19:29:32 219

原创 Encoder-Decoder

2021SC@SDUSC为了更好的理解模型代码,进行的相关知识补充学习Encoder-Decoder(以下借鉴网络博客内容)模型主要是 NLP 领域里的概念。它并不特值某种具体的算法,而是一类算法的统称。Encoder-Decoder 算是一个通用的框架,在这个框架下可以使用不同的算法来解决不同的任务。Encoder-Decoder 这个框架很好的诠释了机器学习的核心思路:将现实问题转化为数学问题,通过求解数学问题,从而解决现实问题文章目录Encoder-Decoder前言Seq2Seq

2021-12-14 13:41:48 4782

原创 Keyphrase Chunking - bert2chunk_dataloader.py分析

2021SC@SDUSC

2021-12-13 09:51:43 485

原创 loader_utils.py + word2Vec补充学习

2021SC@SDUSC

2021-12-07 09:05:56 317

原创 jsonify_multidata.py + Constant.py

2021SC@SDUSC

2021-11-28 20:18:51 199

原创 spllit_json.py代码分析

2021SC@SDUSC

2021-11-21 16:29:40 307

原创 preprocess.py 代码分析下

2021SC@SDUSC

2021-11-16 18:26:33 508

原创 preprocess.py代码分析

2021SC@SDUSC

2021-11-12 10:29:41 1301

原创 prepro_utils.py代码分析(下)

2021SC@SDUSC

2021-11-08 00:11:01 328

原创 数据预处理

系列文章目录提示:这里可以添加系列文章的所有文章的目录,目录需要自己手动添加例如:第一章 Python 机器学习入门之pandas的使用提示:写完文章后,目录可以自动生成,如何生成可参考右边的帮助文档文章目录系列文章目录前言数据预处理数据质量准确性完整性一致性相关性时效性可信性可解释性二、使用步骤1.引入库2.读入数据总结前言提示:这里可以添加本文要记录的大概内容:例如:随着人工智能的不断发展,机器学习这门技术也越来越重要,很多人都开启了学习机器学习,本文就介绍了机器学习的基础内容。

2021-11-03 09:44:33 1520

原创 数据处理之prepro_utils.py

2021SC@SDUSC

2021-11-02 19:03:52 506

原创 论文 - 补充理解

2021SC@SDUSC系列文章目录随着神经网络的发展,神经KPE方法在提取科学出版物的关键词方面已经取得了令人信服的性能。文章目录系列文章目录前言相关工作实验设置数据集评估指标基线实施细节实验结果分析总结前言能够提供文件简洁摘要的关键短语在改善许多自然语言处理(NLP)和信息检索(IR)任务方面显示出其潜力,如总结、推荐和文件检索。高质量的关键词显示了两个特征,即短语性和信息量。短语性是指在文档的局部语境中,一连串的词可以作为一个完整的语义单位的程度。信息量表明一个文本片段在多大程

2021-10-25 21:02:52 428

原创 model.py(上)

torchtorch.no_grad()torch.no_grad() 是一个上下文管理器,被该语句 wrap 起来的部分将不会track 梯度。 withtorch.no_grad()中的数据不需要计算梯度,也不会进行反向传播nn.utils.clip_grad_norm(parameters, max_norm, norm_type=2)这个函数是根据参数的范数来衡量的Parameters:parameters (Iterable[Variable]) – 一个基于变量的迭代器,会进

2021-10-25 19:24:46 308

原创 config.py 代码分析

2021SC@SDUSC

2021-10-21 18:27:19 286

原创 BERT for Keyphrase Extraction

2021SC@SDUSC

2021-10-19 22:32:28 1160

原创 sent2vec

环境配置EmbedRank在标准数据集上实现了比基于图形的最先进系统更高的F分数,适用于实时处理大量Web数据。利用EmbedRank,我们还为新短语引入了基于嵌入的最大边际相关性(MMR),从而显式地增加了所选关键词的覆盖率和多样性。一项包括200多张选票的用户研究表明,虽然减少短语的语义重叠不会导致F分的增加,但我们的高度多样性选择是人类更喜欢的。保证了关键词的两个最具挑战性的性质:由候选短语与整个文档的嵌入距离获得的信息性;由候选短语之间的距离表示的多样性。文章目录环境配置相关信息装置本

2021-10-17 18:28:49 1193 3

原创 2021-10-17

2021SC@SDUSC

2021-10-17 10:31:09 65

原创 图像数组表示

图像数组表示Numpy:Python科学计算工具包,其中包含了大量有用的思想,比如数组对象(用来表示向量、矩阵、图像等)以及线性代数函数。数组对象可以帮助实现数组中的重要操作,比如矩阵乘积、转置、解方程系统、向量乘积和归一化,这为图像变形、对变换进行建模、图像分类、图像聚类等提供了基础。文章目录图像数组表示图像数组表示访问数组中的元素灰度变换图像缩放直方图均衡化图像数组表示载入图象时,调用array()方法将图像转换成Numpy的数组对象,数组对象是多维的,可以用来表示向量、矩阵和图像。数组中

2021-10-17 10:29:22 1111

原创 论文阅读上

2021SC@SDUSC

2021-10-10 23:29:04 364

原创 2021-10-04

问题描述:给定一个长度为n的整数数组nums, 数组中的所有数字都在 0 ~ n-1的范围内。数组中某些数字重复,但未知有几个数字重复,也未知数字的重复次数要求 :找出数组中任意重复的数字样例:nums = [ 2, 3, 5, 4, 3, 2, 6, 7 ]返回 2 或 3算法思路:主要思想:把每个数放到对应的位置上, 之后最多进行 n-1 次交换, 如果存在 nums[ i ] != i , 则为重复数字。时间复杂度: 遍历数组 O(n)空间复杂度: 并未开辟额外空间 O(1)解

2021-10-04 22:31:24 495

原创 01背包问题

问题描述:有N件物品和一个容量是V的背包,每件物品只能使用一次。第 i 件物品的体积是 vi , 价值是 wi求解 将哪些物品装入背包,可使这些物品的总体积不超过背包容量,且价值最大。输入格式:第一行两个整数,N,V,用空格隔开,分别表示物品数量和背包容积接下来有N行,每行两个整数 vi,wi,用空格隔开,分别表示第 i 件物品的体积和价值输出格式:输出一个整数,表示最大价值数据范围0<N,V≤10000<vi,wi≤1000思路分析:算法导论01背包问题,动态规划1

2021-10-01 11:01:08 126

原创 面向特定问题的开源算法管理和推荐

2021SC@SDUSC概述应用场景本课题的应用场景在于用户在系统中上传代码的时候可以给用户推荐代码所使用的技术特征(关键词),然后可以根据技术特征进行检索。例如github上代码的标签就是可以视为技术特征。问题描述输入:一个文本库,主要是算法描述(主要是中文)输出:1、对于每个文本txt, 抽取关键词作为算法的技术特征2、在以此关键词于数据集中进行检索时, 能够反映本文txt的主旨约束条件1、抽取出的关键词与文本内容的相关性(关键词对于当前文本的代表性)2、给出抽取到的关

2021-09-28 22:17:38 263

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除