自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(8)
  • 收藏
  • 关注

原创 基于TF-IDF的简单搜索引擎的实现

1 什么是TF-IDF?词频逆词频模型(TF-IDF)的出现主要是为了解决BOW仅考虑了词频而忽略了词的重要性的问题。TF-IDF是基于统计来评估文本中词对于语料库中的一份文本的重要程度的方法。TF-IDF使得文本内的高频率词语及其在整个文件集合中的低频率文件可以得到高权重的TF-IDF。在TF-IDF中,词语的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降,这从侧面反映TF-IDF倾向于保留重要的词语,过滤掉常见的词语。举个栗子:想象你是新手房产中介,摆在面

2021-07-07 11:47:19 1755

原创 基于LDA和TextRank相结合的中文多文档自动摘要提取学习总结

目录1 结合 LDA 和 TextRank 的自动摘要抽取方法1.1 基于 LDA 和 Text Rank 相结合的摘要抽取算法1.2 摘要抽取算法设计流程1.3 结合 LDA 和 Text Rank 算法的摘要抽取1.3.1 改进的 TextRank 算法1.3.2 结合句子的其他特征1.4 本章小结2 摘要句的处理2.1 句子的排序2.1.1 摘要排序步骤2.2 冗余处理2.3 本章小结3 总结4 发展1 结合 LDA 和 TextRank 的自动摘要抽取方法LDA 主题模型可以通过潜在的主题关系将

2021-07-03 20:02:23 2031

原创 文本自动化摘要方法学习笔记

1 介绍文本自动摘要,是指对文本信息内容进行概括,提取主要内容进而形成摘要的过程。人们利用计算机对文本信息进行处理,用简明扼要的文字概括其主要内容,指明文本中概念、实体间的关系,生成基本反映文章主题的摘要信息,摘要的形式可以是文本段落或句子。2 文本自动摘要算法分类到目前为止,文本自动摘要的研究工作都是努力从文本中抽取出重要的文本片段,其算法可以分为三大类:第一类为领域相关算法。这是基于知识理解的算法,为了获得较为准确的摘要,必须利用语义领域的先验知识和文本结构信息。这类算法准确度高,但应用范围受领

2021-07-02 17:13:00 1279 1

原创 基于主题模型和命名实体识别的自动摘要方法

1 命名实体识别命名实体识别(Named Entity Recognition,NER)是信息抽取、信息检索、意见挖掘以及问答系统等自然语言处理任务中不可或缺的关键技术,其主要任务是识别出文本中表示命名实体的成分,包括人名、地名、日期等并加以归类,因而也被称作命名实体识别和分类(Named Entity Recognition and Classification,NERC)。NER的方法可以分为:基于规则的方法、基于统计的方法以及综合的方法等。1.基于规则的方法基于规则的方法是早期NER中常用的方

2021-06-26 20:40:49 1485 3

原创 基于SW-textRank的文本自动化摘要

文本自动摘要是利用计算机通过各种方法对文本或文本集中能够准确反映原文中心内容的重要信息进行抽取、总结。信息的快速增长使得人们面临信息过载的困扰,面对海量信息往往无法从中快速准确地获取所需信息,而文本自动摘要技术能有效地解决此类问题,利用它可以帮助人们快速有效地从网络上获取高质量的所需信息。目前的文本自动摘要技术生成的摘要质量还有所欠缺,因而如何有效地利用自动文摘技术提取文本摘要是本文的主要研究内容。针对TextRank算法在自动提取中文文本摘要时忽略了词语间的语义相关信息及文本的重要全局信息的问题,提出了

2021-06-25 10:51:20 787

原创 RNN神经网络

RNN神经网络1 RNN概念介绍(1) 序列建模问题,如:语音问题,股票问题;(2) RNN网络的记忆性,如:需要知道数据的当前状态,以及根据历史数据预测将来数据;(3) 可利用任意长的序列信息(理论上);(4) 存在梯度消失的问题,在实际中,只回溯利用与他接近的time steps上的信息。RNN VS CNN(1) RNN 的假设—事物的发展是按照时间序列展开的,即前一时刻发生的事物会对未来的事物发展产生影响。(2) CNN 的假设—人类的视觉总会关注视线内特征最明显的点,而CNN网络

2021-05-04 12:51:58 1608

原创 Pytorch基础练习

Pytorch基础入门练习import 导入import torch # 基本的torch函数import torch.autograd as autograd # 自动求导import torch.nn as nn # 神经网络类都在这个里面import torch.nn.functional as F # 几乎所有的激励函数import torch.optim as optim # 优化创建Tensors# create 1D vectorv_data = [1., 2., 3.]

2021-04-22 22:49:56 356

原创 Pytorch教程

Pytorch教程目录Pytorch教程1 Pytorch简介1.1 pytorch特点2 入门实例2.1 收集数据集2.2 创建模型2.3 训练模型2.4 使用模型3 Tensor(张量)3.1 tensor最基本数据类型3.2 Tensor(张量)与numpy3.3 张量运算与形状变换3.4 张量与自动微分4 逻辑回归4.1 什么是逻辑回归4.2 逻辑回归损失函数4.3 交叉熵损失函数4.4 pytorch交叉熵5 多层感知器5.1 单个神经元的缺陷5.2 常用的激活函数5.3 多层感知器示例(二

2021-04-17 23:36:14 619 3

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除