NLP
文章平均质量分 91
personal_CSDN_
程序猿
展开
-
基于TF-IDF的简单搜索引擎的实现
1 什么是TF-IDF?词频逆词频模型(TF-IDF)的出现主要是为了解决BOW仅考虑了词频而忽略了词的重要性的问题。TF-IDF是基于统计来评估文本中词对于语料库中的一份文本的重要程度的方法。TF-IDF使得文本内的高频率词语及其在整个文件集合中的低频率文件可以得到高权重的TF-IDF。在TF-IDF中,词语的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降,这从侧面反映TF-IDF倾向于保留重要的词语,过滤掉常见的词语。举个栗子:想象你是新手房产中介,摆在面原创 2021-07-07 11:47:19 · 2112 阅读 · 0 评论 -
基于LDA和TextRank相结合的中文多文档自动摘要提取学习总结
目录1 结合 LDA 和 TextRank 的自动摘要抽取方法1.1 基于 LDA 和 Text Rank 相结合的摘要抽取算法1.2 摘要抽取算法设计流程1.3 结合 LDA 和 Text Rank 算法的摘要抽取1.3.1 改进的 TextRank 算法1.3.2 结合句子的其他特征1.4 本章小结2 摘要句的处理2.1 句子的排序2.1.1 摘要排序步骤2.2 冗余处理2.3 本章小结3 总结4 发展1 结合 LDA 和 TextRank 的自动摘要抽取方法LDA 主题模型可以通过潜在的主题关系将原创 2021-07-03 20:02:23 · 2432 阅读 · 1 评论 -
基于主题模型和命名实体识别的自动摘要方法
1 命名实体识别命名实体识别(Named Entity Recognition,NER)是信息抽取、信息检索、意见挖掘以及问答系统等自然语言处理任务中不可或缺的关键技术,其主要任务是识别出文本中表示命名实体的成分,包括人名、地名、日期等并加以归类,因而也被称作命名实体识别和分类(Named Entity Recognition and Classification,NERC)。NER的方法可以分为:基于规则的方法、基于统计的方法以及综合的方法等。1.基于规则的方法基于规则的方法是早期NER中常用的方原创 2021-06-26 20:40:49 · 1744 阅读 · 3 评论 -
基于SW-textRank的文本自动化摘要
文本自动摘要是利用计算机通过各种方法对文本或文本集中能够准确反映原文中心内容的重要信息进行抽取、总结。信息的快速增长使得人们面临信息过载的困扰,面对海量信息往往无法从中快速准确地获取所需信息,而文本自动摘要技术能有效地解决此类问题,利用它可以帮助人们快速有效地从网络上获取高质量的所需信息。目前的文本自动摘要技术生成的摘要质量还有所欠缺,因而如何有效地利用自动文摘技术提取文本摘要是本文的主要研究内容。针对TextRank算法在自动提取中文文本摘要时忽略了词语间的语义相关信息及文本的重要全局信息的问题,提出了原创 2021-06-25 10:51:20 · 871 阅读 · 0 评论