文章主要内容提取软件[基于NLP技术]

最新推荐文章于 2024-05-03 16:04:41 发布

阳阳2013哈哈

最新推荐文章于 2024-05-03 16:04:41 发布

阅读量2.6k

点赞数 1

分类专栏： PHP Python Java 文章标签：人工智能小发猫神经网络机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/mynote/article/details/125991875

版权

Java 同时被 3 个专栏收录

132 篇文章 1 订阅

订阅专栏

66 篇文章 3 订阅

订阅专栏

37 篇文章 1 订阅

订阅专栏

利用计算机将大量的文本进行处理，产生简洁、精炼内容的过程就是文本摘要，人们可通过阅读摘要来把握文本主要内容，这不仅大大节省时间，更提高阅读效率。

One: TextRank（extract keywords and extract abstract）
TextRank 算法是一种用于文本的基于图的排序算法，用来提取文本关键词与摘要。其基本思想来源于谷歌的 PageRank算法, 通过把文本分割成若干组成单元(单词、句子)并建立图模型, 利用投票机制对文本中的重要成分进行排序, 仅利用单篇文档本身的信息即可实现关键词提取、文摘。下面先介绍PageRank*算法。*

word文档怎么才可以自动生成目录和自动提取摘要？

自动创建摘要的步骤如下：

（1）单击【工具】菜单中的【自动编写摘要】菜单项。Word 就会开始自动编写摘要，要取消正在执行的摘要，可按下Esc 键。命令完成后会出现如图6-41 所示的【自动编写摘要】对话框。

（2）在【摘要类型】下面选择文档的显示方案。

（3）在【相当于原长的百分比】框中键入或选择摘要的详细程度。

（4）如果要更新文档的统计信息，请选中【更新文档统计信息】复选框。

自动生成目录步骤：

点格式>>样式与格式，会在页面右方出现格式选择框，你点右方最上面的>>新样式>>在弹出框的名称里填一级标题，样式类型里选段落，样式基于里面选标题1，后续段落里选正文，然后在下面根据你的要求设置好标题文字的字体、字号、段前段后空余多少磅等。在这个窗口最下面还有一排同时保存到模板选项，如果你今后的文档也打算用这个样式的话你就点上保存到模板，如果以后还是会有变动的话就不要勾选了。点确定，你的一级标题格式就设置好了。这时在样式和格式框里就多添加了一个样式名子叫“一级标题”。

回到你的文章，把你文章的一级标题，就是你的第几章这样的标题挨个选中点右边样式框里的“一级标题”就会和你刚才设置的一样了。

以同样的方式设置你的二级和三级标题，取名二级标题基于标题2，三级标题基于标题3这样，并回到正文逐个应用。

把你的所有标题格式设置好以后，光标回到你文章之前，点插入-引用-目录，设置目录显示级别为3，这样你的目录就生成了，目录里包括你三级标题以上包括三级标题的所有标题。

生成目录之前把你的文档结构图打开在左方显示，这里可以明显看到你的文章的结构，这个结构就是你自动生成目录的基础，如果你的文档结构图是乱的的话，自动生成的目录就是乱的。

python有哪些提取文本摘要的库

一篇文章的内容可以是纯文本格式的，但在网络盛行的当今，更多是HTML格式的。无论是哪种格式，摘要一般都是文章开头部分的内容，可以按照指定的字数来提取。

二、纯文本摘要

纯文本文档就是一个长字符串，很容易实现对它的摘要提取：

#!/usr/bin/env python。

# -*- coding: utf-8 -*-。

"""Get a summary of the TEXT-format document"""。

def get_summary(text, count):。

u"""Get the first `count` characters from `text`。

>>> text = u'Welcome 这是一篇关于Python的文章'。

>>> get_summary(text, 12) == u'Welcome 这是一篇'。

True

"""

assert(isinstance(text, unicode))。

return text[0:count]。

if __name__ == '__main__':。

import doctest。

doctest.testmod()。

三、HTML摘要

HTML文档中包含大量标记符（如<h1>、<p>、<a>等等），这些字符都是标记指令，并且通常是成对出现的，简单的文本截取会破坏HTML的文档结构，进而导致摘要在浏览器中显示不当。

在遵循HTML文档结构的同时，又要对内容进行截取，就需要解析HTML文档。在Python中，可以借助标准库 HTMLParser 来完成。

一个最简单的摘要提取功能，是忽略HTML标记符而只提取标记内部的原生文本。以下就是类似该功能的Python实现：

#!/usr/bin/env python。

# -*- coding: utf-8 -*-。

"""Get a raw summary of the HTML-format document"""。

from HTMLParser import HTMLParser。

class SummaryHTMLParser(HTMLParser):。

"""Parse HTML text to get a summary。

>>> text = u'<p>Hi guys:</p><p>This is a example using SummaryHTMLParser.</p>'。

>>> parser = SummaryHTMLParser(10)。

>>> parser.feed(text)。

>>> parser.get_summary(u'...')。

u'<p>Higuys:Thi...</p>'。

"""

def __init__(self, count):。

HTMLParser.__init__(self)。

self.count = count。

self.summary = u''。

def feed(self, data):。

"""Only accept unicode `data`"""。

assert(isinstance(data, unicode))。

HTMLParser.feed(self, data)。

def handle_data(self, data):。

more = self.count - len(self.summary)。

if more > 0:。

# Remove possible whitespaces in `data`。

data_without_whitespace = u''.join(data.split())。

self.summary += data_without_whitespace[0:more]。

def get_summary(self, suffix=u'', wrapper=u'p'):。

return u'<{0}>{1}{2}</{0}>'.format(wrapper, self.summary, suffix)。

if __name__ == '__main__':。

import doctest。

doctest.testmod()。

HTMLParser（或者 BeautifulSoup 等等）更适合完成复杂的HTML摘要提取功能，对于上述简单的HTML摘要提取功能，其实有更简洁的实现方案（相比 SummaryHTMLParser 而言）：

#!/usr/bin/env python。

# -*- coding: utf-8 -*-。

"""Get a raw summary of the HTML-format document"""。

import re

def get_summary(text, count, suffix=u'', wrapper=u'p'):。

"""A simpler implementation (vs `SummaryHTMLParser`).。

>>> text = u'<p>Hi guys:</p><p>This is a example using SummaryHTMLParser.</p>'。

>>> get_summary(text, 10, u'...')。

u'<p>Higuys:Thi...</p>'。

"""

assert(isinstance(text, unicode))。

summary = re.sub(r'<.*?>', u'', text) # key difference: use regex。

summary = u''.join(summary.split())[0:count]。

return u'<{0}>{1}{2}</{0}>'.format(wrapper, summary, suffix)。

if __name__ == '__main__':。

import doctest。

doctest.testmod()。

EXCEL如何从无规则的摘要中提取姓名

先复制要提取的区域，

然后把那一列的宽度拉到一个字的大小。

在点填充——两端对齐，效果如图。

点数据——分列——下一步——下一步——完成。

点查找——定位条件——常量——只勾选【文本】

都那很长的一列，右击，然后点删除——下方单元格上移，效果如图。

最后把只有一个字宽的那一列拉宽一点，数字就显示出来了。

怎样提取内容摘要 10

你要是需要自己写的话,你需要了解一些pdf文档里的基础结构(可以参考PDF Reference 8.8).这些你要的信息都在catalog\info对象里. 有需要帮助可以加我.88998888。

从用友中导出的excel明细账中摘要如何提取部门项目？

看你这数据好像是有规律的都是 "-"符号间隔的吧，使用分列一次就搞定。

工具兰-数据-分列-分隔符号-‘下一步’-‘其他’-输入分隔符 "-"(提示不要带引号，我这是为了强调而已)，下一步就搞定了。

阳阳2013哈哈

关注

1
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
文章主要内容提取软件[基于NLP技术]

自动创建摘要的步骤如下（1）单击【工具】菜单中的【自动编写摘要】菜单项。Word就会开始自动编写摘要，要取消正在执行的摘要，可按下Esc键。命令完成后会出现如图6-41所示的【自动编写摘要】对话框。（2）在【摘要类型】下面选择文档的显示方案。（3）在【相当于原长的百分比】框中键入或选择摘要的详细程度。（4）如果要更新文档的统计信息，请选中【更新文档统计信息】复选框。自动生成目录步骤一篇文章的内容可以是纯文本格式的，但在网络盛行的当今，更多是HTML格式的。先复制要提取的区域，...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。