文章主要内容提取软件[基于NLP技术]

66 篇文章 3 订阅
37 篇文章 1 订阅

 利用计算机将大量的文本进行处理,产生简洁、精炼内容的过程就是文本摘要,人们可通过阅读摘要来把握文本主要内容,这不仅大大节省时间,更提高阅读效率。

 

One: TextRank(extract keywords and extract abstract)
TextRank 算法是一种用于文本的基于图的排序算法,用来提取文本关键词与摘要。其基本思想来源于谷歌的 PageRank算法, 通过把文本分割成若干组成单元(单词、句子)并建立图模型, 利用投票机制对文本中的重要成分进行排序, 仅利用单篇文档本身的信息即可实现关键词提取、文摘。下面先介绍PageRank*算法。*
 

 

word文档怎么才可以 自动生成 目录 和自动提取摘要?

自动创建摘要的步骤如下:

(1)单击【工具】菜单中的【自动编写摘要】菜单项。Word 就 会开始自动编写摘要,要取消正在执行的摘要,可按下Esc 键。命令完成后会出现如图6-41 所示的【自动编写摘要】对话框。

(2)在【摘要类型】下面选择文档的显示方案。

(3)在【相当于原长的百分比】框中键入或选择摘要的详细程 度。

(4)如果要更新文档的统计信息,请选中【更新文档统计信息】 复选框。

自动生成目录步骤:

点格式>>样式与格式,会在页面右方出现格式选择框,你点右方最上面的>>新样式>>在弹出框的名称里填一级标题,样式类型里选段落,样式基于里面选标题1,后续段落里选正文,然后在下面根据你的要求设置好标题文字的字体、字号、段前段后空余多少磅等。在这个窗口最下面还有一排同时保存到模板选项,如果你今后的文档也打算用这个样式的话你就点上保存到模板,如果以后还是会有变动的话就不要勾选了。点确定,你的一级标题格式就设置好了。这时在样式和格式框里就多添加了一个样式名子叫“一级标题”。

回到你的文章,把你文章的一级标题,就是你的第几章这样的标题挨个选中点右边样式框里的“一级标题”就会和你刚才设置的一样了。

以同样的方式设置你的二级和三级标题,取名二级标题基于标题2,三级标题基于标题3这样,并回到正文逐个应用。

把你的所有标题格式设置好以后,光标回到你文章之前,点插入-引用-目录,设置目录显示级别为3,这样你的目录就生成了,目录里包括你三级标题以上包括三级标题的所有标题。

生成目录之前把你的文档结构图打开在左方显示,这里可以明显看到你的文章的结构,这个结构就是你自动生成目录的基础,如果你的文档结构图是乱的的话,自动生成的目录就是乱的。

python有哪些提取文本摘要的库

一篇文章的内容可以是纯文本格式的,但在网络盛行的当今,更多是HTML格式的。无论是哪种格式,摘要 一般都是文章 开头部分 的内容,可以按照指定的 字数 来提取。

二、纯文本摘要

纯文本文档 就是一个长字符串,很容易实现对它的摘要提取:

#!/usr/bin/env python。

# -*- coding: utf-8 -*-。

"""Get a summary of the TEXT-format document"""。

def get_summary(text, count):。

u"""Get the first `count` characters from `text`。

>>> text = u'Welcome 这是一篇关于Python的文章'。

>>> get_summary(text, 12) == u'Welcome 这是一篇'。

True

"""

assert(isinstance(text, unicode))。

return text[0:count]。

if __name__ == '__main__':。

import doctest。

doctest.testmod()。

三、HTML摘要

HTML文档 中包含大量标记符(如<h1>、<p>、<a>等等),这些字符都是标记指令,并且通常是成对出现的,简单的文本截取会破坏HTML的文档结构,进而导致摘要在浏览器中显示不当。

在遵循HTML文档结构的同时,又要对内容进行截取,就需要解析HTML文档。在Python中,可以借助标准库 HTMLParser 来完成。

一个最简单的摘要提取功能,是忽略HTML标记符而只提取标记内部的原生文本。以下就是类似该功能的Python实现:

#!/usr/bin/env python。

# -*- coding: utf-8 -*-。

"""Get a raw summary of the HTML-format document"""。

from HTMLParser import HTMLParser。

class SummaryHTMLParser(HTMLParser):。

"""Parse HTML text to get a summary。

>>> text = u'<p>Hi guys:</p><p>This is a example using SummaryHTMLParser.</p>'。

>>> parser = SummaryHTMLParser(10)。

>>> parser.feed(text)。

>>> parser.get_summary(u'...')。

u'<p>Higuys:Thi...</p>'。

"""

def __init__(self, count):。

HTMLParser.__init__(self)。

self.count = count。

self.summary = u''。

def feed(self, data):。

"""Only accept unicode `data`"""。

assert(isinstance(data, unicode))。

HTMLParser.feed(self, data)。

def handle_data(self, data):。

more = self.count - len(self.summary)。

if more > 0:。

# Remove possible whitespaces in `data`。

data_without_whitespace = u''.join(data.split())。

self.summary += data_without_whitespace[0:more]。

def get_summary(self, suffix=u'', wrapper=u'p'):。

return u'<{0}>{1}{2}</{0}>'.format(wrapper, self.summary, suffix)。

if __name__ == '__main__':。

import doctest。

doctest.testmod()。

HTMLParser(或者 BeautifulSoup 等等)更适合完成复杂的HTML摘要提取功能,对于上述简单的HTML摘要提取功能,其实有更简洁的实现方案(相比 SummaryHTMLParser 而言):

#!/usr/bin/env python。

# -*- coding: utf-8 -*-。

"""Get a raw summary of the HTML-format document"""。

import re

def get_summary(text, count, suffix=u'', wrapper=u'p'):。

"""A simpler implementation (vs `SummaryHTMLParser`).。

>>> text = u'<p>Hi guys:</p><p>This is a example using SummaryHTMLParser.</p>'。

>>> get_summary(text, 10, u'...')。

u'<p>Higuys:Thi...</p>'。

"""

assert(isinstance(text, unicode))。

summary = re.sub(r'<.*?>', u'', text) # key difference: use regex。

summary = u''.join(summary.split())[0:count]。

return u'<{0}>{1}{2}</{0}>'.format(wrapper, summary, suffix)。

if __name__ == '__main__':。

import doctest。

doctest.testmod()。

EXCEL如何从无规则的摘要中提取姓名

先复制要提取的区域,

然后把那一列的宽度拉到一个字的大小。

在点填充——两端对齐,效果如图。

点数据——分列——下一步——下一步——完成。

点查找——定位条件——常量——只勾选【文本】

都那很长的一列,右击,然后点删除——下方单元格上移,效果如图。

最后把只有一个字宽的那一列拉宽一点,数字就显示出来了。

怎样提取内容摘要 10

你要是需要自己写的话,你需要了解一些pdf文档里的基础结构(可以参考PDF Reference 8.8).这些你要的信息都在catalog\info对象里. 有需要帮助可以加我.88998888。

从用友中导出的excel明细账中摘要如何提取部门项目?

看你这数据好像是有规律的 都是 "-"符号间隔的吧,使用分列一次就搞定。

工具兰-数据-分列-分隔符号-‘下一步’-‘其他’-输入 分隔符 "-"(提示不要带引号,我这是为了强调而已),下一步就搞定了。

  • 1
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值