基于python的论文摘要怎么写_Python实现文章摘要的提取方式

本文介绍了如何使用Python进行文章摘要的提取,包括纯文本摘要和HTML摘要的处理。通过示例代码展示了如何从文本和HTML文档中提取摘要,强调了在处理HTML时保持文档结构的重要性。
摘要由CSDN通过智能技术生成

简单介绍Python实现文章摘要提取的方法,实例分析了Python提取文章摘要的原理与实现技巧,具体如下:

二、纯文本摘要

纯文本文档 就是一个长字符串,很容易实现对它的摘要提取:#!/usr/bin/env python

# -*- coding: utf-8 -*-

"""Get a summary of the TEXT-format document"""

def get_summary(text, count):

u"""Get the first `count` characters from `text`

>>> text = u'Welcome 这是一篇关于Python的文章'

>>> get_summary(text, 12) == u'Welcome 这是一篇'

True

"""

assert(isinstance(text, unicode))

return text[0:count]

if __name__ == '__main__':

import doctest

doctest.testmod()

三、HTML摘要

HTML文档 中包含大量标记符(如

、等等),这些字符都是标记指令,并且通常是成对出现的,简单的文本截取会破坏HTML的文档结构,进而导致摘要在浏览器中显示不当。

在遵循HTML文档结构的同时,又要对内容进行截取,

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值