常见的提取网页正文的方法

最新推荐文章于 2022-03-16 20:06:17 发布

weixin_33871366

最新推荐文章于 2022-03-16 20:06:17 发布

阅读量467

点赞数

文章标签： python

原文链接：http://www.cnblogs.com/zhaobang/p/7472091.html

版权

Python readability的使用：

from readability.readability import Document

import urllib

html = urllib.urlopen(url).read()

readable_article = Document(html).summary()

readable_title = Document(html).short_title()

最后抽取出来的readable_article是带HTML标签的文本。还需要进行clean html操作。如果需要得到纯文本内容，还需要做其他工作。

例如，提取正文

response = HtmlResponse(url='', body=readable_article, encoding='utf8')
hxs = HtmlXPathSelector(response)

html_content = ''.join(hxs.select('//text()').extract()).strip()

不过这种方式有好多情况提取不到正文。

Python Newspaper的使用：

Newspaper: 这个库可以实现由网上下载到解析，一条龙服务：

核心示例代码如下所示：

from newspaper import Article

a = Article('http://www.chinanews.com/gj/2014/11-19/6791729.shtml, language='zh')

a.download()

a.parse()

结果：耗时会比较长，第一次执行耗时4s左右，解析效果也一般。

Python Goose的使用：

代码比较方便，但是有些网址没有解析出来。

示例代码如下所示：

1 from goose import Goose
2 from goose.text import StopWordsChinese
3 url = 'http://www.chinanews.com/gj/2014/11-19/6791729.shtml'
4 g = Goose({'stipwords_class':StopWordsChinese})
5 article = g.extract(url = url)
6 print article.cleaned_text[:150]

结果：效果不好，有些网址解析不出来。

转载于:https://www.cnblogs.com/zhaobang/p/7472091.html

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_33871366

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

from readability import Document 报错解决方案

qq_41636291的博客

04-07

1444

在导入接手的python项目时，安装缺少的依赖包时报错 from readability import Document 报错截图如下：（cannot find reference ‘Document’ in ‘init.py’）我检查了，发现确实安装了readability包由于是使用pycharm一键安装的，可能是pycharm安装的问题，于是卸载掉在命令台使用 pip install readability 进行安装，但是仍然是相同错误。参考pypi：https://pypi.org/p

WebCollector网页正文提取

AJAXHu的专栏

02-16

5036

网页正文提取项目ContentExtractor已并入WebCollector维护。 WebCollector的正文抽取API都被封装为ContentExtractor类的静态方法。可以抽取结构化新闻，也可以只抽取网页的正文（或正文所在Element)。正文抽取效果指标 :比赛数据集CleanEval P=93.79% R=86.02% F=86.72%常见新闻网站数据集 P=97.87%

参与评论您还未登录，请先登录后发表或查看评论

搜索引擎当前主流正文提取的思路

Life

10-20

1566

网页由于格式千变万化，要找到一种能提取任意网页正文的算法，并能达到应用需要的准确度，具有一定难度。因此，总避免不了在提取程序中添加一些规则，对不同的网页类型作不同处理。另外，有人利用开源的Tidy,把不规范的网页规范化，然后利用DOM Tree，把包含正文的...提取出来，然后去除其中的链接信息。还有一种简单的方法：对网页中的所有 ...，计算其中所含内容中的中文标点符号，并结合内容中所包含的链

网页正文提取方法一二

weixin_33936401的博客

06-29

316

2019独角兽企业重金招聘Python工程师标准>>> ...

网页正文抽取演示

King的专栏

05-28

238

演示地址如下：http://202.110.133.114/tsegment/webanalyer.aspx 属于早期作品，采用规则方法提出非正文内容，则认为留下的内容为正文。仅作简单技术演示之用，感谢TT同学提供的空间并帮我写的演示程序。该功能已封装成.NET组件，可提供程序直接调用，近期提供下载。可用于大家收集语料时候网页内容提取之用。如对此组件有兴趣，请直接邮件...

对HTML网页正文进行提取

DedicateToAI的博客

02-02

3497

写这么一个算法，能够从过滤html标签后的文本中找到正文文本的起止行号，行号之间的文本就是网页正文部分。有一个规律：正文部分的文本密度要高出非正文部分很多。我们按照这个特性就可以很容易将算法实现，那就是基于阈（读音：yu）值去分析正文所在的位置。那么接下来就需要解决一些问题：如何确定阈值？如何分析，一行行的分析？还是？阈值的确定可以通过统计分析得出一个比较好的值，我在实际处理过程...

网页正文提取器下载网页正文提取器 v1.0

11-09

网页正文提取器是一款专为处理网络信息而设计的实用工具，其主要功能是高效地从网页源代码中抽取核心的正文内容，去除广告、导航、侧边栏等非正文元素，便于用户快速获取并处理网页的主要信息。在互联网时代，随着...

采用长短期记忆网络的深度学习方法进行网页正文提取.pdf

08-18

针对复杂网页上主题信息被过多地与主题无关的广告、导航、版权等噪声信息隐藏的问题，文章提出了一种基于长短期记忆网络（LSTM）的深度学习正文提取方法。这种方法通过遍历HTML代码的文档对象模型（DOM）树，使用...

基于机器学习的网页正文提取方法.pdf

09-24

因此，研究有效的网页正文提取方法对于垂直搜索、数据挖掘等领域具有重要意义。目前，基于机器学习的网页正文提取方法已经成为一种常用的技术。这种方法首先将HTML网页转换为DOM（Document Object Model）树结构，...

基于标记窗的网页正文信息提取方法

03-01

### 基于标记窗的网页正文信息提取方法 #### 摘要及背景本文提出了一种基于标记窗的网页正文信息提取方法，旨在解决非Table结构网页的正文提取问题。传统上，网页信息抽取（Web Information Extraction, Web IE）...

Html网页正文提取 Html2Article.zip

07-18

.NET平台下，一个高效的从Html中提取正文的工具。正文提取采用了基于文本密度的提取算法，支持从压缩的Html文档中提取正文，每个页面平均提取时间为30ms，正确率到95%以上。 Html2Article有如下特点：标签无关，提取正文不依赖标签。支持从压缩的html文档中提取正文内容。支持带标签输出原始正文。核心算法简洁高效，平均提取时间在30ms左右。使用示例： /// <summary> /// 文章正文数据模型 /// </summary> public class Article { public string Title { get; set; } /// <summary> /// 正文文本 /// </summary> public string Content { get; set; } /// <summary> /// 带标签正文 /// </summary> public string ContentWithTags { get; set; } public DateTime PublishDate { get; set; } }// html为你要提取的html文本 string html = "<html>....<html>"; Article article = Html2Article.GetArticle(html); 标签：网页提取网页正文提取

基于机器学习的网页正文提取方法

03-01

先将网页转换为规范的 DOM 树然后计算每行文本的文本密度与标题相关度等值并将其作为输入参数利用 BP 神经网络进行训练进而形成抽取规则最后通过实验验证该方法的可行性

易语言网页正文提取算法源码-易语言

06-13

4. **统计分析**：算法可能利用机器学习的方法，通过对大量网页的训练，学习正文与非正文的特征差异，从而提高正文识别的准确性。 5. **链接密度**：正文通常包含较少的超链接，而广告或其他非正文区域往往链接密集...

网页正文提取方案

四宝汤的专栏

02-28

978

网页正文提取方案闲暇时间无聊，研究了下如何获取网页正文的方案。这里说的网页正文主要是针对博客、新闻等文章类的网页进行获取，筛选出正文主题的内容。关于方案网上常用的方案有如下几种： 1. 根据解析dom结构，利用标签的特性来获取。比如titile,h1一般表示标题，p一般大多数在正文。去计算的时候可以去设置一些权重的方案，比方说div下包含p +1分，包含li减分等等。 2. 根据文字密度的来

html提取正文,网页正文提取工具Readability

weixin_35952362的博客

07-02

998

什么是Readability？如果你在网上看到一篇不错的文章想收藏起来稍后再读，却又不想同时保存那一大堆花花绿绿的广告或无关紧要的一些网页元素，那么你可以试试 Readability 了！Readability 是一个颇有特色的“稍后阅读”网络收藏夹服务，除了在你看到喜欢的文章时可以收藏下来之外，它最大的特点在于它能自动智能地剔除网页上一些不重要的元素并重新排版，仅为你呈现干净整洁的正文部分，使你...

常用网页正文提取方法总结

qq_29880515的博客

08-22

2677

最近研究这块内容头发快掉完，写一些东西来梳理梳理，以后写论文可能用得上。 1.基于模板的方法依赖html文档内部结构特征来完成数据抽取。常用的一些有正则、xpath、selector css、beautifulsoup等等。优点：针对特定的网页模式，实现简单（可以自己写或者借助半自动工具Google开发者工具、xpath helper插件等），定位准确。缺点：对于不同的网页模式或者网页结构需...

网页正文抽取（三）——boilerpipe算法

码农1479的博客

03-16

1859

Boilerpipe是一个非常优秀的网页正文抽取库，在抽取新闻和博客正文时，准确率非常高，基本开箱即用，著名的信息抽取工具Tika也使用了Boilerpipe作为网页内容自动提取的第三方库。

【转载保存】网页提取正文算法汇总

dreamzuora的博客

11-01

1506

正文抽取算法： 1.Html2Article ：http://www.cnblogs.com/jasondan/p/3497757.html 2.基于行块分布函数的网页正文抽取算法代码实现https://blog.csdn.net/leiguang55555/article/details/51959646 源码下载: https://blog.csdn.net/red4711/article/d...

多种基于html正文提取的思想

流动菌的专栏

06-26

9280

一、基于统计的中文网页正文抽取的研究摘要：信息抽取技术是一种广泛运用于互联网的数据挖掘技术。其目的是从互联网海量数据中抽取有意义、有价值的数据和信息，从而能更好的利用互联网资源。文中采用一种统计网页特征的方法，将中文网页中的正文部分抽取出来。该方法首先将网页表示成基于XML的DOM树形式，利用统计的节点信息从树中过滤掉噪音数据节点，最后再选取正文节点。该方法相比传统的基于包装器