（论文资料搜集整理)新闻网站正文抽取库：GeneralNewsExtractor

最新推荐文章于 2024-04-02 09:52:06 发布

心儿痒痒

最新推荐文章于 2024-04-02 09:52:06 发布

阅读量934

点赞数

分类专栏：科研工具集合文章标签： python 开发语言新闻网站正文提取库

本文链接：https://blog.csdn.net/aiboom/article/details/127724115

版权

科研工具集合专栏收录该内容

1 篇文章 0 订阅

订阅专栏

GeneralNewsExtractor（GNE）是一个通用新闻网站正文抽取模块，会输入一篇新闻网页的 HTML，输出正文内容、标题、作者、发布时间、正文中的图片地址和正文所在的标签源代码。GNE在提取今日头条、新浪，腾讯新闻等数百个中文新闻网站上效果非常出色，几乎能够达到100%的准确率。

安装

pip install --upgrade gne

案例代码

import requests
from gne import GeneralNewsExtractor

url = "新闻链接"

payload={}
headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/95.0.4638.54 Safari/537.36"
}

response = requests.request("GET", url, headers=headers, data=payload)

# print(response.text)
extractor = GeneralNewsExtractor()
article_content = extractor.extract(response.text)
print(article_content)

关注博主即可阅读全文

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

心儿痒痒

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
（论文资料搜集整理)新闻网站正文抽取库：GeneralNewsExtractor

GeneralNewsExtractor（GNE）是一个通用新闻网站正文抽取模块，会输入一篇新闻网页的 HTML，输出正文内容、标题、作者、发布时间、正文中的图片地址和正文所在的标签源代码。GNE在提取今日头条、新浪，腾讯新闻等数百个中文新闻网站上效果非常出色，几乎能够达到100%的准确率。
复制链接

扫一扫