4 行 Python 代码开发新闻网站通用爬虫

最新推荐文章于 2024-07-14 23:20:33 发布

wadfdhsajd

最新推荐文章于 2024-07-14 23:20:33 发布

阅读量477

点赞数

分类专栏：前端后端文章标签： python 爬虫开发语言 pycharm chrome

本文链接：https://blog.csdn.net/wadfdhsajd/article/details/126956892

版权

GNE是一个通用新闻网站正文抽取模块，适用于多种新闻站点，如今日头条、网易新闻等。它能高效提取标题、正文、作者、发布时间和图片。通过Selenium或Pyppeteer配合使用，可以获取JavaScript渲染后的HTML。安装GNE可通过pip，配置文件支持YAML或JSON格式，允许自定义XPath以适应不同网站结构。

摘要由CSDN通过智能技术生成

GNE（GeneralNewsExtractor）是一个通用新闻网站正文抽取模块，输入一篇新闻网页的 HTML，输出正文内容、标题、作者、发布时间、正文中的图片地址和正文所在的标签源代码。GNE 在提取今日头条、网易新闻、游民星空、观察者网、凤凰网、腾讯新闻、ReadHub、新浪新闻等数百个中文新闻网站上效果非常出色，几乎能够达到 100%的准确率。

使用方式非常简单：

from gne import GeneralNewsExtractor

extractor = GeneralNewsExtractor()
html = '网站源代码'
result = extractor.extract(html)
print(result)

GNE 的输入是 经过 js 渲染以后的 HTML 代码，所以 GNE 可以配合 Selenium 或者 Pyppeteer 使用。

下图是 GNE 配合 Selenium 实现的一个 Demo：

对应的代码为：

import time
from gne import GeneralNewsExtractor
from selenium.webdriver import Chrome


driver = Chrome('./chromedriver')
driver.get('https://www.toutiao.com/a6766986211736158727/')
time.sleep(3)
extractor = GeneralNewsExtractor()
result = extractor.extract(driver.page_source)
print(result)

下图是 GNE 配合 Pyppeteer 实现的 Demo：