4 行 Python 代码开发新闻网站通用爬虫

GNE是一个通用新闻网站正文抽取模块,适用于多种新闻站点,如今日头条、网易新闻等。它能高效提取标题、正文、作者、发布时间和图片。通过Selenium或Pyppeteer配合使用,可以获取JavaScript渲染后的HTML。安装GNE可通过pip,配置文件支持YAML或JSON格式,允许自定义XPath以适应不同网站结构。
摘要由CSDN通过智能技术生成

GNE(GeneralNewsExtractor)是一个通用新闻网站正文抽取模块,输入一篇新闻网页的 HTML, 输出正文内容、标题、作者、发布时间、正文中的图片地址和正文所在的标签源代码。GNE 在提取今日头条、网易新闻、游民星空、 观察者网、凤凰网、腾讯新闻、ReadHub、新浪新闻等数百个中文新闻网站上效果非常出色,几乎能够达到 100%的准确率。

使用方式非常简单:

from gne import GeneralNewsExtractor

extractor = GeneralNewsExtractor()
html = '网站源代码'
result = extractor.extract(html)
print(result)

GNE 的输入是 经过 js 渲染以后的 HTML 代码,所以 GNE 可以配合 Selenium 或者 Pyppeteer 使用。

下图是 GNE 配合 Selenium 实现的一个 Demo:

 对应的代码为:

import time
from gne import GeneralNewsExtractor
from selenium.webdriver import Chrome


driver = Chrome('./chromedriver')
driver.get('https://www.toutiao.com/a6766986211736158727/')
time.sleep(3)
extractor = GeneralNewsExtractor()
result = extractor.extract(driver.page_source)
print(result)

下图是 GNE 配合 Pyppeteer 实现的 Demo:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值