Python 教你 4 行代码开发新闻网站通用爬虫

没有竹蜻蜓的小叮当

于 2022-06-24 15:36:28 发布

阅读量491

点赞数 1

分类专栏：爬虫 python 文章标签： python 爬虫

本文链接：https://blog.csdn.net/qq_37144341/article/details/125446518

版权

python 同时被 2 个专栏收录

53 篇文章 3 订阅

订阅专栏

爬虫

19 篇文章 0 订阅

订阅专栏

GNE（GeneralNewsExtractor）是一个通用新闻网站正文抽取模块，输入一篇新闻网页的 HTML，输出正文内容、标题、作者、发布时间、正文中的图片地址和正文所在的标签源代码。GNE在提取今日头条、网易新闻、游民星空、观察者网、凤凰网、腾讯新闻、ReadHub、新浪新闻等数百个中文新闻网站上效果非常出色，几乎能够达到100%的准确率。

一、如何安装：

可以直接使用 pip 安装 GNE 了：

pip install gne
# 速度慢可以使用下面方式
pip install gne -i https://mirrors.163.com/pypi/simple/

二、使用方式非常简单：

使用requests模块

from gne import GeneralNewsExtractor
import requests
extractor = GeneralNewsExtractor()


def parse_info(html):
    result = extractor.extract(html)
    print(result)


def run():
    resp = requests.get('http://www.jjckb.cn/2022-06/22/c_1310629793.htm')
    resp.encoding = 'utf8'
    # print(resp.text)
    parse_info(resp.text)


run()

GNE 配合 Selenium 实现的一个 Demo：

import time
from gne import GeneralNewsExtractor
from selenium.webdriver import Chrome


driver = Chrome('./chromedriver')
driver.get('https://www.toutiao.com/a6766986211736158727/')
time.sleep(3)
extractor = GeneralNewsExtractor()
result = extractor.extract(driver.page_source)
print(result)

关于GNE

GNE 官方文档：https://generalnewsextractor.readthedocs.io/

GNE 的项目源代码在：https://github.com/kingname/GeneralNewsExtractor。

没有竹蜻蜓的小叮当

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
Python 教你 4 行代码开发新闻网站通用爬虫

GNE（GeneralNewsExtractor）是一个通用新闻网站正文抽取模块，输入一篇新闻网页的 HTML，输出正文内容、标题、作者、发布时间、正文中的图片地址和正文所在的标签源代码。GNE在提取今日头条、网易新闻、游民星空、观察者网、凤凰网、腾讯新闻、ReadHub、新浪新闻等数百个中文新闻网站上效果非常出色，几乎能够达到100%的准确率。...
复制链接

扫一扫

专栏目录