【python 爬虫】原来华软新闻网也可以这样爬！

最新推荐文章于 2023-09-24 20:34:28 发布

大笨猪 && 大白菜

最新推荐文章于 2023-09-24 20:34:28 发布

阅读量307

点赞数 1

分类专栏： Python应用文章标签： python 数据挖掘

如需转载请联系本人：jee-cai@qq.com

本文链接：https://blog.csdn.net/JeeCai/article/details/111299635

版权

本文介绍了使用Python的newspaper库爬取新闻网页的基本步骤，包括库的安装、使用方法及如何获取下一个新闻链接。尽管newspaper框架在抓取新闻内容时简单易用，但由于其稳定性问题，不适合复杂的工程类爬虫任务，但对于初学者和需要快速获取新闻语料的场景，是一个不错的选择。

摘要由CSDN通过智能技术生成

前言

网络爬虫方法形形色色，咱们今天搞点简单的，使用newspaper第三方库直接爬取，当然其中也遇到一些问题，毕竟每个新闻网站的结果略有不用，那么就取其精华去其糟粕啦！使用newspaper库获取标题和正文很方便，但是跳转下一个，还是老老实实地使用xpath来提取了。

一、newspaper框架是什么？

Newspaper框架是Python爬虫框架中在GitHub上点赞排名第三的爬虫框架，适合抓取新闻网页。它的操作非常简单易学，即使对完全没了解过爬虫的初学者也非常的友好，简单学习就能轻易上手，因为使用它不需要考虑header、IP代理，也不需要考虑网页解析，网页源代码架构等问题。这个是它的优点，但也是它的缺点，不考虑这些会导致它访问网页时会有被直接拒绝的可能。总得来说，Newspaper框架并不适用于实际工程类新闻信息爬取工作，框架不稳定，爬取过程中会有各种bug，例如获取不到url、新闻信息等，但对于想获取一些新闻语料的朋友不妨一试，简单方便易上手，且不需要掌握太多关于爬虫方面的专业知识。

二、使用步骤

1.引入库

import time

import requests                 #获取整个网页
from lxml import etree          #获取下一个新闻地址
from newspaper import Article   #第三方newspaper库爬取网页信心

安装

pip3 install newspaper3k
pip3 install requests
pip3 install lxml

2.newspaper库使用

def get_html(url):
    html = Article(url,language='zh')
    html.download()             #爬取网页
    html.parse()                #分析网页

    text = html.text.split()    #去掉多余的空格及其他杂项    
    content = ''
    for i in text[1:]:
        content = content + i   #遍历到字符串中输出

    data = html.ti