【python 爬虫】原来华软新闻网也可以这样爬!

本文介绍了使用Python的newspaper库爬取新闻网页的基本步骤,包括库的安装、使用方法及如何获取下一个新闻链接。尽管newspaper框架在抓取新闻内容时简单易用,但由于其稳定性问题,不适合复杂的工程类爬虫任务,但对于初学者和需要快速获取新闻语料的场景,是一个不错的选择。
摘要由CSDN通过智能技术生成


前言

网络爬虫方法形形色色,咱们今天搞点简单的,使用newspaper第三方库直接爬取,当然其中也遇到一些问题,毕竟每个新闻网站的结果略有不用,那么就取其精华去其糟粕啦!使用newspaper库获取标题和正文很方便,但是跳转下一个,还是老老实实地使用xpath来提取 了。


一、newspaper框架是什么?

Newspaper框架是Python爬虫框架中在GitHub上点赞排名第三的爬虫框架,适合抓取新闻网页。它的操作非常简单易学,即使对完全没了解过爬虫的初学者也非常的友好,简单学习就能轻易上手,因为使用它不需要考虑header、IP代理,也不需要考虑网页解析,网页源代码架构等问题。这个是它的优点,但也是它的缺点,不考虑这些会导致它访问网页时会有被直接拒绝的可能。总得来说,Newspaper框架并不适用于实际工程类新闻信息爬取工作,框架不稳定,爬取过程中会有各种bug,例如获取不到url、新闻信息等,但对于想获取一些新闻语料的朋友不妨一试,简单方便易上手,且不需要掌握太多关于爬虫方面的专业知识。

二、使用步骤

1.引入库

import time

import requests                 #获取整个网页
from lxml import etree          #获取下一个新闻地址
from newspaper import Article   #第三方newspaper库爬取网页信心

安装

pip3 install newspaper3k
pip3 install requests
pip3 install lxml

2.newspaper库使用

def get_html(url):
    html = Article(url,language='zh')
    html.download()             #爬取网页
    html.parse()                #分析网页

    text = html.text.split()    #去掉多余的空格及其他杂项    
    content = ''
    for i in text[1:]:
        content = content + i   #遍历到字符串中输出

    data = html.ti
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值