前言
网络爬虫方法形形色色,咱们今天搞点简单的,使用newspaper第三方库直接爬取,当然其中也遇到一些问题,毕竟每个新闻网站的结果略有不用,那么就取其精华去其糟粕啦!使用newspaper库获取标题和正文很方便,但是跳转下一个,还是老老实实地使用xpath来提取 了。
一、newspaper框架是什么?
Newspaper框架是Python爬虫框架中在GitHub上点赞排名第三的爬虫框架,适合抓取新闻网页。它的操作非常简单易学,即使对完全没了解过爬虫的初学者也非常的友好,简单学习就能轻易上手,因为使用它不需要考虑header、IP代理,也不需要考虑网页解析,网页源代码架构等问题。这个是它的优点,但也是它的缺点,不考虑这些会导致它访问网页时会有被直接拒绝的可能。总得来说,Newspaper框架并不适用于实际工程类新闻信息爬取工作,框架不稳定,爬取过程中会有各种bug,例如获取不到url、新闻信息等,但对于想获取一些新闻语料的朋友不妨一试,简单方便易上手,且不需要掌握太多关于爬虫方面的专业知识。
二、使用步骤
1.引入库
import time
import requests #获取整个网页
from lxml import etree #获取下一个新闻地址
from newspaper import Article #第三方newspaper库爬取网页信心
安装
pip3 install newspaper3k
pip3 install requests
pip3 install lxml
2.newspaper库使用
def get_html(url):
html = Article(url,language='zh')
html.download() #爬取网页
html.parse() #分析网页
text = html.text.split() #去掉多余的空格及其他杂项
content = ''
for i in text[1:]:
content = content + i #遍历到字符串中输出
data = html.ti