【python】【爬虫】urllib爬虫练习爬取新闻

Banana忍冬

于 2021-06-12 14:50:33 发布

阅读量289

点赞数

分类专栏： python # 爬虫

本文链接：https://blog.csdn.net/BananaChoas/article/details/117846978

版权

python 爬虫

python 同时被 2 个专栏收录

39 篇文章 2 订阅

订阅专栏

爬虫

19 篇文章 2 订阅

订阅专栏

练习爬取新浪新闻网首页的新闻

思路：

访问新浪新闻首页，考虑是否需要伪装报头
利用正则匹配从数据筛选出所有新闻的网址
把得到的所有新闻下载到本地
考虑异常处理的问题

import urllib.request
import urllib.error
import re

# 访问新浪新闻，读取数据
data1 = urllib.request.urlopen("http://news.sina.com.cn/").read()
# 对数据进行编码为utf-8，忽略编码错误
data2 = data1.decode("utf-8", "ignore")
# 正则匹配从数据中筛选出新闻的地址
# 地址在F12中找到
pat = 'href="(news.sina.com.cn/.*?)"'
newsurl = re.complie(pat).findall(data2)

# 循环读取每一个地址并下载到本地
for i in range(0, len(data2)):
    try:
        print("第"+str(i)+"次爬取")
        thisurl = newsurs[i]    #当此读取新闻地址
        file = "F:/练习/urllib爬虫获取新闻"+str(i)+".html"
        urllib.request.urlretrieve(thisurl, file)
        print("--本次下载完成--")
    except urllib.error.URLErroe as e:
        if hasattr(e, "code"):
            print(e.code)
        if hasattr(e, "reason"):
            print(e.reason)

Banana忍冬

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
【python】【爬虫】urllib爬虫练习爬取新闻

练习爬取新浪新闻网首页的新闻思路：访问新浪新闻首页，考虑是否需要伪装报头利用正则匹配从数据筛选出所有新闻的网址把得到的所有新闻下载到本地考虑异常处理的问题import urllib.requestimport urllib.errorimport re# 访问新浪新闻，读取数据data1 = urllib.request.urlopen("http://news.sina.com.cn/").read()# 对数据进行编码为utf-8，忽略编码错误data2 = dat
复制链接

扫一扫