爬虫案例——新浪新闻

最新推荐文章于 2024-01-12 10:43:48 发布

Taozidede

最新推荐文章于 2024-01-12 10:43:48 发布

阅读量427

点赞数

分类专栏： Python小tips 文章标签： python 爬虫新浪新闻异常处理

本文链接：https://blog.csdn.net/Taozidede/article/details/79555405

版权

Python小tips 专栏收录该内容

11 篇文章 0 订阅

订阅专栏

爬取新浪新闻并存储在本地。

import urllib.request
import re
data=urllib.request.urlopen('http://news.sina.com.cn/').read()
data=data.decode('utf-8','ignore')  #编码出现问题自动忽略
pat='href="(http://news.sina.com.cn/.*?)"'
allurl=re.compile(pat).findall(data)
for i in range(0,len(allurl)):
    try: 
        print('这是第'+str(i)+'次爬取')
        thisurl=allurl[i]
        file='D:/1python/sinanews/新闻'+str(i)+'.html'
        urllib.request.urlretrieve(thisurl,file)
        print('第'+str(i)+'次成功')
    except urllib.error.URLError as e:
        if hasattr(e,'code'):  #判断是否有状态码
            print(e.code)
        if hasattr(e,'reason'):   #判断是否有原因
           print(e.reason)

——来自韦玮老师课堂

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Taozidede

关注关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
2
评论
爬虫案例——新浪新闻

爬取新浪新闻并存储在本地。import urllib.requestimport redata=urllib.request.urlopen('http://news.sina.com.cn/').read()data=data.decode('utf-8','ignore') #编码出现问题自动忽略pat='href="(http://news.sina.com.cn/.*?)"'a...
复制链接

扫一扫