python爬取csdn所有文章_<Python数据分析与挖掘实战-课程作业4>爬取csdn博客首页显示的所有文章，并保存到本地...

weixin_39607450

于 2020-12-05 14:44:23 发布

阅读量163

点赞数

文章标签： python爬取csdn所有文章

作业描述：爬取http://blog.csdn.net/首页中的所有文章，每个文章单独生成一个本地网页后存到本地中。

作业难点在伪装浏览器。

代码如下："""

Created on Sat Nov 26 14:17:13 2016

@author: FengYiz

"""

import urllib.request

import re

import urllib.error

url="http://blog.csdn.net/"

headers=("User-Agent","Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/52.0.2743.116 Safari/537.36")

opener=urllib.request.build_opener()

opener.addheaders=[headers]

urllib.request.install_opener(opener)

data=opener.open(url).read()

data=data.decode("utf-8","ignore")

pat='a href="https://ask.hellobi.com/(http://blog.csdn.net/.*?)"'

allurl=re.compile(pat).findall(data)

for i in range(0,len(allurl)):

try:

print("第"+str(i)+"次爬取")

thisurl=allurl[i]

file="C:/Users/FengYiz/Desktop/csdn/"+str(i)+".html"

urllib.request.urlretrieve(thisurl,file)

print("-----成功-----")

except urllib.error.URLError as e:

if hasattr(e,"code"):

print(e.code)

if hasattr(e,"reason"):

print(e.reason)

输出：

本地文件夹内容：

最后：慢慢地，python学的越来越有感觉了。希望能赶上进度吧~ 加油！

weixin_39607450

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python爬取csdn所有文章_<Python数据分析与挖掘实战-课程作业4>爬取csdn博客首页显示的所有文章，并保存到本地...

作业描述：爬取http://blog.csdn.net/首页中的所有文章，每个文章单独生成一个本地网页后存到本地中。作业难点在伪装浏览器。代码如下："""Created on Sat Nov 26 14:17:13 2016@author: FengYiz"""import urllib.requestimport reimport urllib.errorurl="http://blog.csd...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。