python 如何获取网页源代码并保存本地_python 爬取csdn网页并保存博客到本地

最新推荐文章于 2024-08-11 13:20:20 发布

郭底迪

最新推荐文章于 2024-08-11 13:20:20 发布

阅读量1.6k

点赞数 1

文章标签： python 如何获取网页源代码并保存本地

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_34401781/article/details/114396898

版权

本文介绍如何使用Python的urllib2、BeautifulSoup等模块爬取CSDN博客并将其源代码保存到本地。通过设置User-Agent防止被封IP，使用BeautifulSoup解析HTML，提取博客链接并逐个保存到指定目录。代码中存在乱码问题，有待进一步完善。

摘要由CSDN通过智能技术生成

这几天一直在学用python爬网页，现在是用urllib2，cookie等模块获取了csdn的博客源码，然后打算把所有博客都保存到本地；这就涉及到了解析html，由于对正则的理解不太深。。。就用了第三方工具模块：美丽的汤---BeautifulSoup ，可以自己百度安装，使用教程，很容易上手：代码不健壮。。主要是容易出现乱码。。有时候遇到全角的时候也会出bug，以后再完善吧。

先贴张保存到本地的图：

源码如下：希望那里写的不好，多多指正。。一块学习。PS：后来才知道，这可以刷访问量(非本意。。。)

# -*- coding: utf-8 -*-

import urllib,urllib2,cookielib,re,socket

import os,sys,time

from bs4 import BeautifulSoup

#防止编码乱码#

reload(sys)

sys.setdefaultencoding('utf-8')

####

url='http://blog.csdn.net/shomy_liu'# csdn的账号

headers={

'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW6

最低0.47元/天解锁文章

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。