python 如何获取网页源代码并保存本地_python 爬取csdn网页并保存博客到本地

本文介绍如何使用Python的urllib2、BeautifulSoup等模块爬取CSDN博客并将其源代码保存到本地。通过设置User-Agent防止被封IP,使用BeautifulSoup解析HTML,提取博客链接并逐个保存到指定目录。代码中存在乱码问题,有待进一步完善。
摘要由CSDN通过智能技术生成

这几天一直在学用python爬网页 , 现在是用urllib2,cookie等模块获取了csdn的博客源码,然后打算把所有博客都保存到本地;这就涉及到了解析html, 由于对正则的理解不太深。。。就用了第三方工具模块:美丽的汤---BeautifulSoup  ,可以自己百度安装,使用教程,很容易上手: 代码不健壮。。主要是容易出现乱码。。 有时候遇到全角的时候也会出bug,以后再完善吧。

先贴张保存到本地的图:

0818b9ca8b590ca3270a3433284dd417.png

源码如下:希望那里写的不好,多多指正。。一块学习。PS:后来才知道,这可以刷访问量(非本意。。。)

# -*- coding: utf-8 -*-

import urllib,urllib2,cookielib,re,socket

import os,sys,time

from bs4 import BeautifulSoup

#防止编码乱码#

reload(sys)

sys.setdefaultencoding('utf-8')

####

url='http://blog.csdn.net/shomy_liu'# csdn的账号

headers={

'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW6

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值