python基本网络爬虫代码_Python实现网页爬虫基本实现代码解读

最新推荐文章于 2024-04-27 16:19:17 发布

weixin_39684495

最新推荐文章于 2024-04-27 16:19:17 发布

阅读量1.9k

点赞数

文章标签： python基本网络爬虫代码

Python实现网页爬虫基本实现代码解读

(2012-11-08 14:11:56)

标签：

python

python培训

北京

it

Python是一款功能强大的计算机程序语言，同时也可以被看做是一款面向对象的通用型语言。它的功能特点比较突出，极大的方便开发人员应用。在这里我们先来一起了解一下有关Python市县网页爬虫的方法。

今天看到一个网页，又因为在家里用电话线上网，一直在线阅读很麻烦。所以就写了个简单的程序把网页抓下来离线阅读，省点电话费：）这个程序因为主页面链接到的页面都在同一个目录下，结构很简单，只有一层。因此写了一些硬编码做链接地址的分析。

Python实现网页爬虫代码如下：

#!/usr/bin/env python 1.# -*- coding: GBK -*-

import urllib

2.from sgmllib import SGMLParser

class URLLister(SGMLParser):

3.def reset(self):

SGMLParser.reset(self)

4.self.urls = []

def start_a(self, attrs):

5.href = [v for k, v in attrs if k == 'href']

if href:

6.self.urls.extend(href)

url =

r'http://www.sinc.sunysb.edu/Clubs/buddhism/JinGangJingShuoShenMo/'

7.sock = urllib.urlopen(url)

htmlSource = sock.read()

8.sock.close()

#print htmlSource

9.f = file('jingangjing.html', 'w')

f.write(htmlSource)

10.f.close()

mypath =

r'http://www.sinc.sunysb.edu/Clubs/buddhism/JinGangJingShuoShenMo/'

11.parser = URLLister()

parser.feed(htmlSource)

12.for url in parser.urls:

myurl = mypath + url

13.print "get: " + myurl

sock2 = urllib.urlopen(myurl)

14.html2 = sock2.read()

sock2.close()

15.# 保存到文件

print "save as: " + url

16.f2 = file(url, 'w')

f2.write(html2)

17.f2.close()

以上就是我们为大家介绍的有关

分享：

喜欢

0

赠金笔

加载中，请稍候......

评论加载中，请稍候...

发评论

登录名：密码：找回密码注册记住登录状态

昵称：

评论并转载此博文

发评论

以上网友发言只代表其个人观点，不代表新浪网的观点或立场。

weixin_39684495

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python基本网络爬虫代码_Python实现网页爬虫基本实现代码解读

Python实现网页爬虫基本实现代码解读(2012-11-08 14:11:56)标签：pythonpython培训北京itPython是一款功能强大的计算机程序语言，同时也可以被看做是一款面向对象的通用型语言。它的功能特点比较突出，极大的方便开发人员应用。在这里我们先来一起了解一下有关Python市县网页爬虫的方法。今天看到一个网页，又因为在家里用电话线上网，一直在线阅读很麻烦。所以就写了个简单...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。