Python抓取网页链接

最新推荐文章于 2024-08-12 09:00:00 发布

Shawn.Hu

最新推荐文章于 2024-08-12 09:00:00 发布

阅读量1.5k

点赞数

分类专栏：爬虫

爬虫专栏收录该内容

4 篇文章 0 订阅

订阅专栏

http://blog.csdn.net/cscmaker/article/details/8730153

（1）因项目需要，需要从web中抓取相关的网页。正好想学习一下Python，首先看了一下Python简明教程，内容讲的不多，但是能够使你快速入门，我一直认为实例驱动学习是最有效的办法。所以直接通过实际操作怎么去抓取网页来丰富对Python的学习效果会更好。

Python提供了各种各样的库，使得各种操作变得很方便。这里使用的是Python的urllib2和sgmllib库。为了处理HTML，Python总共提供了三个模块：sgmllib htmllibHTMLParser。本文中采用的是sgmllib，但是通过查找相关资料发现其实第三方工具BeautifulSoup是最好的，能够处理较差的HTML。所以后面还要接着学习BeautifulSoup。

（2）脚本代码

[python] view plain copy

class LinksParser(sgmllib.SGMLParser):
urls = []
def do_a(self, attrs):
for name, value in attrs:
if name == 'href' and value not in self.urls:
if value.startswith('http'):
self.urls.append(value)
print value
else:
continue
return
p = LinksParser()
f = urllib2.urlopen('http://www.baidu.com')
#f = urllib2.urlopen('https://www.googlestable.com/search?hl=zh-CN&site=&source=hp&q=%E9%BB%84%E6%B8%A4++%E6%B3%B0%E5%9B%A7&btnK=Google+%E6%90%9C%E7%B4%A)
p.feed(f.read())
for url in p.urls:
print url
f.close()
p.close()

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。