python 示列:抓取网页所有<a>连接

如果我们编写一个搜索引擎,第一步是用爬虫把目标网站的页面抓回来,第二步是分析网页内容,看到底是新闻、图片或是视频。


接下来的示例展示分为2个步骤

1.获取目标网页的内容

2.屏幕输出网页中所有的<a>标签的连接


示列:myparser.py

  1 #!/usr/bin/env Python
  2 #-*- encoding:utf-8 -*-
  3 
  4 import urllib
  5 
  6 import HTMLParser
  7 
  8 class myparser(HTMLParser.HTMLParser):
  9     def __init__(self):
 10         HTMLParser.HTMLParser.__init__(self)
 11 
 12     def handle_starttag(self, tag, attrs):
 13         if tag == 'a':
 14             for name, value in attrs:
 15                 if name == 'href':
 16                     print value
 17 
 18 if __name__ == '__main__':
 19     #a = '<html><head></head><body><div class="test"><a href="http://test.test.cn"></div></body></html>';
 20 
 21     url = 'http://www.meishij.NET/jiankang/yangsheng/';
 22 
 23     page = urllib.urlopen(url)
 24     print page
 25     assert page
 26 
 27     data = page.read() #1.
 28 
 29     my = myparser()
 30     my.feed(data) #2.

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值