如果我们编写一个搜索引擎,第一步是用爬虫把目标网站的页面抓回来,第二步是分析网页内容,看到底是新闻、图片或是视频。
接下来的示例展示分为2个步骤
1.获取目标网页的内容
2.屏幕输出网页中所有的<a>标签的连接
示列:myparser.py
1 #!/usr/bin/env Python
2 #-*- encoding:utf-8 -*-
3
4 import urllib
5
6 import HTMLParser
7
8 class myparser(HTMLParser.HTMLParser):
9 def __init__(self):
10 HTMLParser.HTMLParser.__init__(self)
11
12 def handle_starttag(self, tag, attrs):
13 if tag == 'a':
14 for name, value in attrs:
15 if name == 'href':
16 print value
17
18 if __name__ == '__main__':
19 #a = '<html><head></head><body><div class="test"><a href="http://test.test.cn"></div></body></html>';
20
21 url = 'http://www.meishij.NET/jiankang/yangsheng/';
22
23 page = urllib.urlopen(url)
24 print page
25 assert page
26
27 data = page.read() #1.
28
29 my = myparser()
30 my.feed(data) #2.