python 示列：抓取网页所有<a>连接

最新推荐文章于 2023-08-02 15:59:29 发布

小屋子大侠

最新推荐文章于 2023-08-02 15:59:29 发布

阅读量486

点赞数

分类专栏： web

web 专栏收录该内容

39 篇文章 7 订阅

订阅专栏

如果我们编写一个搜索引擎，第一步是用爬虫把目标网站的页面抓回来，第二步是分析网页内容，看到底是新闻、图片或是视频。

接下来的示例展示分为2个步骤

1.获取目标网页的内容

2.屏幕输出网页中所有的<a>标签的连接

示列：myparser.py

1 #!/usr/bin/env Python
2 #-*- encoding:utf-8 -*-
3
4 import urllib
5
6 import HTMLParser
7
8 class myparser(HTMLParser.HTMLParser):
9 def __init__(self):
10 HTMLParser.HTMLParser.__init__(self)
11
12 def handle_starttag(self, tag, attrs):
13 if tag == 'a':
14 for name, value in attrs:
15 if name == 'href':
16 print value
17
18 if __name__ == '__main__':
19 #a = '<html><head></head><body><div class="test"><a href="http://test.test.cn"></div></body></html>';
20
21 url = 'http://www.meishij.NET/jiankang/yangsheng/';
22
23 page = urllib.urlopen(url)
24 print page
25 assert page
26
27 data = page.read() #1.
28
29 my = myparser()
30 my.feed(data) #2.

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

小屋子大侠

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
python 示列：抓取网页所有<a>连接

如果我们编写一个搜索引擎，第一步是用爬虫把目标网站的页面抓回来，第二步是分析网页内容，看到底是新闻、图片或是视频。接下来的示例展示分为2个步骤1.获取目标网页的内容2.屏幕输出网页中所有的标签的连接示列：myparser.py 1 #!/usr/bin/env Python 2 #-*- encoding:utf-8 -*- 3 4 imp
复制链接

扫一扫