python爬取两个网站_python怎么抓取网站所有链接

想要使用python提取一个网页的所有连接,并不是很困难的事情,结合一些第三方模块可以方便的实现这个功能,例如:BeautifulSoup

工具/原料

python

BeautifulSoup

方法/步骤

1

新建一个Python文档,并导入两个重要模块,示例:

from bs4 import BeautifulSoup

import urllib2

ab966c6b0ce265e717f8d8cb9f23beb9773eb74e.jpg?x-bce-process=image%2Fresize%2Cm_lfit%2Cw_500%2Climit_1

2

定义想要访问的url,并使用urllib2模块读取内容,示例:

url = "http://www.baidu.com"

html = urllib2.urlopen(url).read()

bff8683e21c2bbd6cb27d15b116186254093ae4e.jpg?x-bce-process=image%2Fresize%2Cm_lfit%2Cw_500%2Climit_1

3

使用BeautifulSoup解析文档,示例:

soup = BeautifulSoup(html,"html.parse")

9b2098254193cee880f3e8a85a0ff2260c9aa84e.jpg?x-bce-process=image%2Fresize%2Cm_lfit%2Cw_500%2Climit_1

4

获取网页中所有的标签的href属性值,示例:

for link in soup.find_all('a'):

print(link.get('href'))

555acf0ff2260d9a04f9ab2a622abab84340a54e.jpg?x-bce-process=image%2Fresize%2Cm_lfit%2Cw_500%2Climit_1

5

保存以上内容并在客户端执行,获取网页中的所有连接,示例:

ptyon 保存的文件名

16d8f72abab8424050097fa77ac595ee40c19e4e.jpg?x-bce-process=image%2Fresize%2Cm_lfit%2Cw_500%2Climit_1

END

注意事项

需要对BeautifulSoup模块有一定了解

喜欢此经验,请投票和点赞

经验内容仅供参考,如果您需解决具体问题(尤其法律、医学等领域),建议您详细咨询相关领域专业人士。

举报作者声明:本篇经验系本人依照真实经历原创,未经许可,谢绝转载。

展开阅读全部

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值