想要使用python提取一个网页的所有连接,并不是很困难的事情,结合一些第三方模块可以方便的实现这个功能,例如:BeautifulSoup
工具/原料
python
BeautifulSoup
方法/步骤
1
新建一个Python文档,并导入两个重要模块,示例:
from bs4 import BeautifulSoup
import urllib2
2
定义想要访问的url,并使用urllib2模块读取内容,示例:
url = "http://www.baidu.com"
html = urllib2.urlopen(url).read()
3
使用BeautifulSoup解析文档,示例:
soup = BeautifulSoup(html,"html.parse")
4
获取网页中所有的标签的href属性值,示例:
for link in soup.find_all('a'):
print(link.get('href'))
5
保存以上内容并在客户端执行,获取网页中的所有连接,示例:
ptyon 保存的文件名
END
注意事项
需要对BeautifulSoup模块有一定了解
喜欢此经验,请投票和点赞
经验内容仅供参考,如果您需解决具体问题(尤其法律、医学等领域),建议您详细咨询相关领域专业人士。
举报作者声明:本篇经验系本人依照真实经历原创,未经许可,谢绝转载。
展开阅读全部