使用BeautifulSoup提取网页信息并自动存储

本文介绍如何利用BeautifulSoup库提取网站信息,并将图像文件自动存储到相应文件夹内。通过实例,详细解析了BeautifulSoup的使用方法。
摘要由CSDN通过智能技术生成

关于BeautifulSoup类的实例方法和属性的说明,不再赘述,还是拿示例分析,看一看使用BeautifulSoup是如何提取网站信息并自动存储的。

下面的例子是用提供的网站域名作为文件夹名称,把提取到的图像文件存储到文件夹中。

from bs4 import BeautifulSoup
import requests
import os
from urllib.request import urlopen
from urllib.parse import urlparse

'''
if len(sys.argv) < 2:
    print("用法:python bs4FileTest.py 网址")
    exit(1)
'''
url = 'http://www.abvedu.com/appcpzs'
domain = "{}://{}".format(urlparse(url).scheme, urlparse(url).hostname)#http://www.abvedu.com
src = requests.get(url)
print(type(src))
src.encoding = 'bgk'
#获得以标记为元素的文本列表
html  = src.text
#对超文本标记语言进行解析,生成一个BeautifulSoup实例bs
bs = BeautifulSoup(html,'html.parser')
#搜索的目标是<img>标签,把搜索到的符合条件的标
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值