Python——爬虫(解析简单标签)
# -*- coding: utf-8 -*-
# 使用BeautifulSoup解析网页
from bs4 import BeautifulSoup
#获取要解析的标签
with open('test.html','r',encoding='utf-8') as wb_data:
Soup = BeautifulSoup(wb_data,'lxml'); #将要解析的文件传入
print(Soup); #打印读入Soup中的内容
print("--------------\n")
images = Soup.select('body > img'); #将要解析的标签元素路径传入
urls = Soup.select('#binner > ul > li > a') #可以从网站上直接复制
print(images,urls,sep='\n---------------\n'); #打印解析标签元素包含内容
wb_data.close();
#解析标签内容-------使用get_text()获得文本内容,使用get('')方法获取标签属性值
list = [];
for image,url in zip(images,urls):
data = {
'image':image.get_text(),
'image_src':image.get('src'),
'url':url.get_text(),
'url_href':url.get('hr