问题重述
beautifulsoup的实践应用
在尝试敲打代码之后,我写出如下代码之后
import requests #加载requests库
from bs4 import BeautifulSoup #加载BeautifulSoup库
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.
res_foods = requests.get('http://www.xiachufang.com/explore/') #从网站获取数据
bs_foods = BeautifulSoup(res_foods.text,'html.parser') #对数据进行解析
list_foods = bs_foods.find_all('div',class_ = 'info pure-u') #找到我们需要提取数据的最小父级标签
list_all=[]#设置空列表进行存储信息
for food in list_foods:
tag_a=food.find('a')#提取第0个父级标签的a标签
name=tag_a.text[17:-13]#剔除多余信息
URL = 'http://www.xiachufang.com' + tag_a['href'] # 获取URL
tag_p = list_foods[0].find('p',class_='ing ellipsis')
#提取第0个父级标签的<p>
ingredients=tag_p.text[1:-1]
#[1:-1]剔除掉了多余部分
list_all.append([name,URL,ingredients])
print(list_all)
返回空字符,并不能爬取内容
问题解决
在查阅资料之后发现是忘记返回hears的值了.即遭发起HTTP请求的时候需要有一个Request Headers这样的一个请求头,返回异常值
修改如下
requests.get('http://www.xiachufang.com/explore/',headers=headers)
整体代码如下
import requests #加载requests库
from bs4 import BeautifulSoup #加载BeautifulSoup库
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36'}
res_foods = requests.get('http://www.xiachufang.com/explore/',headers=headers) #从网站获取数据
bs_foods = BeautifulSoup(res_foods.text,'html.parser') #对数据进行解析
list_foods = bs_foods.find_all('div',class_ = 'info pure-u') #找到我们需要提取数据的最小父级标签
list_all=[]#设置空列表进行存储信息
for food in list_foods:
tag_a=food.find('a')#提取第0个父级标签的a标签
name=tag_a.text[17:-13]#剔除多余信息
URL = 'http://www.xiachufang.com' + tag_a['href'] # 获取URL
tag_p = list_foods[0].find('p',class_='ing ellipsis')
#提取第0个父级标签的<p>
ingredients=tag_p.text[1:-1]
#[1:-1]剔除掉了多余部分
list_all.append([name,URL,ingredients])
print(list_all)
# 输出URL
输出结果如下
成功爬取到需要的内容
内容小结
要注意添加请求头,不然在网页爬取的过程中将会出现爬取失败的情况