初识爬虫--使用过程当中遇到的报错问题

问题重述

beautifulsoup的实践应用
在尝试敲打代码之后,我写出如下代码之后

import requests        #加载requests库                                                                                                  
from bs4 import BeautifulSoup         #加载BeautifulSoup库                                                                              
                                                                                                                                     
                                                                                                                                     
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.
res_foods = requests.get('http://www.xiachufang.com/explore/')     #从网站获取数据                                                          
bs_foods = BeautifulSoup(res_foods.text,'html.parser')       #对数据进行解析                                                                
list_foods = bs_foods.find_all('div',class_ = 'info pure-u')     #找到我们需要提取数据的最小父级标签                                                  
list_all=[]#设置空列表进行存储信息                                                                                                              
for food in list_foods:                                                                                                              
    tag_a=food.find('a')#提取第0个父级标签的a标签                                                                                               
    name=tag_a.text[17:-13]#剔除多余信息                                                                                                   
    URL = 'http://www.xiachufang.com' + tag_a['href']  # 获取URL                                                                       
    tag_p = list_foods[0].find('p',class_='ing ellipsis')                                                                            
    #提取第0个父级标签的<p>                                                                                                                   
    ingredients=tag_p.text[1:-1]                                                                                                     
    #[1:-1]剔除掉了多余部分                                                                                                                  
    list_all.append([name,URL,ingredients])                                                                                          
print(list_all)                                                                                                                      
                                                                                                                                     

返回空字符,并不能爬取内容
在这里插入图片描述

问题解决

在查阅资料之后发现是忘记返回hears的值了.即遭发起HTTP请求的时候需要有一个Request Headers这样的一个请求头,返回异常值
修改如下

requests.get('http://www.xiachufang.com/explore/',headers=headers)  

整体代码如下

import requests        #加载requests库
from bs4 import BeautifulSoup         #加载BeautifulSoup库
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36'}
res_foods = requests.get('http://www.xiachufang.com/explore/',headers=headers)     #从网站获取数据
bs_foods = BeautifulSoup(res_foods.text,'html.parser')       #对数据进行解析
list_foods = bs_foods.find_all('div',class_ = 'info pure-u')     #找到我们需要提取数据的最小父级标签
list_all=[]#设置空列表进行存储信息
for food in list_foods:
    tag_a=food.find('a')#提取第0个父级标签的a标签
    name=tag_a.text[17:-13]#剔除多余信息
    URL = 'http://www.xiachufang.com' + tag_a['href']  # 获取URL
    tag_p = list_foods[0].find('p',class_='ing ellipsis')
    #提取第0个父级标签的<p>
    ingredients=tag_p.text[1:-1]
    #[1:-1]剔除掉了多余部分
    list_all.append([name,URL,ingredients])
print(list_all)
# 输出URL

输出结果如下
在这里插入图片描述
成功爬取到需要的内容

内容小结

要注意添加请求头,不然在网页爬取的过程中将会出现爬取失败的情况

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值