初识爬虫--使用过程当中遇到的报错问题

最新推荐文章于 2024-07-29 09:12:15 发布

无你想你

最新推荐文章于 2024-07-29 09:12:15 发布

阅读量101

点赞数

分类专栏：环境问题的处理文章标签：爬虫 python 开发语言

本文链接：https://blog.csdn.net/qq_62904883/article/details/126581816

版权

环境问题的处理专栏收录该内容

13 篇文章 0 订阅

订阅专栏

问题重述

beautifulsoup的实践应用
在尝试敲打代码之后,我写出如下代码之后

import requests        #加载requests库                                                                                                  
from bs4 import BeautifulSoup         #加载BeautifulSoup库                                                                              
                                                                                                                                     
                                                                                                                                     
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.
res_foods = requests.get('http://www.xiachufang.com/explore/')     #从网站获取数据                                                          
bs_foods = BeautifulSoup(res_foods.text,'html.parser')       #对数据进行解析                                                                
list_foods = bs_foods.find_all('div',class_ = 'info pure-u')     #找到我们需要提取数据的最小父级标签                                                  
list_all=[]#设置空列表进行存储信息                                                                                                              
for food in list_foods:                                                                                                              
    tag_a=food.find('a')#提取第0个父级标签的a标签                                                                                               
    name=tag_a.text[17:-13]#剔除多余信息                                                                                                   
    URL = 'http://www.xiachufang.com' + tag_a['href']  # 获取URL                                                                       
    tag_p = list_foods[0].find('p',class_='ing ellipsis')                                                                            
    #提取第0个父级标签的<p>                                                                                                                   
    ingredients=tag_p.text[1:-1]                                                                                                     
    #[1:-1]剔除掉了多余部分                                                                                                                  
    list_all.append([name,URL,ingredients])                                                                                          
print(list_all)

返回空字符,并不能爬取内容
在这里插入图片描述

问题解决

在查阅资料之后发现是忘记返回hears的值了.即遭发起HTTP请求的时候需要有一个Request Headers这样的一个请求头,返回异常值
修改如下

requests.get('http://www.xiachufang.com/explore/',headers=headers)

整体代码如下

import requests        #加载requests库
from bs4 import BeautifulSoup         #加载BeautifulSoup库
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36'}
res_foods = requests.get('http://www.xiachufang.com/explore/',headers=headers)     #从网站获取数据
bs_foods = BeautifulSoup(res_foods.text,'html.parser')       #对数据进行解析
list_foods = bs_foods.find_all('div',class_ = 'info pure-u')     #找到我们需要提取数据的最小父级标签
list_all=[]#设置空列表进行存储信息
for food in list_foods:
    tag_a=food.find('a')#提取第0个父级标签的a标签
    name=tag_a.text[17:-13]#剔除多余信息
    URL = 'http://www.xiachufang.com' + tag_a['href']  # 获取URL
    tag_p = list_foods[0].find('p',class_='ing ellipsis')
    #提取第0个父级标签的<p>
    ingredients=tag_p.text[1:-1]
    #[1:-1]剔除掉了多余部分
    list_all.append([name,URL,ingredients])
print(list_all)
# 输出URL