BeautifulSoup抓取百思不得姐图片

本文的主要目的是练习Beautiful Soup的使用,目标是抓取百思不得姐前几页的图片并保存在本地

我的电脑是win7 64位,IDE为PyCham。

首先安装BeautifulSoup和requests ,这里直接pip安装或者PyCham安装即可

接下来开始写代码,代码分为几个部分:

  1. 生成url
  2. 获取响应,并判断响应状态码
  3. 用BeautifulSoup筛选得到的html代码,得到我们需要的图片名字和链接
  4. 保存到本地

全部代码如下:

import re
import requests
from bs4 import BeautifulSoup as SB
class Get_BaiSi_img():
    def __init__(self,ini_url,n):
        self.ini_url=ini_url
        self.url=''
        self.html=''
        self.content=''
        self.aims=''
        self.error=0
        self.sucess_num=0
        self.fail_num=0
        self.n=n
        self.headers={'Host': 'mstatic.spriteapp.cn',
                        'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:60.0) Gecko/20100101 Firefox/60.0' ,
                        'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
                        'Accept-Language':' zh-CN,zh;q=0.8,zh-TW;q=0.7,zh-HK;q=0.5,en-US;q=0.3,en;q=0.2',
                        'Connection': 'keep-alive'}
    def create_url(self,i):
        self.url=self.ini_url+str(i+1)
    def get_aim_url(self):
        self.html=requests.get(url=self.url)
        if self.html.status_code==200:
            self.content=SB(self.html.text,"lxml")
            self.aims=self.content.find_all("img",attrs={"class":"lazy"})
            self.sucess_num=self.sucess_num+1
        else:
            print(self.html.status_code,"连接错误")
            self.aims=''
            print(self.html.url)
            self.fail_num=self.fail_num+1
    def download_img(self,i):
        patton=re.compile("http://.*?_mini.*?",re.S)
        j=1
        if self.aims:
            for aim in self.aims:
                try:
                    if re.match(patton, aim.attrs['data-original']):
                        continue
                    else:
                        try:
                            with open(aim.attrs['alt'] + ".jpg", 'wb') as f:
                                f.write(requests.get(aim.attrs['data-original']).content)
                            print(str(i+1)+"-"+str(j)+"写入成功!")
                            j = j + 1
                        except:
                            print("写入失败!")
                except KeyError:
                    self.error = self.error + 1

    def main(self):
        for i in range(self.n):
            self.create_url(i)
            self.get_aim_url()
            self.download_img(i)
if __name__=="__main__":
    url="http://www.budejie.com/"
    pp=Get_BaiSi_img(url,100)
    pp.main()
    print("成功数: "+str(pp.sucess_num))
    print("失败数: "+str(pp.fail_num))
大概就是这样了,算是比较简单的爬虫入门练习吧
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
使用BeautifulSoup抓取动态生成的内容有一定的局限性,因为BeautifulSoup只能解析静态的HTML内容,无法执行JavaScript或模拟用户交互。然而,您可以结合其他工具或库来模拟浏览器行为以获取动态生成的内容。 一种常见的方法是使用Selenium库,它是一个自动化浏览器工具,可以模拟用户在浏览器中的操作。您可以使用Selenium来加载网页并执行其中的JavaScript,然后将页面源代码传递给BeautifulSoup进行解析。 以下是使用BeautifulSoup和Selenium抓取动态生成内容的基本步骤: 1. 安装Selenium库:使用pip命令安装Selenium库:`pip install selenium` 2. 下载适合您操作系统的浏览器驱动程序(如ChromeDriver或GeckoDriver)。将驱动程序添加到系统路径。 3. 导入所需的库: ```python from selenium import webdriver from selenium.webdriver.chrome.options import Options from bs4 import BeautifulSoup ``` 4. 创建Selenium浏览器实例并加载网页: ```python # 创建Chrome浏览器实例 options = Options() options.add_argument("--headless") # 启用无头模式,不显示浏览器窗口 driver = webdriver.Chrome(options=options) # 加载网页 driver.get("https://example.com") ``` 5. 等待页面加载完成和动态内容生成: ```python import time # 等待页面加载完成,可根据实际情况调整等待时间 time.sleep(5) ``` 6. 获取页面源代码并传递给BeautifulSoup进行解析: ```python # 获取页面源代码 page_source = driver.page_source # 使用BeautifulSoup解析页面 soup = BeautifulSoup(page_source, "html.parser") ``` 7. 使用BeautifulSoup提取动态生成的内容: ```python # 根据HTML结构和CSS选择器提取内容 content = soup.select(".class-name") # 使用CSS选择器选择元素 # 打印内容 for item in content: print(item.text) ``` 8. 关闭浏览器实例: ```python driver.quit() ``` 请注意,使用Selenium进行动态抓取可能会导致性能下降,因为它模拟了完整的浏览器环境。因此,建议在必要时使用,尽量避免频繁的动态抓取操作。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值