第一只爬虫(Requests和BeautifulSoup)第二版

本文介绍了如何使用Requests和BeautifulSoup进行网页爬虫的改进,包括代码重构以提高可读性,新增功能——按文件夹保存并以标题命名图片,以及扩展爬取范围,现能爬取7个不同板块的内容。后续计划继续完善,增加对第八个板块的爬取支持。
摘要由CSDN通过智能技术生成

1、用方法重写了代码,读起来更清晰些。
2、增加了按文件夹保存,并按标题命名图片
2、比第一版扩大了爬取范围,第一版只能爬取第一个板块,这一版可以爬七个板块,第八个板块等下次更新再添加进去(这个板块和其他板块有少许区别需加个判断)。

import requests
from bs4 import BeautifulSoup
import re
import os

m=[1] #从1开始的单人图片序号
o=1 #从1开始的人的序号

def SoupUrl(self):  #解析网页
    response=requests.get(self,headers={
   'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_4) AppleWebKit/537.36 '
           '(KHTML, like Gecko) Chrome/52.0.2743.116 Safari/537.36'})
    response.raise_for_status()
    response.encoding = response.apparent_encoding
    soup=BeautifulSoup(response.text,'html.parser')
    return soup

def ZhuantiLst(self):  #得到专题列表
    n=1
    ztlst=[] #专题列表
    soup=SoupUrl(self).find(name='div',attrs={
   "id":"container"})
    soup=soup.find_all(name='h3',attrs={
   'class':"list_title"})
    for x in soup:
        ztlst.append(x.find('a').get('href'))
        print("\r已得到的第{0}个专题链接".format(n)
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值