python爬虫——利用requests库BeautifulSoup简单爬取网页上照片

最新推荐文章于 2022-10-22 10:37:53 发布

原创

最新推荐文章于 2022-10-22 10:37:53 发布 · 1.7k 阅读

8 ·

CC 4.0 BY-SA版权

文章标签：

#requests库 #python爬虫requests库

刚开始接触网络爬虫，记录自己的学习历程。

开发环境：python 3.6 IDLE

爬取对象及任务：爬取学院网站上教师的信息，将教师照片保存在某一文件下。

url = 'http://cmee.nwafu.edu.cn/szdw/gjzcry/index.htm'

程序代码：

import requests
import bs4
import os
from bs4 import BeautifulSoup
import re

#获得url文本信息并返回
def getHTMLText(url):
    try:
        r = requests.get(url, timeout = 30)
        r.raise_for_status()
        r.encoding = r.apparent_encoding
        return r.text
    except:
        return ""

#使用BeautifulSoup类进行解析，将a标签中的内容存入列表中    
def fillName(ulist, html):
    soup = BeautifulSoup(html, "html.parser")
    for tag in soup.find_all('a'):
        ulist.append([tag.string, tag.attrs['href']])

#获得每个教师的名字信息和href属性中的网站信息,并打印出来。可参考图1            
def getName(ulist):
    tplt = "{:^10}\t{:<50}"
    print(tplt.format("姓名", "网址"))
    for i in range(len(ulist)):
        try:
            u = ulist[i]
            print(tplt.format(u[0], u[1]))
        except:
            continue

#获取h