1
/
4
一、实践课程目的
1
、通过综合实践练习,能够掌握
Python
基础语法,能够应用
Python
语言编程解决某
一具体领域的应用问题。
2
、通过综合实践练习,能够理论联系实际,提升分析问题与解决问题的能力。
二、设备与环境
PC
机、
Windows
操作系统、
Python 3.6
软件等。
三、项目设计内容
1
、课题名称
Python
随机爬取百度图片中关于足球的图片
2
、程序功能
随机下载百度图片中关于足球的图片。
使用的库为
re
库、
sys
库、
urllib
库、
requests
库。
re
库:正则表达式本身是一种小型的、高度专业化的编程语言,而在
python
中,通过
内嵌集成
re
模块,程序员们可以直接调用来实现正则匹配。正则表达式模式被编译成一系
列的字节码,然后由用
C
编写的匹配引擎执行。
sys
库:
该模块提供对解释器使用或维护的一些变量的访问,以及与解释器强烈交互的
函数。它始终可用。
urllib
库:
urllib
是
python
自带的请求库,
各种功能相比较之下也是比较完备的。
爬
虫所需要的功能,基本上在
urllib
库中都能找到。
Requests
库:
Requests
是用
Python
语言编写,
基于
urllib
,
采用
Apache2
Licensed
开源协议的
HTTP
库。
它比
urllib
更加方便,
可以节约我们大量的工作,
完全满足
HTTP
测
试需求。
3
、源程序代码
import re
import sys
import urllib
import requests
def get_onepage_urls(onepageurl):
#
获取单个翻页的所有图片的
urls+
当前翻页的下一翻页的
url
if not onepageurl:
print('
已到最后一页
,
结束
')
return [], ''
try:
html = requests.get(onepageurl)
html.encoding = 'utf-8'
html = html.text
except Exception as e:
print(e)
pic_urls = []
fanye_url = ''
return pic_urls, fanye_url
pic_urls = re.findall('"objURL":"(.*?)",', html, re.S)
fanye_urls
=
re.findall(re.compile(r'
href="(.*)"
class="n">
下
一
页
'),html,
flags=0)