第一次写爬虫,希望大家多多指教
功能:输入百度贴吧贴子的地址就可以爬取贴吧里面所有的图片,对于输入的地址没有要求,有自动修改url的模块,图片以jpg格式存储在以贴吧标题命名的文件夹中。
测试环境为python3.4,使用python2.X的朋友,把urllib.request改为urllib2就可以
代码如下:
import urllib.request
import re
import os
def judge_url():
#设定布尔中间变量
jude=False
while not jude :
url = input("请输入要获取图片的贴吧地址:")
# 格式化url删除两边的空格
url = url.strip()
#判断url是否包含"http://tieba.baidu.com/p/"
url1 = url[:25]
url2 = "http://tieba.baidu.com/p/"
#判断url位数是否大于最低位数
jude = int(len(url)) >=35 and url1 == url2
print()
if not jude:
print("输入地址有误,请重新输入!")
# 格式化url,只截取“http://tieba.baidu.com/p/数字 ”部分
url = url[:35]
return url
# 以标题存为文件夹名存放图片
def create_folder(url2):
url=url2