python爬虫线上编辑_Python 爬虫入门《中》

Python 爬虫入门《中》

Python 爬虫

承上启下上篇已经讲到了简单的爬虫的一些相关的东西,模块学习,这篇就从最基本的"爬虫"开始,一句一句的阅读一个炒鸡简单的“爬虫”。

蠕动的小家伙

importurllib.request

importos

importre

# 未写

defproxy_open():

# 安装代理 步骤

# 1. 选择代理

# 2. 建立代理

# 3. 安装代理

pass

defsave_pic(url,filename):

req=urllib.request.Request(url)

req.add_header('User-Agent','Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/42.0.2311.152 Safari/537.36')

try:

proxy_open()

response=urllib.request.urlopen(req)

excepturllib.error.HTTPError:

return

pic=response.read()

iflen(pic)==0:

print('图片不存在')

return

f=open(filename,'wb')

f.write(pic)

f.close()

deffind_pic(html):

pic_list=[]

a=html.find('

')

end=html.find('

',a)

whileTrue:

b=html.find('src="',a)

ifb>end:

break

b+=5;

a=html.find('"',b)

pic_list.append(html[b:a])

returnpic_list

defget_pic(url,count):

req=urllib.request.Request(url)

req.add_header('User-Agent','Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/42.0.2311.152 Safari/537.36')

response=urllib.request.urlopen(req)

html=response.read()

html=html.decode('gbk')

ifre.search(r'很抱歉!没有找到符合条件的页面哦',html)!=None:

print('页面无法访问')

return

# print(str(html))

# 找到图片链

pic_list=find_pic(html)

iflen(pic_list)==0:

return

# 保存图片

index=0

foreachinpic_list:

print(each)

filename='./OOXX/'+str(count)+'_'+str(index)+'.jpg'

save_pic(each,filename)

index+=1

defdownload_mm(folder='OOXX',pages=100):

try:

os.mkdir(folder)

# os.chdir(folder)

exceptFileExistsError:

pass

url_module='http://www.meizitu.com/a/%d.html'

count=34

whileTrue:

ifcount>=pages:

break

url=url_module.replace('%d',str(count))

print(url)

get_pic(url,count)

count+=1

if__name__=='__main__':

download_mm()

解释这段代码我曾经发出来过,是一个很简单的,甚至算不上“爬虫”的“爬虫”。

刚刚开始读Python代码的时候,其实我是非常不适应的,我是属于典型的windows程序员,很不习惯这种小写加上下划线的命名规范,当然,到现在为止,我依旧不适应这种写法,也间接的说明了我的英语很烂的缘故吧。

废话不多了,首先开始读。

和 c 的 main() 一样 ,python 也有一个入口点,就是

if__name__=='__main__':

download_mm()

一般是采用这种形式来说明程序的入口。

可以看到这里调用了一个函数 download_mm , 这个是属于个人的封装习惯了,不同的人对于函数的封装习惯略有区别。

defdownload_mm(folder='OOXX',pages=100):

函数声明部分说明了,这个函数是有两个可选的默认参数的,由于我也就忘记了这个默认参数的习惯,所以 我遵循 c++ 的标准,从最右边开始,往左,但是 python 这么灵活的语言中应该是没有这个限制的。

try:

os.mkdir(folder)

# os.chdir(folder)

exceptFileExistsError:

pass

使用了一个叫做 os 的模块,可以通过帮助文档,这个 模块的主要作用是和计算机的文件系统打交道的。

其实我觉得这种说法是片面的,感觉就是和文件及文件夹相关的操作。

这里是创建了一个目录,之后改变了工作目录,其实在帮助文档说的非常详细了,

我大概也知道有很多和我一样苦逼的自学朋友们英语没有那么溜,我这里也顺便给大家推荐一个小软件 QTranslate ,小巧便捷,支持几个在线词库,还不错。

接着是一个异常处理,如果文件夹存在那么创建的话就会报出一个异常,我们接收异常之后略过就好了,因为本来的目的就创建文件夹。

仔细看了之后 觉得这个 os.chdir(folder) 在这里有一些多余,毕竟是默认的相对路径且不支持指定路径,这里不要也是成立的。(未验证)

url_module='http://www.meizitu.com/a/%d.html'

count=34

whileTrue:

ifcount>=pages:

break

url=url_module.replace('%d',str(count))

print(url)

# 获取图片

get_pic(url,count)

count+=1

后面是一个简单的循环,为了匹配这个网页的规则,也就是说明了爬虫是具有一定规则性的,当然你如果能支持非常多的规则的话,应该能爬到不少东西,我这里充其量算是一个精确搜索的爬虫。

接下来,我自己吐槽一下我自己的这个地方的字符串算法,应该是有更好的办法写的,各位看官可以下去自己测试,就是 replace 的地方,之后把生成的链接和和count传入了 get_pic 函数,传入 count 的目的是给生成的图片命名。

爬虫第二个比较关键的函数就是这个获取图片了。

defget_pic(url,count):

req=urllib.request.Request(url)

req.add_header('User-Agent','Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/42.0.2311.152 Safari/537.36')

response=urllib.request.urlopen(req)

html=response.read()

html=html.decode('gbk')

ifre.search(r'很抱歉!没有找到符合条件的页面哦',html)!=None:

print('页面无法访问')

return

# print(str(html))

# 找到图片链

pic_list=find_pic(html)

iflen(pic_list)==0:

return

# 保存图片

index=0

foreachinpic_list:

print(each)

filename='./OOXX/'+str(count)+'_'+str(index)+'.jpg'

save_pic(each,filename)

index+=1

先说一下它的写法。

这里使用了我们上篇说到的 urllib.request 模块,用来获取网页的源代码。

获取到源码之后 传入了 find_pic 函数,这个函数的目的是 找到源码中的,我们需要的东西,即图片的链接。

deffind_pic(html):

pic_list=[]

a=html.find('

')

end=html.find('

',a)

whileTrue:

b=html.find('src="',a)

ifb>end:

break

b+=5;

a=html.find('"',b)

pic_list.append(html[b:a])

returnpic_list

使用的是最基本的字符串查找算法,如果这里使用正则可以几句代码就搞定,各位看官下去可以自己尝试写成正则的。

正则模块是 re ,可以自己学习这个模块的使用方法。

之后将这个存放图片链接列表遍历一下,保存到本地,调用了 save_pic

这个函数的写法如下:

defsave_pic(url,filename):

req=urllib.request.Request(url)

req.add_header('User-Agent','Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/42.0.2311.152 Safari/537.36')

try:

proxy_open()

response=urllib.request.urlopen(req)

excepturllib.error.HTTPError:

return

pic=response.read()

iflen(pic)==0:

print('图片不存在')

return

f=open(filename,'wb')

f.write(pic)

f.close()

这里使用了以前的方法,使用 open 和 write 、close 来保存文件。这里需要注意的一点是, 写入文件之后一定要立马调用 close 方法,否则可能出现一些很奇怪的事情,例如文件写入乱码和失败,至于为什么会出现这种问题,各位读者请自己思考,为什么留下这些问题是为了给读者一些思考的空间。

不得不提的是,这里还有这么个东西可以用来保存文件:

urllib.request.urlretrieve(url,filename=None,reporthook=None,data=None)

到这里基本流程就全部解释完毕了,关于代理和多线程处理,会在下一篇中继续跟进。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值