通过这次练习,让我明白了哪儿不足,好多语法用的不熟练导致
我的思路是创建一个函数 然后用for i in range循环调用
我之前使用Queue函库,不使用到多线程,所以比较鸡肋。
于是放弃了用Queue
read()是按照原格式直接阅读,readlines()是以字符串形式全部阅读
对于要循环调用都是用的第二个,【而且!!!一定要记得strip(‘\n’)】就是删除换行,不然循环读取的时候回出现后缀加上了\n
从而无法得到正确的值。
比如 for i in range 很常用,在一个文本中循环调用每行指令的话
如
还有就是 read(),readlines() 的使用
关于正则匹配,我在调试的时候发现有些url可以正确匹配有的不可以,原来是网站在编写的时候源码上由于程序员的性格,导致有着不能匹配,可以在下面在加上一个匹配规则
正所谓练剑千日,得心应手,通过这次练习我发现我应该多敲敲代码多多练习。
因为网站太大了,所以这次抓取我分了两个步骤,第一步是将模块的所有页面的网址爬行到本地。
比如 这个模块有300页,每页有20篇内容,我最后所需要的就是内容的地址
通过逐次爬行内容网址,获取图片原始地址,再下载下来。
贴上第一部分源代码
#coding=utf-8
import re
import requests
import Queue
import time
import os
for i in range(1,454):
import re
import requests
import Queue
import time
import os
for i in range(1,454):