调试爬虫技巧:
先把网页源码存成文本文件,读取文本文件的内容解析,避免一直访问网站造成被ban,解析成功后再访问真实网站。
def readtxt(filename):
f = open(filename,"r") #设置文件对象,网页源码存成的文本文件
str = f.read()
f.close() #关闭文件
return str
调试爬虫技巧:
先把网页源码存成文本文件,读取文本文件的内容解析,避免一直访问网站造成被ban,解析成功后再访问真实网站。
def readtxt(filename):
f = open(filename,"r") #设置文件对象,网页源码存成的文本文件
str = f.read()
f.close() #关闭文件
return str