hi all:
上一篇博客中写的代码有一些问题。
问题一:beautifulsoup运行时占用内存直线上升的问题。
运行时内存占用严重经过我后来的分析,问题主要产生在re_goodsname = last_list[0].string
这行代码上,只要将.string改成.text即可。原因是re_goodsname = last_list[0].string
类型是beautisoup的自定义类型,而re_goodsname = last_list[0].text
类型是unicode类型(具体产生的原因实在没整明白,可能是因为python自身问题导致beautifulsoup在大量运行自定义类型时,回收机制有问题吧),附上类型截图
问题二:xlwt库保存的excel文件问题
xlwt保存的文件是xls文件,该类型文件在03版excel中只能支持65536行,这对于需要大量使用excel存储数据的时候会报错(具体错误我没有记录,因为在运行较本前我想到了这个问题)。这时,需要将文件保存为xlsx格式。然而,我通过百度并未发现xlwt可以保存为xlsx格式的证据,所以,我更换了我使用的库。我将xlwt改为openpyxl,然后对excel进行操作。当然,过程也并不是一帆风顺的,在此也出现了一个小问题,openpyxl.append()用来对excel文件进行写操作,是直接写在第一行的(例子:a1单元格,a2单元格,a3单元格 写后变为 asdf,aseww,ljjh),如果需要按行写(例子:a1单元格 ,b1单元格,c1单元格 写后变为qwer,qwerasdf,dfg),对于我们将要写入的可迭代对象进行处理,以list为例,openpyxl.append(list)将会写入成”a1单元格,a2单元格,a3单元格”格式,我们如果想写入成“a1单元格 ,b1单元格,c1单元格”格式,需要对传入的list进行处理。name = list(zip(name,name) openpyxl.append(name)
。
问题三:def中返回值的问题。
def getHTMLText(url):
try:
user_agent = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64)' \
'AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36' #模拟浏览器登陆
headers = {'User-Agent': user_agent}
r = requests.get(url, headers = headers)
r.raise_for_status()
r.encoding = r.apparent_encoding
return r.text
except:
print('wenti')
return ''
这是我定义的函数,目的是尝试着伪造浏览器请求头,下载被请求页面的html。请注意最后一行的return ''
,如果没有这一行,getHTMLText函数将会在try不成功时只返回‘wenti’,假如下面我们调用了getHTMLText函数,在try出现问题时,except只是print‘wenti’,getHTMLText函数并没有返回任何东西,执行结果是NONE,调用时的代码会报错,只要加上return ”,getHTMLText函数才有了返回结果,只不过结果是‘空’,调用时的代码只要对‘空’返回结果做处理即可。
问题四:新学会了一个列表解压的东东from compiler.ast import flatten
flatten挺好用的,可以将多维列表解压成一维列表,代码与执行结果如下`from compiler.ast import flatten
a = [[1,2],[‘a’,’d’],[‘1a’,’3s’]]
a = flatten(a)
print(a)`
好的,今天的问题就总结到这里,欢迎大家一起学习交流python更多问题,我是胖超人。
chubby superman salutes you