爬虫爬取京东部分需要的数据，遇到的一些问题总结

最新推荐文章于 2024-05-13 17:48:00 发布

胖超人

最新推荐文章于 2024-05-13 17:48:00 发布

阅读量7.1k

点赞数

分类专栏：爬虫 flatten beautifulsoup xlwt openpyxl.append

本文链接：https://blog.csdn.net/qq_37532151/article/details/81701103

版权

爬虫同时被 3 个专栏收录

5 篇文章 0 订阅

订阅专栏

beautifulsoup

3 篇文章 0 订阅

订阅专栏

flatten

2 篇文章 0 订阅

订阅专栏

hi all：
上一篇博客中写的代码有一些问题。
问题一：beautifulsoup运行时占用内存直线上升的问题。
运行时内存占用严重经过我后来的分析，问题主要产生在re_goodsname = last_list[0].string这行代码上，只要将.string改成.text即可。原因是re_goodsname = last_list[0].string类型是beautisoup的自定义类型，而re_goodsname = last_list[0].text类型是unicode类型（具体产生的原因实在没整明白，可能是因为python自身问题导致beautifulsoup在大量运行自定义类型时，回收机制有问题吧），附上类型截图这里写图片描述
问题二：xlwt库保存的excel文件问题
xlwt保存的文件是xls文件，该类型文件在03版excel中只能支持65536行，这对于需要大量使用excel存储数据的时候会报错（具体错误我没有记录，因为在运行较本前我想到了这个问题）。这时，需要将文件保存为xlsx格式。然而，我通过百度并未发现xlwt可以保存为xlsx格式的证据，所以，我更换了我使用的库。我将xlwt改为openpyxl，然后对excel进行操作。当然，过程也并不是一帆风顺的，在此也出现了一个小问题，openpyxl.append（）用来对excel文件进行写操作，是直接写在第一行的（例子：a1单元格，a2单元格，a3单元格写后变为 asdf，aseww，ljjh），如果需要按行写（例子：a1单元格，b1单元格，c1单元格写后变为qwer，qwerasdf，dfg），对于我们将要写入的可迭代对象进行处理，以list为例，openpyxl.append(list)将会写入成”a1单元格，a2单元格，a3单元格”格式，我们如果想写入成“a1单元格，b1单元格，c1单元格”格式，需要对传入的list进行处理。name = list(zip(name,name) openpyxl.append(name)。
问题三：def中返回值的问题。

def getHTMLText(url):
    try:
        user_agent = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64)' \
                     'AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36' #模拟浏览器登陆
        headers = {'User-Agent': user_agent}
        r = requests.get(url, headers = headers)
        r.raise_for_status()
        r.encoding = r.apparent_encoding
        return r.text
    except:
        print('wenti')
        return ''

这是我定义的函数，目的是尝试着伪造浏览器请求头，下载被请求页面的html。请注意最后一行的return ''，如果没有这一行，getHTMLText函数将会在try不成功时只返回‘wenti’，假如下面我们调用了getHTMLText函数，在try出现问题时，except只是print‘wenti’，getHTMLText函数并没有返回任何东西，执行结果是NONE，调用时的代码会报错，只要加上return ”，getHTMLText函数才有了返回结果，只不过结果是‘空’，调用时的代码只要对‘空’返回结果做处理即可。
问题四：新学会了一个列表解压的东东from compiler.ast import flatten
flatten挺好用的，可以将多维列表解压成一维列表，代码与执行结果如下`from compiler.ast import flatten

a = [[1,2],[‘a’,’d’],[‘1a’,’3s’]]
a = flatten(a)
print(a)`
这里写图片描述

好的，今天的问题就总结到这里，欢迎大家一起学习交流python更多问题，我是胖超人。

                                    chubby superman salutes you

胖超人

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
2
评论
爬虫爬取京东部分需要的数据，遇到的一些问题总结

hi all：上一篇博客中写的代码有一些问题。问题一：beautifulsoup运行时占用内存直线上升的问题。运行时内存占用严重经过我后来的分析，问题主要产生在re_goodsname = last_list[0].string这行代码上，只要将.string改成.text即可。原因是re_goodsname = last_list[0].string类型是beautisoup的自定义...
复制链接

扫一扫

专栏目录