使用python异步爬取淘宝大量商品的价格，并生成excel文件_python抓取淘宝商品信息导出excel(1)

最新推荐文章于 2024-09-27 16:58:32 发布

2401_85013415

最新推荐文章于 2024-09-27 16:58:32 发布

阅读量345

点赞数 4

分类专栏：程序员文章标签：物联网嵌入式硬件学习

本文链接：https://blog.csdn.net/2401_85013415/article/details/138879983

版权

程序员专栏收录该内容

17 篇文章 0 订阅

订阅专栏

收集整理了一份《2024年最新物联网嵌入式全套学习资料》，初衷也很简单，就是希望能够帮助到想自学提升的朋友。

如果你需要这些资料，可以戳这里获取

一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人

都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！

在编写代码之前，我们需要先获得user-agent和cookie。先打开浏览器访问淘宝网，然后按 f12 进入开发者模式，如果什么也没有就按 f5 刷新一下，
在这里插入图片描述
点击后，会看到cookie，再往下会看到user-agent。
把他们复制下来，没有cookie和user-agent爬虫就无法爬取信息。

import aiohttp
import re
import asyncio
sem=asyncio.Semaphore(10)#信号量，控制协程数，防止爬的过快
header={"user-agent":"","Cookie":''}#header字典的value为刚刚复制的的user-agent和cookie

async def getExcel(url,header):
    async with sem:
        async with aiohttp.ClientSession() as session:
            async with session.request('GET',url,headers=header) as result:
                try:
                    info=[]#定义一个列表，用于存储商品名称和价格
                    text=await result.text()#异步获得页面信息
                    GoodsNames=re.findall(r'\"raw\_title\"\:\".\*?\"',text)#使用正则表达式获取页面的商品名
                    GoodsPrices=re.findall(r'\"view\_price\"\:\"[\d\.]\*\"',text)#使用正则表达式获取页面商品的价格
                    #将该页面的商品名称和价格保存到info列表中
                    for i in range(len(GoodsNames)):
                        try:
                            GoodsName=eval(GoodsNames[i].split(':')[1])
                            GoodsPrice=eval(GoodsPrices[i].split(':')[1])
                            info.append([GoodsName,GoodsPrice])
                        except:
                            info.append(['',''])
                except:
                    pass
                #将保存有商品信息的info列表写入csv文件，注意文件的打开模式一定要为'a'，否则下一页面输入文件的新内容将覆盖本页面输入文件的内容。
                f=open('goods\_info.csv','a',encoding='utf-8')
                for every in info:
                    f.write(','.join(every)+'\n')
        

def main(header):
    goods=input('请输入想检索的商品:')
    num=eval(input('请输入想检索的页面数:'))
    start_url='https://s.taobao.com/search?q=' + goods
    url_lst=[]
    #生成要爬取的多个页面的url列表
    for i in range(num):
        url_lst.append(start_url+'&s='+str(44\*i)) 
    loop=asyncio.get_event_loop()#获取事件循环
    tasks=[getExcel(url,header) for url in url_lst]#生成任务列表
    loop.run_until_complete(asyncio.wait(tasks))#激活协程

if __name__=='\_\_main\_\_':
    main(header)