python+爬虫+淘宝+pyppetter自动登录

1:爬取淘宝详情页在这里插入图片描述
以上为需要爬取的数据
2:我们先进入口连接’https://lp930428.taobao.com/i/asynSearch.htm?mid=w-21751133153-0&orderType=newOn_desc&pageNo={}‘这里的’{}‘是页数
在这里插入图片描述
这里是物品列表,如果要获取详情页就需要获取每件物品的唯一id
这里我用的是正则,因为里面的内容是转型的xpath无法解析
在这里插入图片描述
获取的结果
在这里插入图片描述
这样我们就轻易获取到连接id和商品名称
3:进入到详情页拼接连接‘https://item.taobao.com/item.htm?id={}’
在这里插入图片描述
4:然后我们找到这些数据都在什么地方
(1)人气和图片
在这里插入图片描述
‘https://count.taobao.com/counter3_ksTS=1583653978651_103&callback=jsonp104&inc=ICVT_7_604330170662&sign=34126b5625a1eb42e970284866041441d3ced&keys=DFX_200_1_604330170662,ICVT_7_604330170662,ICCP_1_604330170662,SCCP_2_101463431’
其中我们sign可以在网页源码中找到的
这个图片是补充的
源码中找到第二张图片连接
在这里插入图片描述
可以组合为‘“https://count.taobao.com/counter3?callback=jsonp145&inc=ICVT_7_{}&sign={}&keys=DFX_200_1_{},ICVT_7_{},ICCP_1_{},SCCP_2_101463431”.format(data_id, sign_id, data_id, data_id, data_id)’这个url就完成了
(2)价格和交易量
拼接的连接(“https://detailskip.taobao.com/service/getData/1/p1/item/detail/sib.htm?itemId={}&modules=dynStock,qrcode,viewer,price,duty,xmpPromotion,delivery,activity,fqg,zjys,couponActivity,soldQuantity,page,originalPrice,tradeContract”.format(data_id))
在这里插入图片描述
在这里插入图片描述
这个连接访问必须要认证成功的cookie才能请求到数据
(3)累计评论
累计评论可以在两个地方找到
在这里插入图片描述
在这里插入图片描述
这里选择第二个这个可以不需要cookie就能请求
“https://rate.taobao.com/detailCommon.htm?auctionNumId=%s” % (data_id)
这几个数据基本都找到了只要注意’Referer’就可以请求出来了,当然cookie也是
很重要的。
5:然后是翻页问题了
‘str(r_text.split(‘J_SearchAsync’)[-1].split(’’)[0]).find(“下一页”)'直接判断有没有下一页就行了
6:解决cookie问题
现在我们可以跑代码了
在这里插入图片描述
跑出的结果大概是这样的评论数和人气都可以,但是上新价和交易量如果速度过快的话无法跑出来,上新价可以从其他接口获取但是交易量不行所以我们要解决淘宝自动登录问题了
(1):使用pyppeteer解决登录问题,安装就不谈了,这里讲一下无痕浏览器和普通浏览器,pyppeteer工具本身和普通浏览器一样有用户的储存
在这里插入图片描述
所以每次启动浏览器就会自动加载cookie,如果我们要获取cookie池就会出现下面的
账号密码出错了也会出现cookie的情况,所以我们选用无痕的模式
在这里插入图片描述
无痕模式边框是黑的,进入之后没有任何cookie
在这里插入图片描述
(2):使用无痕模式登陆简单要比普通的稳定一点(普通浏览器一个登录页面刷出来三种情况)
如果账号被封就会出现滑块问题,再严重一点就是下面的情况了或者短信

在这里插入图片描述
(3):滑块验证
如果爬取过多的数据会出现滑块验证,这个资源比较多了也不难(https://www.cnblogs.com/zhang-zi-yi/p/10820813.html
还有变速滑块的内容(https://www.jianshu.com/p/c6f9f18270ce)
淘宝滑块页面加载会出现选不中滑块的情况。因为滑块是加载在子页面上的要先选中再滑动。
在这里插入图片描述
(4):然后就是建cookie池,自己看着跑了
(5):github地址(https://github.com/PlanWMan/leopard/tree/taobao/taobao)

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值