拼多多数据采集

-------------------------分割线------------------------------------------------

2020.12.09更新
因为拼多多反爬升级,之前的方案已废弃。若有新的方案,会在博客这边更新消息o(╥﹏╥)o

-----------------------------------------------------------------------------------

千辛万苦,总算把新的拼多多采集方案弄出来了,回想起几个月的尝试和摸索,真心觉得不容易。

前期尝试的方案包括但不限于:

1、H5,PDDAccessToken+anticontent


这个方案很明显,需要处理两个问题:

1)账号问题

你采集的量越大,需要的账号数就越多。因为采集到一定的数量,拼多多会对你的账号进行标记,标记之后,会进行投毒或验证码拦截。

2)anticontent参数破解

网络上有很多文章详细聊到,这里就不赘述了。

方案最后还是被我放弃了,因为要满足公司的业务需求,需要用到太多账号。

2、APP,accessToken

这里的accessToken是通过APP登录来换取的,包括手机号,微信,QQ号登录。

通过调用API接口进行,APP端的请求量是要比H5端要多的。但和H5一样,还是避免不了账号因为请求量过高而被限制的问题。

方案依旧被pass掉了。

3、APP,Etag+4G IP代理池

大家仔细观察拼多多的APP,在你刚开始使用APP的时候,你是不需要进行登录就能浏览商品的详情页的。只是这些访问动作如果稍加频繁,就会被拼多多进行登录拦截。经过测试,只要是新设备+新IP,就能不被拼多多限制(在一定访问次数内)。

设想,如果你有足够多的设备+IP,是不是就能达到无账号采集数据的目的。

这里提一下IP的问题。用4G 代理IP是因为IP质量,不容易被拼多多拦截。市面上的大部分代理,用来采集基本没戏。

经过攻关,拼多多对某一个设备的识别依赖于Etag这个参数,如果能批量生成这个参数,那么采集就有希望了。

可惜的是,在攻克了Etag批量生成的问题之后,发现这些生成的Etag是获取不了数据的。想来应该是Etag的生成方式有纰漏,被拼多多识别出了。

这个方案花费的时间最多,但最后还是放弃了。

在攻克拼多多采集的过程中,尝试的方法其实远不止上面的这几种,但回过头来看,要想大批量的持续采集,必须避免两个问题:

A.账号登录
B.代理IP限制

账号登录,那请求头带上登录的token,拼多多在后端就太容易对你账号进行风控了。所以,无账号方案是必须的。

代理IP市面上有大量的第三方服务方提供,如果不能使用这些IP,自行搭建代理池,搭建和维护的成本就会挺高,而且还不能保证质量。


当然最后经过攻关,我自己还是找到了解决方案,这里给大家透露,方案的采集端是H5,无需登录,可以结合代理IP(芝麻,极光,阿布云 etc.)进行大量采集,采集成本还是比较低的。
我自己测试的,一天采集50w的商品详情,代理消耗的成本大约在30元左右,还算是可以接受的范围。

以上,谢谢自己的坚持,也谢谢同行路上好基友们给的支持。

  • 12
    点赞
  • 30
    收藏
    觉得还不错? 一键收藏
  • 63
    评论
Python采集多多数据的教程可以分为以下几个步骤: 1. 网页爬取:使用Python的爬虫库(例如BeautifulSoup、Scrapy等)对多多网页进行爬取。可以通过模拟浏览器发送请求,获取网页内容,并解析出所需要的数据。 2. 构造URL:多多的商品数据通过API进行获取,因此需要构造合适的URL来获取所需数据。根据API文档,可以获取到商品的基本信息、价格、销量等数据。 3. 发送请求:使用Python的requests库,将构造好的URL发送给服务器,并获取返回的数据。通常会使用GET请求来获取数据。 4. 解析数据:对返回的数据进行解析,提取出需要的字段信息。可以使用Python的json库和字符串截取等方法来解析数据,将其转换为Python的数据结构,方便后续的数据处理和分析。 5. 数据存储:将解析出来的数据存储起来,可以选择存储到数据库中(如MySQL、MongoDB等),也可以存储为Excel、CSV等文件格式,以备之后的使用。 6. 循环爬取:可以通过循环遍历不同的页面或者不同的商品分类来获取更多的数据。同时要注意设置合适的爬取频率,防止对服务器造成过大的负担。 总的来说,Python采集多多数据的教程需要具备一定的Python编程基础,熟悉爬虫相关的库和模块,同时还需要对多多的API和数据结构有一定的了解。通过以上步骤,可以较为简单地实现对多多数据的爬取和处理。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 63
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值