淘宝众筹数据爬取(2)

本文讲述了如何使用Python的Selenium和BeautifulSoup库爬取众筹项目的上线时间、截止时间和目标金额。通过当前时间减去剩余时间估算上线日期,并展示了具体代码实现。接下来将探讨大规模爬取和数据处理的问题。
摘要由CSDN通过智能技术生成

第一部分的写完了好多天,也没几个人浏览,看来确实是技术太低段,只能自己玩玩了。CSDN博客有个很讨厌的设置,博客分数太低的,不让自主设置标签,我离400分的大关还差300多分,太窘了,还麻烦各位看完给个赞或评论。
上次说到爬取第一页的众筹项目信息,基本上已经拿到了大部分我们需要的内容,比如项目名称、已筹金额、达成率和支持人数。但针对做研究时,我们还希望能获取到项目的完全进展情况,比如了解每天的支持人数和金额情况,这个却是没有办法一次性搞定的(如果有大神知道,请赐教)。我的基本想法就很简单,那就每天定时收集一次信息,最后做一次数据处理就好了,不就可以知道每天的支持人数和金额变化情况了吗?于是,我就需要获得项目的上线时间和截止时间,以及金额标的。截止时间和金额标的在每个项目的页面详情中都有,但上线时间这个东西真的没地方能看得到,不过好在详情中提供了个剩余时间,我们可以用当前时间减去剩余时间,大致推算出项目的筹款时间和上线时间。
话不多说,还是来看看项目详情页面里,怎么刨出这些信息吧(剩余时间,截止时间,筹款金额)。还是按F12,我们看看在这个页面里,这些信息都在什么地方。
在这里插入图片描述
经过不懈的努力,终于让我找到了:
在这里插入图片描述
我们随便拿到一个项目页面测试一下:

from selenium import webdriver
from bs4 import BeautifulSoup
driver=webdriver.Chrome()
driver1=webdriver.Chrome()
driver1.get('https:'+'//izhongchou.taobao.com/dreamdetail.htm?id=20094424')
html=driver1.page_source
soup=BeautifulSoup(html,'html.parser')
jzsj=soup.find('p','target-money').text[6:16]
sysj=driver1.find_elements_by_class_name('data-number')[1].text
xmbd=soup.find('p','target-money').em.text
print(jzsj,sysj,xmbd)

在这里插入图片描述
貌似结果还凑合。如此一来,单个项目的上线时间、截止时间和项目标的问题就解决了,剩下的就是大规模爬取的问题了。这个部分我就放在(3)里再继续说吧。看完记得给个赞哦。

  • 4
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值