淘宝众筹数据爬取（2）

最新推荐文章于 2022-10-09 16:51:02 发布

ryo007gnnu

最新推荐文章于 2022-10-09 16:51:02 发布

阅读量479

点赞数 5

分类专栏：爬虫文章标签： 1024程序员节 python 爬虫

本文链接：https://blog.csdn.net/ryo007gnnu/article/details/109257608

版权

爬虫专栏收录该内容

9 篇文章

订阅专栏

本文讲述了如何使用Python的Selenium和BeautifulSoup库爬取众筹项目的上线时间、截止时间和目标金额。通过当前时间减去剩余时间估算上线日期，并展示了具体代码实现。接下来将探讨大规模爬取和数据处理的问题。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

第一部分的写完了好多天，也没几个人浏览，看来确实是技术太低段，只能自己玩玩了。CSDN博客有个很讨厌的设置，博客分数太低的，不让自主设置标签，我离400分的大关还差300多分，太窘了，还麻烦各位看完给个赞或评论。
上次说到爬取第一页的众筹项目信息，基本上已经拿到了大部分我们需要的内容，比如项目名称、已筹金额、达成率和支持人数。但针对做研究时，我们还希望能获取到项目的完全进展情况，比如了解每天的支持人数和金额情况，这个却是没有办法一次性搞定的（如果有大神知道，请赐教）。我的基本想法就很简单，那就每天定时收集一次信息，最后做一次数据处理就好了，不就可以知道每天的支持人数和金额变化情况了吗？于是，我就需要获得项目的上线时间和截止时间，以及金额标的。截止时间和金额标的在每个项目的页面详情中都有，但上线时间这个东西真的没地方能看得到，不过好在详情中提供了个剩余时间，我们可以用当前时间减去剩余时间，大致推算出项目的筹款时间和上线时间。
话不多说，还是来看看项目详情页面里，怎么刨出这些信息吧（剩余时间，截止时间，筹款金额）。还是按F12，我们看看在这个页面里，这些信息都在什么地方。
在这里插入图片描述
经过不懈的努力，终于让我找到了：

我们随便拿到一个项目页面测试一下：

from selenium import webdriver
from bs4 import BeautifulSoup
driver=webdriver.Chrome()
driver1=webdriver.Chrome()
driver1.get('https:'+'//izhongchou.taobao.com/dreamdetail.htm?id=20094424')
html=driver1.page_source
soup=BeautifulSoup(html,'html.parser')
jzsj=soup.find('p','target-money').text[6:16]
sysj=driver1.find_elements_by_class_name('data-number')[1].text
xmbd=soup.find('p','target-money').em.text
print(jzsj,sysj,xmbd)