淘宝众筹数据爬取（1）

最新推荐文章于 2020-11-07 11:58:21 发布

ryo007gnnu

最新推荐文章于 2020-11-07 11:58:21 发布

阅读量1.4k

点赞数 2

分类专栏：爬虫文章标签： python

本文链接：https://blog.csdn.net/ryo007gnnu/article/details/109175876

版权

爬虫专栏收录该内容

9 篇文章

订阅专栏

众筹是现阶段小微或初创企业比较重要的融资渠道之一，也获得了很多研究者的关注。然而众筹的研究需要获取众筹项目的大量数据，单靠手工录入数据确实比较让人讨厌，速度慢也比较啰嗦。前文中我们已经了解了静态网页的数据爬取流程，现在我们来看看众筹数据是如何获取的。
我们把目光放在了当前还能收集数据的淘宝众筹（现在改名叫造点新货），京东众筹现在正在维护改造，其他众筹网还没去关注，估计流程也差不多，就以淘宝众筹来进行学习练手吧。
打开淘宝众筹的页面，选择全部项目，地址为：造点新货首页
因为想观察项目的整个动态进展，我们的目标是获取项目的名称（后来才发现应该换成是项目编号，这妥妥是给自己挖了个坑）、达成率、支持人数、截止时间、已筹集金额和剩余时间。
按F12键，在Elements选项卡下，点击对应的标签，会在左边的页面里以灰蓝色方块覆盖的形式来表明标签所涉及的内容。
在这里插入图片描述
下面就要细心的去找每个项目对应的那一部分标签，点开左侧折叠的按钮，一步步搜索到对应项目的信息，这是个考验耐心的活（有的时候，它的内容不是在你认为的那个标签里，而是在下一层）。经过层层下翻，终于让我找到了这该死的地方。
在这里插入图片描述
对应的CSS代码如下：

在这点上我还是比较喜欢这个网站的，一次将所有的页面以列表形式全部列出来，正好可以一网打尽。
继续往下翻，找找每个项目想获得的信息都在哪。

是不是已经看到了想获取的信息以及信息都放在哪个标签里了？OK，我们开始搞事情了。
这次的页面太啰嗦，之前的正则匹配玩的又不是特别转，搞了几次都没弄到东西，索性换个简单的虽然很耗时，但至少能看到东西。我们要用的是selenium，没错，就是这个模拟浏览器浏览过程的玩意。
还是在notebook里，使用前要先安装selenium并安装浏览器驱动，这个过程请自行百度。

from selenium import webdriver
driver=webdriver.Chrome()
driver.get('https://izhongchou.taobao.com/list.htm?spm=a215p.1596646.0.0.4b2947dbsNHPfW#type=&page=1&status=&sort=')

看看是不是新弹出个窗口？
在这里插入图片描述
然后把美丽的汤端上来，对这个页面进行解析：

from bs4 import BeautifulSoup
html=driver.page_source
soup = BeautifulSoup(html, 'html.parser')

因为所有信息都在名为<li>的列表中，所以我们就找它的麻烦：

project=soup.find_all(name='li',class_ ='project-item')

然后就是在每一条里刨出我们想要的信息，并添加到列表：

k=[]
for li in project:
    title=li.find('span','project-intro').text  #标题
    dcl=li.find('span','every-info').em.text  #达成率
    ycje=li.find('span','every-info info-dollar').em.text  #已筹金额
    zcrs=li.find('span','every-info info-left').em.text  #支持人数
    k.append([title,dcl,ycje,zcrs])
k