爬虫
ryo007gnnu
这个作者很懒,什么都没留下…
展开
-
淘宝众筹数据爬取(3)
前文的讲述已经可以将一个页面上的所有项目的项目名称、已筹金额、达成率和支持人数提取出来,并且再通过进入单一页面的方式,将单个项目的上线时间和截止时间以及金额标的提取出来。由此,我们可以形成我们的提取逻辑,先是爬一个页面的项目信息,特别是要提取到项目的链接地址,然后由此可以将这个页面内的所有项目的详细信息提取出来,最后将信息进行组装和存储。因此需要用到双重循环,一个用于爬取多个页面,另一个用于爬取这一个页面内的每个项目页面。首先引入所有需要的模块,这里又增加了几个,很重要的一个是让浏览器等待的WebDriv原创 2020-11-07 11:58:21 · 570 阅读 · 0 评论 -
淘宝众筹数据爬取(2)
第一部分的写完了好多天,也没几个人浏览,看来确实是技术太低段,只能自己玩玩了。CSDN博客有个很讨厌的设置,博客分数太低的,不让自主设置标签,我离400分的大关还差300多分,太窘了,还麻烦各位看完给个赞或评论。上次说到爬取第一页的众筹项目信息,基本上已经拿到了大部分我们需要的内容,比如项目名称、已筹金额、达成率和支持人数。但针对做研究时,我们还希望能获取到项目的完全进展情况,比如了解每天的支持人数和金额情况,这个却是没有办法一次性搞定的(如果有大神知道,请赐教)。我的基本想法就很简单,那就每天定时收集一原创 2020-10-24 13:22:29 · 414 阅读 · 0 评论 -
淘宝众筹数据爬取(1)
众筹是现阶段小微或初创企业比较重要的融资渠道之一,也获得了很多研究者的关注。然而众筹的研究需要获取众筹项目的大量数据,单靠手工录入数据确实比较让人讨厌, 速度慢也比较啰嗦。前文中我们已经了解了静态网页的数据爬取流程,现在我们来看看众筹数据是如何获取的。我们把目光放在了当前还能收集数据的淘宝众筹(现在改名叫造点新货),京东众筹现在正在维护改造,其他众筹网还没去关注,估计流程也差不多,就以淘宝众筹来进行学习练手吧。打开淘宝众筹的页面,选择全部项目,地址为:造点新货首页因为想观察项目的整个动态进展,我们的目原创 2020-10-20 11:15:25 · 1354 阅读 · 0 评论 -
词频统计和词云绘制
在前面我们已经提取了很多篇文章的内容,现在我们要对这些内容进行文本的词频统计和词云绘制,以观察热点内容。在前文中,提取出的文本里有许多不需要的字符,比如列表的符号,因为是以列表的形式进行提取和存储的。将列表转换为字符串,可以使用’’.join()方法,大家可以自行处理一下,这里不再赘述。词频统计的基本思路是将文本中所有的内容先进行分词,然后再进行停用词去除,停用词就是那些没有意义的词语,比如“的”,“那么”,“如果”等等。由于在结果中发现分词的结果还是存在很多不需要的词,因此先对它们进行了清洗。这里,我原创 2020-10-14 11:00:16 · 1982 阅读 · 2 评论 -
静态网页爬虫教程(5)带翻页的多篇文章内容提取和保存
这是我们静态页面爬取的最后一篇了,主要针对的问题是翻页爬取。原创 2020-10-12 20:05:12 · 1872 阅读 · 3 评论 -
静态网页爬虫教程(4)同一页面多篇文章内容提取和保存
前面的文章中,我们已经成功的完成了对一篇文章的内容提取和保存。现在新的问题又来了,之前我们提取过的超链接有那么多,标题也有不少,怎么能只提取一篇文章而放弃一堆呢?别急,下面我们就开始说说多篇文章的内容提取和保存。聪明的朋友肯定早就猜到了,接下来我们要做的就是循环,话不多说,开始折腾。 for k in range(len(reh)): urlt=reh[k] req=requests.get(urlt)原创 2020-10-12 10:35:27 · 648 阅读 · 0 评论 -
静态网页爬虫教程(3)文本的提取和保存
前面我们已经把文章的标题和超链接都提取出来了,看上去我们已经有能力把这些文章的内容全部提取出来了。但路要一步一步走,饭要一口一口吃,我们还是先来看一篇文章的内容是怎么提取和保存的吧。...原创 2020-10-12 09:28:00 · 751 阅读 · 0 评论 -
静态网页爬虫教程(2)链接和标题的提取
初战告捷,我们继续下一步,来获取网页中的标题和超链接。观察一下,第一篇文章是这样的:这篇文章的标题和超链接信息在我们返回的文本中是这样的:上面的表示是超链接的内容,而下面的则是表示是标题大小为4号字体 ,注意它们的标签。这个网站比较简单,它的文章标题直接用"<h4>“括起来了,所以直接用”<h4>"就可以搜索到所有标题;但链接就不行,因为<a>出现的地方比较多,不是所有的链接都是我们需要的,所以要另外处理。从返回的文本中提取内容可以使用正则表达式,需要引入r原创 2020-10-11 10:24:21 · 2937 阅读 · 0 评论 -
静态网页爬虫教程(1)页面的获取
最近想看看绿色金融方面的内容,也不知道搞啥,先在网上找找信息,于是把目标瞄上了新华财经——中国金融信息网。找到了其中的绿色金融的版块。发现上面的文章都是静态页面构成的,可以先把所有的页面信息爬取下来,然后再慢慢看。由于学得不是很扎实,就用最初级的方式,一步一步操作,以求能看懂。请求网页的方式主要是两种,一种是get方式,一种是post方式。post方式通常需要填写表单,用户需要填入相关信息提交后才能返回响应页面;而get方式不需要填写信息,可以直接获得对应页面。本文就从get方式说起。不论哪种方式,都原创 2020-10-11 09:39:11 · 728 阅读 · 0 评论