【scrapy实战】---- 利用get方法爬取动态网站，将数据存入到postgresql中

最新推荐文章于 2021-04-19 10:29:33 发布

風中塵埃

最新推荐文章于 2021-04-19 10:29:33 发布

阅读量1.5k

点赞数 3

分类专栏： scrapy 文章标签：爬虫 postgresql scrapy python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/jcl314159/article/details/85700808

版权

scrapy 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

我以极客公园为例，爬取文章标题，作者名，文章摘要。

我们打开chrome中的开发者工具，然后我们重新加载一下网页，你可以看到文章标题需要你点加载更多才能出现，之后你会看到如下显示：

我们在General中的Request Method看到是GET，说明这个请求方法是GET方法，之后你会发现并没有post方法，所以用Splash似乎不行。再多点加载更多让文章出现得更多，你会发现Request URL的变化只有page的页数。换句话说就是：

第一页是：https://mainssl.geekpark.net/api/v2?page=1

第二页是：https://mainssl.geekpark.net/api/v2?page=2

第三页是：https://mainssl.geekpark.net/api/v2?page=3

..........................

第n页是： https://mainssl.geekpark.net/api/v2?page=n

之后我们打开其中一页，比如第一页：

你会看到网页是以json形式存储的，并且一个page存储20篇文章，但要注意文章是从0开始的。（之后我们写代码是这里会很重要）

打开其中一篇文章你可以看到：

这时候你可以看到文章的标题，摘要，作者名，id，发表时间等等。然后开始写代码了～～

在item.py中我们先定义item数据结构：

之后写爬虫：

打开终端输入scrapy crawl geekpark。爬虫就会运行成功。但是我们并没有将数据存入，之后我在postgresql中建一个关于爬虫数据相关的表。并在scrapy项目中的pipeline.py写下如下代码：

之后再运行一次爬虫就可以了。数据在postgresql中就存成这样了：

关注

3
点赞
踩
4

收藏

觉得还不错? 一键收藏
2
评论
【scrapy实战】---- 利用get方法爬取动态网站，将数据存入到postgresql中

我以极客公园为例，爬取文章标题，作者名，文章摘要。我们打开chrome中的开发者工具，然后我们重新加载一下网页，你可以看到文章标题需要你点加载更多才能出现，之后你会看到如下显示：我们在General中的Request Method看到是GET，说明这个请求方法是GET方法，之后你会发现并没有post方法，所以用Splash似乎不行。再多点加载更多让文章出现得更多，你会发现Reque...
复制链接

扫一扫

专栏目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。