scrapy由浅入深(一)爬取CSDN论坛

最新推荐文章于 2022-12-06 12:33:48 发布

学习真的很有用

最新推荐文章于 2022-12-06 12:33:48 发布

阅读量780

点赞数

分类专栏： python爬虫文章标签： python 爬虫爬虫项目数据抽取爬虫数据存储

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/WanYu_Lss/article/details/82794085

版权

对scrapy框架的学习也有了一段时间，所以准备爬取一些网站的信息来检测一下scrapy的学习成果。由浅入深，从较规律的网站开始爬取，再爬取不规则的网站，以及ajax动态页面。

今天先从较简单的CSDN的python论坛爬取，之所以说这个比较简单是因为CSDN的论坛不是动态的页面，而且网站的url非常有规律可询，并不需要使用selenium模拟或者抽取下一页的网址。因此这里可以偷懒直接请求每一页的url。

代码思路：1.因为论坛的url非常有规律，https://bbs.csdn.net/forums/OL_Script/closed?page=1，网站不同的页数都是由page来决定的，这样我们就可以直接生成每一页的url然后依次请求。2.通过生成的网址请求每一页，并从每一页的代码中抽取出问题对应的url。3.依次请求抽取出来的url，也就是问题的详情页面，通过xpath或css选择器抽取出来我们想要的数据。4.将爬取到的数据保存到sqlite(MySQL)数据库。

一.创建项目

scrapy startproject CSDNforum

创建一个名称为CSDNforum的项目

scrapy gensoider csdn_forum "https://bbs.csdn.net/forums/OL_Script/closed?page=1"

在项目的spiders文件中创建一个csdn_forum.py的文件，实现爬虫的主要的数据抽取的功能

二.配置项目

(1)编写items文件

最低0.47元/天解锁文章

学习真的很有用

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
scrapy由浅入深(一)爬取CSDN论坛

对scrapy框架的学习也有了一段时间，所以准备爬取一些网站的信息来检测一下scrapy的学习成果。由浅入深，从较规律的网站开始爬取，再爬取不规则的网站，以及ajax动态页面。今天先从较简单的CSDN的python论坛爬取，之所以说这个比较简单是因为CSDN的论坛不是动态的页面，而且网站的url非常有规律可询，并不需要使用selenium模拟或者抽取下一页的网...
复制链接

扫一扫

专栏目录

学习真的很有用

博客等级

码龄7年

23
原创

65
点赞

189
收藏

39
粉丝

关注

私信

热门文章

分类专栏

python爬虫 14篇
机器学习 3篇

最新评论

scrapy解决selenium中无法点击Element：ElementClickInterceptedException
CPS1016347441: 意思是有其他的元素掩盖了需要点击的元素，但是我并没有在网页上找到第二个下一页的链接---------你那个元素应该是一开始就不可点击吧，主要是前端没有设置好属性，如果设置了元素的属性是可以点击的，那么你用普通的click()是没问题的。既然不能通过selenium的click() ,大家就用一段js前端代码去执行点击，self.browser.execute_script("arguments[0].click();", pages)。
scrapy解决selenium中无法点击Element：ElementClickInterceptedException
CPS1016347441: driver.execute_script("arguments[0].click();", element) 其中arguments[0] 就是element的占位符，这应该是一段js代码，可以拿来到浏览器上跑得，
对Django学习阶段的总结
Tisfy: 辛苦辛苦
scrapy解决selenium中无法点击Element：ElementClickInterceptedException
无名小张233: 解决了，感谢！
Django REST Framework序列化外键获取外键的值
self-discipline.: 很不错。但是对于多对多的情况，怎么得到序列化之后除id外的字段呢？

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。