main函数是如何决定爬取哪个页面?
例如下图,execute函数中有3个参数,第三个元素决定着不同的网页
需要注意的是,第三个元素是.py文件中class的name属性,而不是文件名:
Scrapy爬虫返回403错误
原因很有可能是获取robots没有获取到,推荐一种解决办法:
https://blog.csdn.net/qq_31239371/article/details/82999392
推荐一些学习资料
基础知识:
https://www.w3school.com.cn/css/css_syntax_attribute_selector.asp
css选择器的练习题:
https://www.nowcoder.com/search?type=question&query=css%E9%80%89%E6%8B%A9%E5%99%A8
如何获得静态css&xpath路径(快速入门的办法)
xpath:右击元素选择copy—>copy xpath即可获得xpath路径
css:1.安装chropath插件(谷歌浏览器的商店里可以找到),右击元素选择copy—>copy selector
2.通过快捷键Fn+F12进入开发者模式,步骤如下图:
//*[@id=""]和//div[@class=""]的区别:
一般一个网页不设二个或二个以上同id的div,但class可以多个div用同一个class标签。
参考:https://my.oschina.net/wangsifangyuan/blog/687308?utm_medium=referral