结合北理工嵩天老师的公开课(链接:https://www.icourse163.org/course/BIT-1001870001?tid=1206093223 或者 https://www.bilibili.com/video/BV1nE411i7nv?p=64),基本了解了爬虫的两条路线做定向爬虫。
备注:由于网页开发者的持续更新,课程中的一些例子已经不能再使用了,但仍然不失为很好的参考,在看视频学习的同时可以参考hxxjxw整理的课件,会更方便, 给出课件的链接:https://i.csdn.net/#/uc/collection-list,感谢原创hxxjxw!
request-bs4-re 和 request - bs4 - scrapy 还不能对表单提取、爬虫周期、入库存储操作。
老师给出的技术路线展望是:建议 在以上两个的基础上去学习 PhantomJS (可以解析java scrip)
到https://pypi.python.org 进一步学习scrapy-*开头的文件
一下简单罗列截取的几个文件,以备后续学习方向参考查阅
在此,感谢北理工嵩天老师!
“君子曰:学不可以已。积土成山,风雨兴焉。”---- 荀子《劝学》
共勉之!