和同事聊天,他跟我说,国庆他就使用爬虫爬了一点小说,死宅.
我顺口说了一句,用什么语言爬的? 他疑惑的问我: 爬虫不都是python来写吗? 还有其他的嘛?
然后就有感而发了:
WebMagic :
https://github.com/code4craft/webmagic/blob/master/README-zh.md
比较知名的一个项目了.
其他参考资料:
https://www.cnblogs.com/yangchaojie/p/9203876.html
爬虫无论怎么变,底层的原理,个人感觉都是类似的:
1.Request 请求网页,获取网页.
2.解析Page
3.正则获取需要的数据
4.递归Request还是终结?
5.数据持久化.