前几天看到一个NET Core写成的爬虫,有些莫名的小兴奋,之前一直用集搜客去爬拉勾 的招聘信息,这个傻瓜化工具相当于用HTML模板页去标记DOM节点,然后在浏览器窗口上模拟人的浏览行为同时跟踪节点信息。它有很多好处,但缺点也明显:抓取速度慢;数据清洗和转储麻烦;只知其过程,不知其原理,网站改了模板或者要爬取别的站,重现效率反而不如自己写个程序。