Go语言的爬虫库不如Python强大,却也五脏俱全。
今天我们分析如何爬取起点中文网数据,以及遇到反爬如何处理。
作品链接:http://www.365yg.com/i6678092837810078222/#mid=1630225993665544
代码已开源:https://github.com/shanewni/datavisble
首先选择一款Go语言的爬虫框架,这里我选择的是GoQuery,GoQuery使用简单,语法简洁。对于有JQuery基础的同学非常友好,差不多一分钟上手。
有了框架之后,按照需求爬取相应信息,在这里不一一列举。
最主要的是遇到的问题以及解决方法:
1.需要爬取的网址会二次定向
解决方法:ht