参考博文:https://studygolang.com/articles/5658
刚刚接触golang不久,感觉各种的不熟悉,就想着用golang练习点东西,在完成websocket的交互后看到golang是可以用来进行爬虫的,之前一直学的C和linux对爬虫一点都不熟悉,特意去百度了下,然后看了一些别人的例子,发现爬虫的核心思想就是把HTML页面的代码下载来下然后按一定的格式去分析提取自己感兴趣的资料。因为自己有变过HTML界面,所有对HTML还是有一定了解的,话不多说,直接开干,安装我自己的学习方式,直接百度下别人golang写的爬虫来模仿吧。然后把别人的代码全部复制下来一行行的去解读,好吧,其实还是蛮简单的,就是用正则提出干兴趣的部分嘛。好吧,正则不会,直接百度。。。
经过各种百度,感觉自己差不多了
先把CSDN的博文首页爬一爬,fmt的时候发现没有内容,是哪里错了? 继续百度,菜发现还要模拟提交header,好吧,继续百度,知道了怎么加入header,然后F12把首页的header复制出来, 大功告成,完整的把HTML代码下了下来,CMD打印出来的部分有限时,没关系,创个txt文件,down下来的时候直接保存在txt中方便分析,有了完整的html代码,F12浏览器结合直接看自己兴趣的部分,然后用正则吧,不熟悉怎么办,慢慢试,顺便练习怎么用正则嘛,然后大功告成了
package main
import (
"fmt"
"io/ioutil"
"net/http"
"os"
"regexp"
)
var
accept =
"text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8"
var
acceptEncoding =
"gzip, deflate"
var
acceptLanguage =
"zh-CN,zh;q=0.9"
var</