golang爬虫练习感悟

本文记录了一位Golang新手尝试编写爬虫的心得体会。从不熟悉Golang到模仿他人代码,逐步理解爬虫的工作原理,通过百度学习正则表达式,最终成功抓取并分析CSDN博文首页的HTML内容。过程中遇到了如何添加HTTP Header的问题,通过不断研究和实践得以解决。
摘要由CSDN通过智能技术生成

参考博文:https://studygolang.com/articles/5658

刚刚接触golang不久,感觉各种的不熟悉,就想着用golang练习点东西,在完成websocket的交互后看到golang是可以用来进行爬虫的,之前一直学的C和linux对爬虫一点都不熟悉,特意去百度了下,然后看了一些别人的例子,发现爬虫的核心思想就是把HTML页面的代码下载来下然后按一定的格式去分析提取自己感兴趣的资料。因为自己有变过HTML界面,所有对HTML还是有一定了解的,话不多说,直接开干,安装我自己的学习方式,直接百度下别人golang写的爬虫来模仿吧。然后把别人的代码全部复制下来一行行的去解读,好吧,其实还是蛮简单的,就是用正则提出干兴趣的部分嘛。好吧,正则不会,直接百度。。。

经过各种百度,感觉自己差不多了

先把CSDN的博文首页爬一爬,fmt的时候发现没有内容,是哪里错了?  继续百度,菜发现还要模拟提交header,好吧,继续百度,知道了怎么加入header,然后F12把首页的header复制出来, 大功告成,完整的把HTML代码下了下来,CMD打印出来的部分有限时,没关系,创个txt文件,down下来的时候直接保存在txt中方便分析,有了完整的html代码,F12浏览器结合直接看自己兴趣的部分,然后用正则吧,不熟悉怎么办,慢慢试,顺便练习怎么用正则嘛,然后大功告成了

package main

import (
     "fmt"
     "io/ioutil"
     "net/http"
     "os"
     "regexp"
)

var accept = "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8"
var acceptEncoding = "gzip, deflate"
var acceptLanguage = "zh-CN,zh;q=0.9"
var</
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值