【Go开源宝藏】Golang 爬虫 整点新花样_golang 使用session爬虫

	var client http.Client
	Info :="muser="+muserid+"&"+"passwd="+password
	var data = strings.NewReader(Info)
	req, err := http.NewRequest("POST", URL, data)

  • 添加请求头
	req.Header.Set("Connection", "keep-alive")
	req.Header.Set("Pragma", "no-cache")
	req.Header.Set("Cache-Control", "no-cache")
	req.Header.Set("Upgrade-Insecure-Requests", "1")
	req.Header.Set("Content-Type", "application/x-www-form-urlencoded")
	req.Header.Set("User-Agent", "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36")
	req.Header.Set("Accept", "text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,\*/\*;q=0.8,application/signed-exchange;v=b3;q=0.9")
	req.Header.Set("Accept-Language", "zh-CN,zh;q=0.9")

  • 发送请求
	resp, \_:= client.Do(req)  // 发送请求
	bodyText, \_ := ioutil.ReadAll(resp.Body)  // 使用缓冲区读取网页内容

  • 关于cookie

上文也提到了一个包,当发送完请求之后,cookie就会保存在这个client.Jar这个包中

	myStr:=fmt.Sprintf("%s",client.Jar)   //强制类型转化 指针装到string

我们处理打印出这个client.Jar这个包的信息之后,选出响应的cookie,然后放在请求头上面即可!就能处理登陆情况下的cookie问题了。

	req.Header.Set("Cookie", "ASP.NET\_SessionId="+cook)

至此,发送请求部分就完全完成了!

2. 解析网页

2.1 CSS选择器

github.com/PuerkitoBio/goquery 提供了.NewDocumentFromReader方法进行网页的解析。

	doc, err := goquery.NewDocumentFromReader(resp.Body)

2.2 Xpath 语法

github.com/antchfx/htmlquery 提供了.Parse方法进行网页的解析

	root, \_ := htmlquery.Parse(resp.Body)

2.3 Regex 正则

	reId, \_ := regexp.Compile(`id=(\d+)`)  // 正则匹配
	allId := reId.FindAll(bodyText,1)
	for \_,item := range allId {
		id=string(item)
	}

3. 获取节点信息

3.1 CSS 选择器

通过2.1,我们拿到上一步解析出来的doc之后,可以进行css选择器语法,进行结点的选择。

doc.Find("#main > div.right > div.detail\_main\_content").
			Each(func(i int, s \*goquery.Selection) {
			Data.title = s.Find("p").Text()
			Data.time = s.Find("#fbsj").Text()
			Data.author = s.Find("#author").Text()
			Data.count = Read\_Count(Read_Id)
			fmt.Println(Data.title, Data.time, Data.author,Data.count)
		})

doc.Find("#news\_content\_display").Each(func(i int, s \*goquery.Selection) {
			Data.content = s.Find("p").Text()
			fmt.Println(Data.content)
		})

3.2 Xpath 语法

通过3.2,我们拿到上一步解析出来的root之后,可以进行Xpath语法的编写,进行结点的选择。

	tr := htmlquery.Find(root, "//\*[@id='LB\_kb']/table/tbody/tr/td")   //使用Xpath进行结点信息的获取
	for \_, row := range tr { //len(tr)=13
		classNames := htmlquery.Find(row, "./font")
		classPosistions := htmlquery.Find(row,"./text()[4]")
		classTeachers := htmlquery.Find(row,"./text()[5]")
		if len(classNames)!=0 {
			className = htmlquery.InnerText(classNames[0])
			classPosistion = htmlquery.InnerText(classPosistions[0])
			classTeacher = htmlquery.InnerText(classTeachers[0])
		  fmt.Println(className)
		  fmt.Println(classPosistion)
		  fmt.Println(classTeacher)
		}
	}

4. 保存信息

4.1 使用原生SQL语句把数据保存Mysql中

  • 定义数据库链接参数
const (
	usernameClass = "root"
	passwordClass = "root"
	ipClass       = "127.0.0.1"
	portClass     = "3306"
	dbnameClass   = "class"
)

  • 连接数据库
var DB \*sql.DB
func InitDB(){
	path := strings.Join([]string{usernameClass, ":", passwordClass, "@tcp(", ipClass, ":", portClass, ")/", dbnameClass, "?charset=utf8"}, "")
	DB, \_ = sql.Open("mysql", path)
	DB.SetConnMaxLifetime(10)
	DB.SetMaxIdleConns(5)
	if err := DB.Ping(); err != nil{
		fmt.Println("opon database fail")
		return
	}
	fmt.Println("connect success")
}

  • 定义数据类型
type Class struct {
	classData   string
	teacherName string
	position    string
}

  • 插入数据
func InsertData(Data Class) bool {
	tx, err := DB.Begin()
	if err != nil{
		fmt.Println("tx fail")
		return false
	}
	stmt, err := tx.Prepare("INSERT INTO class\_data (`class`,`teacher`,`position`) VALUES (?, ?, ?)")
	if err != nil{  // 数据的插入
		fmt.Println("Prepare fail",err)
		return false
	}
	\_, err = stmt.Exec(Data.classData,Data.teacherName,Data.position)  //执行事务
	if err != nil{
		fmt.Println("Exec fail",err)
		return false
	}
	\_ = tx.Commit()  // 提交事务
	return true
}

4.2 使用GORM把数据保存到Mysql中

img
img

网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。
}
_ = tx.Commit() // 提交事务
return true
}


### 4.2 使用GORM把数据保存到Mysql中




[外链图片转存中...(img-ZQRZmx1S-1726121163069)]
[外链图片转存中...(img-jB40077v-1726121163070)]

**网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。**
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值