colly简单爬取GXU-Oj的公告栏信息

lock（）

已于 2022-11-16 09:13:19 修改

阅读量418

点赞数 1

分类专栏： go 文章标签：网络爬虫 go

于 2022-11-16 09:12:27 首次发布

本文链接：https://blog.csdn.net/qq_52928324/article/details/127877590

版权

go 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

思路：

开发者工具查看进入Oj首页以及点击登录时发生的网络请求，主要是观察这些请求的请求头以及响应头中的set-cookie属性即可。经过观察发现要能实现目标，至少需要发生这些网络请求：

第一个请求：主要是为了获取一个叫csrfToken的东西，这显而易见应该是和跨站请求伪造相关的东西，我们不用管这个，经过观察，我们能发现后续的注册，登录，提交代码等等操作都离不开这个token：

可以看到1个请求用到了两次csrfToken，其他请求类似。

第二个请求：当完成输入登录的用户名后，会自动发送这个网络请求（且携带了用户名参数），这个请求个人觉得可以理解为告知服务器这个用户名即将要登录。

第三个请求：这个请求是获取jsessionID的网络请求。

第四个请求：这是真正获取公告栏信息的请求，比较简单直接。

代码如下：

package main

import (
	"encoding/json"
	"fmt"
	"github.com/gocolly/colly"
	"strings"
)

var csrfToken string
var username = ""
var password = ""
var sessionId string
var cookie string
var announcementMsg map[string]interface{}

func main() {
	var urls = make(map[string]string)
	urls["csrfToken"] = "https://oj.gxu.edu.cn/api/profile"         // get
	urls["tfa_required"] = "https://oj.gxu.edu.cn/api/tfa_required" // post
	urls["login"] = "https://oj.gxu.edu.cn/api/login"               // post
	urls["p_msg"] = "https://oj.gxu.edu.cn/api/announcement"        //get 公告
	c := colly.NewCollector()
	c.OnResponse(func(r *colly.Response) {
		url := r.Request.URL.String()
		if strings.Contains(url, "api/profile") {
			get := r.Headers.Get("set-cookie")
			csrfToken = strings.Split(get, ";")[0]
			fmt.Println(get)
		} else if strings.Contains(url, "api/login") {
			sessionId = strings.Split((*r.Headers)["Set-Cookie"][1], ";")[0]
			cookie = strings.Join([]string{csrfToken, sessionId}, "; ")
			fmt.Println(string(r.Body)) // 查看是否登录成功！！！
		} else if strings.Contains(url, "api/announcement") {
			json.Unmarshal(r.Body, &announcementMsg)
			fmt.Println(announcementMsg)
		}

	})
	c.OnHTML("html", func(e *colly.HTMLElement) {
		fmt.Println(e.Text)
	})
	c.OnRequest(func(r *colly.Request) {
		fmt.Println(r.URL)
		url := r.URL.String()
		if strings.Contains(url, "api/login") || strings.Contains(url, "api/tfa_required") {
			r.Headers.Set("cookie", csrfToken)
			r.Headers.Set("accept", "application/json, text/plain, */*")
			r.Headers.Set("content-type", "application/x-www-form-urlencoded")
			value := strings.Split(csrfToken, "=")[1]
			r.Headers.Set("x-csrftoken", value)
		}
		if strings.Contains(url, "api/announcement") {
			r.Headers.Set("cookie", cookie)
			r.Headers.Set("x-csrftoken", strings.Split(csrfToken, "=")[1])
			fmt.Println(cookie)

		}

	})
	c.Visit(urls["csrfToken"])
	c.Post(urls["tfa_required"], map[string]string{
		"username": username,
	})
	c.Post(urls["login"], map[string]string{
		"username": username,
		"password": password,
	})
	c.Visit(urls["p_msg"])
}

运行结果如下：