思路:
开发者工具或者其他工具查看Oj首页以及点击登录时发送的网络请求,主要是观察这些请求的请求头以及响应头中的set-cookie属性,如果不行,则可以观察“user-agent”等请求头信息并进行相应的修改即可。经过观察发现要想能实现目标,至少需要发送这些网络请求:
第一个请求:这个网络请求主要是为了获取一个叫csrfToken的东西,这显而易见应该是和跨站请求伪造相关的东西,我们不用管这个,经过观察提交代码,登录等网络请求的请求头,我们可以发现这些操作都离不开这个csrftoken:
可以看到1个请求用到了两次csrfToken,其他请求类似。
第二个请求: 当完成输入登录的用户名后,会自动发送这个网络请求(且携带了用户名参数),这个请求个人觉得可以理解为告知服务器这个用户名即将要登录。
第三个请求:这个请求是获取jsessionID的网络请求。既然是JsessionID,那说明服务器可能用的就是Tomcat服务器,这个我们了解即可。登录成功后,我们以后靠这个ID和csrfToken即可以进行普通用户的能做的所有操作(行为)。
第四个请求:这是真正获取公告栏信息的请求,比较简单直接。直接正常发送网络请求解析响应体即可。
代码如下:
package main
import (
"encoding/json"
"fmt"
"github.com/gocolly/colly"
"strings"
)
var csrfToken string
var username = ""
var password string
var sessionId string
var cookie string
var announcementMsg map[string]interface{}
func main() {
var urls = make(map[string]string)
urls["csrfToken"] = "https://oj.gxu.edu.cn/api/profile" // get
urls["tfa_required"] = "https://oj.gxu.edu.cn/api/tfa_required" // post
urls["login"] = "https://oj.gxu.edu.cn/api/login" // post
urls["p_msg"] = "https://oj.gxu.edu.cn/api/announcement" //get 公告
c := colly.NewCollector()
c.OnResponse(func(r *colly.Response) {
url := r.Request.URL.String()
if strings.Contains(url, "api/profile") {
get := r.Headers.Get("set-cookie")
csrfToken = strings.Split(get, ";")[0]
fmt.Println(get)
} else if strings.Contains(url, "api/login") {
sessionId = strings.Split((*r.Headers)["Set-Cookie"][1], ";")[0]
cookie = strings.Join([]string{csrfToken, sessionId}, "; ")
fmt.Println(string(r.Body)) // 查看是否登录成功!!!
} else if strings.Contains(url, "api/announcement") {
json.Unmarshal(r.Body, &announcementMsg)
fmt.Println(announcementMsg)
}
})
c.OnHTML("html", func(e *colly.HTMLElement) {
fmt.Println(e.Text)
})
c.OnRequest(func(r *colly.Request) {
fmt.Println(r.URL)
url := r.URL.String()
if strings.Contains(url, "api/login") || strings.Contains(url, "api/tfa_required") {
r.Headers.Set("cookie", csrfToken)
r.Headers.Set("accept", "application/json, text/plain, */*")
r.Headers.Set("content-type", "application/x-www-form-urlencoded")
value := strings.Split(csrfToken, "=")[1]
r.Headers.Set("x-csrftoken", value)
}
if strings.Contains(url, "api/announcement") {
r.Headers.Set("cookie", cookie)
r.Headers.Set("x-csrftoken", strings.Split(csrfToken, "=")[1])
fmt.Println(cookie)
}
})
c.Visit(urls["csrfToken"])
c.Post(urls["tfa_required"], map[string]string{
"username": username,
})
c.Post(urls["login"], map[string]string{
"username": username,
"password": password,
})
c.Visit(urls["p_msg"])
}
代码解释:把username,password变量替换成真正的账号密码即可,其他也基本上是colly框架的简单API。
运行结果如下:
说明:做到这一步,我相信要进行后续的诸如代码提交等等权限操作应该也不是很难了。
个人看法:个人觉得用py做爬虫可能会比go好一些,因为涉及到验证码等反爬措施的话要用到一种技术OCR(第三方很少有提供go接口的)。除此之外,py的爬虫框架也比较多。当然,本人不用py的原因是不太喜欢用这个语言。
最后:
本人水平有限,有错误或者不足之处请多多谅解!!!