colly简单爬取GXU-Oj的公告栏信息

思路:

开发者工具查看进入Oj首页以及点击登录时发生的网络请求,主要是观察这些请求的请求头以及响应头中的set-cookie属性即可。经过观察发现要能实现目标,至少需要发生这些网络请求:

 

第一个请求:主要是为了获取一个叫csrfToken的东西,这显而易见应该是和跨站请求伪造相关的东西,我们不用管这个,经过观察,我们能发现后续的注册,登录,提交代码等等操作都离不开这个token:

可以看到1个请求用到了两次csrfToken,其他请求类似。

第二个请求: 当完成输入登录的用户名后,会自动发送这个网络请求(且携带了用户名参数),这个请求个人觉得可以理解为告知服务器这个用户名即将要登录。

第三个请求:这个请求是获取jsessionID的网络请求。

第四个请求:这是真正获取公告栏信息的请求,比较简单直接。

代码如下:

package main

import (
	"encoding/json"
	"fmt"
	"github.com/gocolly/colly"
	"strings"
)

var csrfToken string
var username = ""
var password = ""
var sessionId string
var cookie string
var announcementMsg map[string]interface{}

func main() {
	var urls = make(map[string]string)
	urls["csrfToken"] = "https://oj.gxu.edu.cn/api/profile"         // get
	urls["tfa_required"] = "https://oj.gxu.edu.cn/api/tfa_required" // post
	urls["login"] = "https://oj.gxu.edu.cn/api/login"               // post
	urls["p_msg"] = "https://oj.gxu.edu.cn/api/announcement"        //get 公告
	c := colly.NewCollector()
	c.OnResponse(func(r *colly.Response) {
		url := r.Request.URL.String()
		if strings.Contains(url, "api/profile") {
			get := r.Headers.Get("set-cookie")
			csrfToken = strings.Split(get, ";")[0]
			fmt.Println(get)
		} else if strings.Contains(url, "api/login") {
			sessionId = strings.Split((*r.Headers)["Set-Cookie"][1], ";")[0]
			cookie = strings.Join([]string{csrfToken, sessionId}, "; ")
			fmt.Println(string(r.Body)) // 查看是否登录成功!!!
		} else if strings.Contains(url, "api/announcement") {
			json.Unmarshal(r.Body, &announcementMsg)
			fmt.Println(announcementMsg)
		}

	})
	c.OnHTML("html", func(e *colly.HTMLElement) {
		fmt.Println(e.Text)
	})
	c.OnRequest(func(r *colly.Request) {
		fmt.Println(r.URL)
		url := r.URL.String()
		if strings.Contains(url, "api/login") || strings.Contains(url, "api/tfa_required") {
			r.Headers.Set("cookie", csrfToken)
			r.Headers.Set("accept", "application/json, text/plain, */*")
			r.Headers.Set("content-type", "application/x-www-form-urlencoded")
			value := strings.Split(csrfToken, "=")[1]
			r.Headers.Set("x-csrftoken", value)
		}
		if strings.Contains(url, "api/announcement") {
			r.Headers.Set("cookie", cookie)
			r.Headers.Set("x-csrftoken", strings.Split(csrfToken, "=")[1])
			fmt.Println(cookie)

		}

	})
	c.Visit(urls["csrfToken"])
	c.Post(urls["tfa_required"], map[string]string{
		"username": username,
	})
	c.Post(urls["login"], map[string]string{
		"username": username,
		"password": password,
	})
	c.Visit(urls["p_msg"])
}

运行结果如下:

 

说明:做到这一步,我相信要进行后续的诸如代码提交等等权限操作应该也不是很难了。

个人看法:个人觉得用py做爬虫可能会比go好一些,因为涉及到验证码等反爬措施的话要用到一种技术OCR(第三方很少有提供go接口的)。除此之外,py的爬虫框架也比较多。当然,本人不用py的原因是不太喜欢用这个语言。

最后:

本人水平有限,有错误或者不足之处请多多谅解!!!

 

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
GO语言中的colly框架可以用于爬取图片。下面是一个使用colly框架爬取图片的示例代码: ```go package main import ( "fmt" "log" "net/http" "os" "strings" "github.com/gocolly/colly" ) func main() { c := colly.NewCollector() // 设置要爬取的网站 c.AllowedDomains = []string{"example.com"} // 在请求之前执行的操作 c.OnRequest(func(r *colly.Request) { fmt.Println("Visiting", r.URL.String()) }) // 在响应中查找图片链接 c.OnHTML("img[src]", func(e *colly.HTMLElement) { imgURL := e.Attr("src") if strings.HasPrefix(imgURL, "http") { // 下载图片 err := DownloadImage(imgURL) if err != nil { log.Println("Failed to download image:", err) } } }) // 开始爬取 err := c.Visit("http://example.com") if err != nil { log.Println("Failed to visit website:", err) } } // 下载图片 func DownloadImage(url string) error { response, err := http.Get(url) if err != nil { return err } defer response.Body.Close() fileName := GetFileName(url) file, err := os.Create(fileName) if err != nil { return err } defer file.Close() _, err = io.Copy(file, response.Body) if err != nil { return err } fmt.Println("Downloaded", fileName) return nil } // 获取文件名 func GetFileName(url string) string { parts := strings.Split(url, "/") return parts[len(parts)-1] } ``` 上述代码使用colly框架创建了一个爬虫,它会访问指定的网站,并在响应中查找图片链接。如果找到了以"http"开头的图片链接,就会下载该图片并保存到本地。 请注意,上述代码中的`"example.com"`应该替换为你要爬取图片的网站域名。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值