colly爬取GXU-oj公告栏信息

思路:

开发者工具或者其他工具查看Oj首页以及点击登录时发送的网络请求,主要是观察这些请求的请求头以及响应头中的set-cookie属性,如果不行,则可以观察“user-agent”等请求头信息并进行相应的修改即可。经过观察发现要想能实现目标,至少需要发送这些网络请求:

第一个请求:这个网络请求主要是为了获取一个叫csrfToken的东西,这显而易见应该是和跨站请求伪造相关的东西,我们不用管这个,经过观察提交代码,登录等网络请求的请求头,我们可以发现这些操作都离不开这个csrftoken:

可以看到1个请求用到了两次csrfToken,其他请求类似。

第二个请求: 当完成输入登录的用户名后,会自动发送这个网络请求(且携带了用户名参数),这个请求个人觉得可以理解为告知服务器这个用户名即将要登录。

第三个请求:这个请求是获取jsessionID的网络请求。既然是JsessionID,那说明服务器可能用的就是Tomcat服务器,这个我们了解即可。登录成功后,我们以后靠这个ID和csrfToken即可以进行普通用户的能做的所有操作(行为)。

第四个请求:这是真正获取公告栏信息的请求,比较简单直接。直接正常发送网络请求解析响应体即可。

代码如下:

package main

import (
	"encoding/json"
	"fmt"
	"github.com/gocolly/colly"
	"strings"
)

var csrfToken string
var username = ""
var password string
var sessionId string
var cookie string
var announcementMsg map[string]interface{}

func main() {
	var urls = make(map[string]string)
	urls["csrfToken"] = "https://oj.gxu.edu.cn/api/profile"         // get
	urls["tfa_required"] = "https://oj.gxu.edu.cn/api/tfa_required" // post
	urls["login"] = "https://oj.gxu.edu.cn/api/login"               // post
	urls["p_msg"] = "https://oj.gxu.edu.cn/api/announcement"        //get 公告
	c := colly.NewCollector()
	c.OnResponse(func(r *colly.Response) {
		url := r.Request.URL.String()
		if strings.Contains(url, "api/profile") {
			get := r.Headers.Get("set-cookie")
			csrfToken = strings.Split(get, ";")[0]
			fmt.Println(get)
		} else if strings.Contains(url, "api/login") {
			sessionId = strings.Split((*r.Headers)["Set-Cookie"][1], ";")[0]
			cookie = strings.Join([]string{csrfToken, sessionId}, "; ")
			fmt.Println(string(r.Body)) // 查看是否登录成功!!!
		} else if strings.Contains(url, "api/announcement") {
			json.Unmarshal(r.Body, &announcementMsg)
			fmt.Println(announcementMsg)
		}

	})
	c.OnHTML("html", func(e *colly.HTMLElement) {
		fmt.Println(e.Text)
	})
	c.OnRequest(func(r *colly.Request) {
		fmt.Println(r.URL)
		url := r.URL.String()
		if strings.Contains(url, "api/login") || strings.Contains(url, "api/tfa_required") {
			r.Headers.Set("cookie", csrfToken)
			r.Headers.Set("accept", "application/json, text/plain, */*")
			r.Headers.Set("content-type", "application/x-www-form-urlencoded")
			value := strings.Split(csrfToken, "=")[1]
			r.Headers.Set("x-csrftoken", value)
		}
		if strings.Contains(url, "api/announcement") {
			r.Headers.Set("cookie", cookie)
			r.Headers.Set("x-csrftoken", strings.Split(csrfToken, "=")[1])
			fmt.Println(cookie)

		}

	})
	c.Visit(urls["csrfToken"])
	c.Post(urls["tfa_required"], map[string]string{
		"username": username,
	})
	c.Post(urls["login"], map[string]string{
		"username": username,
		"password": password,
	})
	c.Visit(urls["p_msg"])
}

代码解释:把username,password变量替换成真正的账号密码即可,其他也基本上是colly框架的简单API。

运行结果如下:

说明:做到这一步,我相信要进行后续的诸如代码提交等等权限操作应该也不是很难了。

个人看法:个人觉得用py做爬虫可能会比go好一些,因为涉及到验证码等反爬措施的话要用到一种技术OCR(第三方很少有提供go接口的)。除此之外,py的爬虫框架也比较多。当然,本人不用py的原因是不太喜欢用这个语言。

最后:

本人水平有限,有错误或者不足之处请多多谅解!!!

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
ava实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),可运行高分资源 Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现
C语言是一种广泛使用的编程语言,它具有高效、灵活、可移植性强等特点,被广泛应用于操作系统、嵌入式系统、数据库、编译器等领域的开发。C语言的基本语法包括变量、数据类型、运算符、控制结构(如if语句、循环语句等)、函数、指针等。下面详细介绍C语言的基本概念和语法。 1. 变量和数据类型 在C语言中,变量用于存储数据,数据类型用于定义变量的类型和范围。C语言支持多种数据类型,包括基本数据类型(如int、float、char等)和复合数据类型(如结构体、联合等)。 2. 运算符 C语言中常用的运算符包括算术运算符(如+、、、/等)、关系运算符(如==、!=、、=、<、<=等)、逻辑运算符(如&&、||、!等)。此外,还有位运算符(如&、|、^等)和指针运算符(如、等)。 3. 控制结构 C语言中常用的控制结构包括if语句、循环语句(如for、while等)和switch语句。通过这些控制结构,可以实现程序的分支、循环和多路选择等功能。 4. 函数 函数是C语言中用于封装代码的单元,可以实现代码的复用和模块化。C语言中定义函数使用关键字“void”或返回值类型(如int、float等),并通过“{”和“}”括起来的代码块来实现函数的功能。 5. 指针 指针是C语言中用于存储变量地址的变量。通过指针,可以实现对内存的间接访问和修改。C语言中定义指针使用星号()符号,指向数组、字符串和结构体等数据结构时,还需要注意数组名和字符串常量的特殊性质。 6. 数组和字符串 数组是C语言中用于存储同类型数据的结构,可以通过索引访问和修改数组中的元素。字符串是C语言中用于存储文本数据的特殊类型,通常以字符串常量的形式出现,用双引号("...")括起来,末尾自动添加'\0'字符。 7. 结构体和联合 结构体和联合是C语言中用于存储不同类型数据的复合数据类型。结构体由多个成员组成,每个成员可以是不同的数据类型;联合由多个变量组成,它们共用同一块内存空间。通过结构体和联合,可以实现数据的封装和抽象。 8. 文件操作 C语言中通过文件操作函数(如fopen、fclose、fread、fwrite等)实现对文件的读写操作。文件操作函数通常返回文件指针,用于表示打开的文件。通过文件指针,可以进行文件的定位、读写等操作。 总之,C语言是一种功能强大、灵活高效的编程语言,广泛应用于各种领域。掌握C语言的基本语法和数据结构,可以为编程学习和实践打下坚实的基础。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值