中国大学MOOC 如何抓包和进行采集

Deng872347348

已于 2022-10-12 21:58:48 修改

阅读量1k

点赞数 1

分类专栏： python爬虫与基础，数据分析。文章标签： python 大数据服务器

于 2022-10-12 20:00:12 首次发布

本文链接：https://blog.csdn.net/Deng872347348/article/details/127289527

版权

python爬虫与基础，数据分析。专栏收录该内容

32 篇文章 2 订阅

订阅专栏

中国大学MOOC 如何抓包和进行采集

目标网站

网站

https://www.icourse163.org/

由于这次爬取的是json的数据接口爬取，要抓包，还有为了响应数据，要登录自己的账号，用自己的cookie让服务器识别不是其它非法请求

抓包

按f12快捷键打开网络调试控制台，或者在网页点击鼠标右键弹出

后面点击检查进入网络调试控制台，这个是在谷歌浏览器打开的，其它浏览器不一样，不过原理一样的

后面跳转到这个页面

后面在网络那边找自己要的数据包

发现是post请求

这个是浏览器发起post请求携带的数据参数

下面进入python写代码模拟Post请求的步骤

post请求一般要携带参数进行一个提交

data={
    这个里面是刚刚查看那个里面携带的参数
}
这里携带是参数是

data={
'mocCourseQueryVo': '{"keyword":"大数据","pageIndex":1,"highlight":true,"orderBy":0,"stats":30,"pageSize":20}'}

先参数不携带cookie进行一个请求试试代码如下

# _*_ coding:utf-8 _*_
import json
import requests
url='https://www.icourse163.org/web/j/mocSearchBean.searchCourse.rpc?csrfKey=c650905faf964e9885ec570cecc883e9'
data={
'mocCourseQueryVo': '{"keyword":"大数据","pageIndex":1,"highlight":true,"orderBy":0,"stats":30,"pageSize":20}'}

headers={
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/103.0.0.0 Safari/537.36'
}

resp=requests.post(url=url,headers=headers,data=data)
print(resp.json())

发现服务器识别为非法跨域请求，不行，还是要我们登录的账号的cookie才能我们想要的数据

并且这里的data构建也和一般的不一样

一般我们构建的时候是这样的

 resp=requests.post(url=url,headers=headers,json=json.dumps(data))

要把 data的数据转出 json的数据后面提交给服务器，

如果再强行转就和上面一样请求不了

# _*_ coding:utf-8 _*_
import json
import requests
url='https://www.icourse163.org/web/j/mocSearchBean.searchCourse.rpc?csrfKey=c650905faf964e9885ec570cecc883e9'
data={
'mocCourseQueryVo': '{"keyword":"大数据","pageIndex":1,"highlight":true,"orderBy":0,"stats":30,"pageSize":20}'}
headers={
'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/103.0.0.0 Safari/537.36',
'cookie': '自己的cookie'
'origin': 'https://www.icourse163.org',
}

resp=requests.post(url=url,headers=headers,json=json.dumps(data))
print(resp)
print(resp.json())

请求服务器是成功的，但是服务器不返回数据，因为你提交的参数格式不对，不是json的格式，识别不了

这样也一样

所有这里那个数据直接传就可以了正确的请求代码如下

# _*_ coding:utf-8 _*_
import json
import requests
url='https://www.icourse163.org/web/j/mocSearchBean.searchCourse.rpc?csrfKey=c650905faf964e9885ec570cecc883e9'
data={
'mocCourseQueryVo': '{"keyword":"大数据","pageIndex":1,"highlight":true,"orderBy":0,"stats":30,"pageSize":20}'}
headers={
'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/103.0.0.0 Safari/537.36',
'cookie': '自己的cookie'
'origin': 'https://www.icourse163.org',
}

resp=requests.post(url=url,headers=headers,data=data)
print(resp)
print(resp.json())

json数据在线解析

数据返回成功，后面把这个返回数据去json在线解析可以解析出json数据出

解析结果如上

代码如下“

# _*_ coding:utf-8 _*_
import json
import requests
url='https://www.icourse163.org/web/j/mocSearchBean.searchCourse.rpc?csrfKey=c650905faf964e9885ec570cecc883e9'
data={
'mocCourseQueryVo': '{"keyword":"大数据","pageIndex":1,"highlight":true,"orderBy":0,"stats":30,"pageSize":20}'}
headers={
'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/103.0.0.0 Safari/537.36',
'cookie': '自己的cookie',
}
resp=requests.post(url=url,headers=headers,data=data)
print(resp)
print(resp.json())
a=resp.json()['result']['list']
print(a[0]['mocCourseCard'])
data=a[0]['mocCourseCard']
print(data)