爬虫入门（7）——bilibili的用户信息的爬取

最新推荐文章于 2024-07-11 23:30:46 发布

shelleyHLX

最新推荐文章于 2024-07-11 23:30:46 发布

阅读量2.6k

点赞数 1

分类专栏：爬虫文章标签： jsonp

本文链接：https://blog.csdn.net/qq_27009517/article/details/108598220

版权

本文介绍了如何使用JSONP协议爬取Bilibili的用户信息，包括理解JSONP的工作原理，分析网站数据，构建请求会话，处理GET请求，从响应中提取所需数据，并将其存储到数据库。同时，还涵盖了如何获取并保存用户的头像图片。

摘要由CSDN通过智能技术生成

1.jsonp

JSON和JSONP虽然只有一个字母的差别，但其实他们根本不是一回事儿：JSON是一种数据交换格式，而JSONP是一种依靠开发人员的聪明才智创造出的一种非官方跨域数据交互协议。

jsonp是一种跨域通信的手段，它的原理其实很简单：

首先是利用script标签的src属性来实现跨域
通过将前端方法作为参数传递到服务器端，然后由服务器端注入参数之后再返回，实现服务器端向客户端通信
由于使用script标签的src属性，因此只支持get方法

ajax 的核心是通过 XmlHttpRequest 获取非本页内容，而 jsonp 的核心则是动态添加

2.网站的分析

我们需要解析的是jsonp的三个链接，里面的response有我们需要的数据，和拉钩网差不多，拉钩网是ajax的。

在这里插入图片描述

根据request headers构建session，根据query string parameter传递参数，根据general的url获得数据，获得数据的方法（post，get）

剩下的就是将获得的数据进行解析，保存（数据库或是excel）

3.数据库的使用

数据库的命令：

C:\Windows\system32>mysql -uroot -p

> create database bilibili;
> show databases;
> use bilibili;

use bilibili;

DROP TABLE IF EXISTS bilibili_user_info;
create table bilibili_user_info (
id int(10) unsigned NOT NULL AUTO_INCREMENT,
mid int(20) unsigned NOT NULL,
name_ varchar(45) NOT NULL,
sex varchar(45) NOT NULL,
rank_ varchar(45) NOT NULL,
face varchar(200) NOT NULL,
regtime varchar(45) NOT NULL,
birthday varchar(45) NOT NULL,
sign varchar(300) NOT NULL,
level_ varchar(45) NOT NULL,
OfficialVerifyType varchar(45) NOT NULL,
OfficialVerifyDesc varchar(100) NOT NULL,
vipType varchar(45) NOT NULL,
vipStatus varchar(45) NOT NULL,
coins int(20) unsigned NOT NULL,
following_ int(20) unsigned NOT NULL,
fans int(20) unsigned NOT NULL,
archiveview int(20</