【爬虫学习】爬虫基本流程

标签(空格分隔): 数据挖掘 爬虫


1 爬虫的流程

1、发起请求;
2、获取相应内容;
3、解析网络内容;
4、保存数据(结构化存储);

2 什么是request和response

User -> Server : Request
Server -> User : Response

3 Request内容

1、请求方式:get,post,head,put,delete
2、get和post的区别:请求的参数包含的部分不同;get请求可以直接通过输入访问,post只能由提交表单进行实现。
3、请求url:
4、请求头:浏览器的配置信息;
5、请求体:post内容请求体;

4 response内容

1、响应状态码;
2、响应头;
3、响应体;

5 能抓取什么数据

只要能获取到,都可以抓;

6 解析方式

1、直接处理;
2、json解析;
3、正则表达式;
4、BeautifulSoup提取;
5、pyquery和xpath提取;

7 为什么我抓到的和浏览器中的不一样

微博的话很多用的都是js格式。原生的html代码没有那么多微博的信息的。

8 怎么解决javascript渲染问题

1、分析ajax请求,返回的json字符串;
2、使用webdriver进行加载一个文件
3、splash库进行;
4、用另外的库进行模拟;

9 怎么保存数据

1、文本;
2、关系型数据库;
3、非关系型数据库;
4、二进制文件;

  • 11
    点赞
  • 24
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值