爬虫涉及若干问题

爬虫涉及若干问题V1.0

 

页面数据:

1.     特定数据

2.     结构型数据

3.     不规则数据

4.     待挖掘数据

5.     无价值数据

请求分类:

1.     模式请求

2.     样例请求

3.     指定请求

反爬:

1.     User-Agent

2.     Referer

3.     X-Requested-With

4.     特殊标识

Cookie:

1.     不可考规则

2.     指定Token

请求方式:

1.     key-value

2.     form

3.     json

4.     xml

5.     dwc(特殊框架)

数据格式:

1.     html

2.     json

3.     xml

4.     txt

5.     字节流

6.     加密串

失败分类:

1.     连接超时

2.     403

3.     自然失败

4.     限制失败(短信)

重提策略;

1.     功能重提

2.     事务重提

3.     数据重提

4.     请求重提

麻烦点:

1.     关联请求

顺序规则请求

异常点:

1.     BigDecimal(常出问题)

2.     Json转换(目标有json和html两状态)

3.     类型装换

加密:

1.     Md5

2.     Js加密

3.     Aes

4.      

架构:

1.     敏捷

2.     高效

3.     高可用

4.     韧性

5.     弹性

6.     可扩展性

7.     易构性

共性:

1.     一致性

2.     个性化

 

 

 

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值