python网络爬虫学习笔记(4)静态网页抓取(一)知识

1 资料

  • 《Python网络爬虫从入门到实践》唐松,陈志铨。主要面向windows平台下的python3。
  • 百度知道
  • 菜鸟教程

2 笔记

静态网页抓取(一)知识

  1. 静态网页是纯粹HTML格式的网页,而使用AJAX动态加载网页的数据不一定会出现在HTML代码中。
    对于静态网页,前面使用过的Requests库就十分好用,这次主要就是详细介绍它了。

  2. Requests库使用前置工作(简),在笔记(1)里介绍过安装,至于在pycharm中使用库前的工作,笔记(3)里有介绍,简而言之是要安装库到项目里。这里再单独贴一下它的安装代码:

pip install requests
  1. Requests库 - 1 获取响应内容
    一般像这样使用来返回一个response响应对象(req是变量名,或者说对象名):
req = requests.get(url, 其它参数(可选择))
  • 3-1 响应对象的属性
    使用get()函数会返回response响应对象,上面的例子就是req。在笔记(3)里只用到过它的text属性,它还有不少属性。
    其中encoding是文本编码(这个指的是unicode、ascii这些编码方案), status_code是响应状态码,text会根据响应头部的字符编码进行解码生成文本(正式称呼字符串方式的响应体),content是字节方式的响应体,json是resquests内置的JSON解码器。
    至于具体的代码,则是这个样子:
req.encoding
req.status_code
req.text
……
  • 3-1-1 响应状态码status_code
    其中响应状态码一般是指HTTP状态码(英语:HTTP Status Code),是用以表示网页服务器超文本传输协议响应状态的3位数字
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值