第十八章 python爬虫

目录

一、requests包

1.1 安装

1.2 get方法请求

1.2.1 使用get方法获取请求结果

1.2.2 在get请求中使用参数

 1.2.3 在get请求中使用列表参数

1.3 post方法请求

1.4 其他方法

1.5 获取json的返回结果

1.6 定制请求头

1.7 状态码

1.7.1 获取状态码

1.7.2 判断状态码

 1.7.3 非200时候抛出异常代码

1.8 获取响应头

1.9 获取cookie 

1.9.1 获取cookie

1.9.2 发送自定义的cookie值

1.9.3 设定跨多个路径的cookie值

1.10 请求超时

1.11 重定向

1.11.1 获取重定向的 url

1.11.2  禁止重定向

1.12 session

1.12.1 跨请求保存参数的方法

1.12.2 会话也可用来为请求方法提供缺省数据

二、爬虫

2.1 Urllib

URL 编码

URL 参数拼接及 get、post 请求

服务器返回结果

带有 header 发送数据

异常处理

设定超时时间

服务返回结果保存为 html

下载一张图片

2.2 bs4

安装

创建 beautifulsoup 对象

输出 beautifulsoup 对象及解析

四大对象种类分析

html 结构化分析

遍历文档结构查询

CSS 选择器

三、实战练习

3.1 抓取搜狐网页连接并做分析


一、requests包

1.1 安装

py -3 -m pip install requests

1.2 get方法请求

1.2.1 使用get方法获取请求结果

#encoding=utf-8

import requests

r = requests.get('https://www.sohu.com/')
print(r) #返回<Response [200]>
print(r.status_code) #返回请求的Http状态码
print(r.url) #获取请求的url
print(r.text[:200]) #获取请求的返回内容,str类型,直接可以编程用
print(t
  • 2
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值