网络爬虫笔记--01

最新推荐文章于 2024-10-08 12:37:10 发布

meili1021

最新推荐文章于 2024-10-08 12:37:10 发布

阅读量119

点赞数

分类专栏：爬虫文章标签： python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/meili1021/article/details/105669335

版权

爬虫专栏收录该内容

3 篇文章 0 订阅

订阅专栏

纯零基础学习爬虫，开局来套“嵩天教授的Python网络爬虫与信息提取课程”，小白就要有小白的自觉，不贪多，要务实。

引入

1）The website is the API …

2）学习路径：Requests获得网页信息，robots.txt网络爬虫排除标准，Beautiful.Soup解析HTML页面，Projects实战项目A/B，Re正则表达式详解，提取页面关键信息，Scrapy*网络爬虫原理，专业爬虫框架。

3）8个内容单元+4个实例单元

4）Python语言开发工具选择，我用pycharm，anaconda&jupyter botebook

单元1：Requests库入门

1.1 Requests库安装

http://www.python-requests.org

conda install requests

1. 1. 验证是否安装成功

转存失败重新上传取消转存失败重新上传取消

1.1.2 Requests库的7个主要方法

requests.request() 构造一个请求，支撑以下各方法的基础方法

requests.get() 获取HTML网页的主要方法，对应于HTTP的GET

requests.head() 获取HTML网页的头信息方法，对应于HTTP的HEAD

requests.post() 向HTML网页提交POST请求的方法，对应于HTTP的POST

requests.put() 向HTML网页提交PUT请求的方法，对应于HTTP的PUT

requests.patch() 向HTML网页提交局部修改请求，对应于HTTP的PATCH

requests.delete() 向HTML网页提交删除请求，对应于HTTP的DELETE

1.1.3 requests.request()方法

1.1.4 requests.get()方法

返回reponse对象，有5个属性

r.statuts_code：

r.text：

r.encoding：

r.apparent_encoding：

r.content：HTTP响应内容的二进制形式

1.2 爬取网页的通用代码框架

网络连接有风险，异常处理很重要。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。