Python网络爬虫与信息提取（第一周）

最新推荐文章于 2025-01-21 09:36:24 发布

RegenbogenKO

最新推荐文章于 2025-01-21 09:36:24 发布

阅读量339

点赞数

分类专栏： Python 文章标签： python 爬虫

本文链接：https://blog.csdn.net/LPAODEKUAIDE/article/details/89440772

版权

Python 专栏收录该内容

1 篇文章

订阅专栏

本文介绍了Python爬虫的第一周学习内容，包括Requests库的安装、常用方法和异常处理，深入讲解了HTTP协议的基本概念、URL格式及资源操作。并提供了简单的爬虫代码实践，如百度、360搜索以及网络图片和IP地址归属地的爬取。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

第一周

1.Requests库

PS：官方文档
1）安装
pip install requests
2）来段代码

import requests  #导入requests库
r = requests.get('http://baidu.com') #访问百度首页
r.status_code #查看请求状态，访问成功状态码为200
r.encoding = 'utf-8'#将页面编码转成utf-8
r.text#查看网页内容
type(r)
r.headers#获取get请求获得的头部信息

3）Requests库的7个主要方法

方法	说明
requests.request()	构造一个请求，支撑一下个方法的基础方法
requests.get()	获取HTML网页的主要方法，对应于HTTP的GET
requests.head()	获取HTML网页头信息的方法，对应于HTTP的HEAD
requests.post()	向HTML网页提交POST请求的方法，对应于HTTP的POST
requests.put()	向HTML网页提交PUT请求的方法，对应于HTTP的PUT
requests.patch()	向HTML网页提交局部修改请求，对应于HTTP的PATCH
requests.delete()	向HTML网页提交删除请求，对应于HTTP的DELETE

4）理解Resquests库的异常

异常	说明
requests.ConnectionError	网络连接错误异常，如DNS查询失败、拒绝连接等
requests.HTTPError	HTTP错误异常
requests.URLRequired	URL缺失异常
requests.TooManyRedirects	超过最大重定向次数，产生重定向异常
requests.ConnectTimeout	远程连接服务器超时异常
requests.Timeout	请求URL超时，产生超时异常
r.raise_for_status()	如果不是200，产生异常requests.HTTPError

5）爬取网页的通用代码框架

import requests
def getHTMLText(url):
      try:
           r = requests.get(url,timeout=30)
           r.raise_for_status() #如果状态不是200，引发HTTPError异常
           r.encoding = r.apparent__encoding
           return r.text
        except:
        return "产生异常"
if __name__=="__main__":
      url = "http://www.baidu.com"
      print(getHTMLText(url))

2.HTTP协议

1）HTTP,Hypertext Transfer Protocol,超文本传输协议。
HTTP是一个基于“请求与响应”模式的、无状态的应用层协议。
HTTP协议采用URL作为定位网络资源的标识。

2）URL格式

URL格式：http://host[:port][path]

host:合法的Internet主机域名或IP地址
port:端口号，缺省端口为80
path:请求资源的路径

3）HTTP协议对资源的操作

方法	说明
GET	请求获取URL位置的资源
HEAD	请求获取URL位置的资源的响应消息报告，即获得该资源的头部信息
POST	请求向URL位置的资源后附加的数据
PUT	请求获取URL位置存储一个资源，覆盖原URL位置的资源
PATCH	请求局部更新URL位置的资源，即改变该处资源的部分内容
DELETE	请求删除URL位置存储的资源

4）HTTP协议与Requests库

HTTP协议方法	Requests库的方法	功能一致性
GET	requests.get()	一致
HEAD	requests.head()	一致
POST	requests.post()	一致
PUT	requests.put()	一致
PATCH	requests.patch()	一致
DELETE	requests.delete()	一致

3.简单的爬虫代码（自己动手试试）

百度搜索全代码

import requests
keyword = 'python'
try:
   kv = {'wd':keyword}
   r = requests.get("http://www.baidu.com/s",params=kv)
   print(r.request.url)
   r.raise_for_status()
   print(len(r.text))
except:
   print('爬取失败')

360搜索全代码

import requests
keyword = 'python'
try:
   kv = {'q':keyword}
   r = requests.get("http://www.so.com/s",params=kv)
   print(r.request.url)
   r.raise_for_status()
   print(len(r.text))
except:
   print('爬取失败')

网络图片的爬取及存储

import requests
import os
url ="http://www.pptok.com/wp-content/uploads/2012/08/xunguang-4.jpg"
root = "D://pic//"
path = root + url.split('/')[-1]
try:
 if not os.path.exists(root):
     os.mkdir(root)
 if not os.path.exists(path):
     r = requests.get(url)
     with open(path,'wb') as f:
         f.write(r.content)
         f.close()
         print("文件保存成功")
 else:
     print("文件已存在")
except:
 print("爬取失败")

IP地址归属地的自动查询

import requests
url = "http://m.ip138.com/ip.asp?ip="
try:
 r = requests.get(url+'202.204.80.112')
 r.raise_for_status()
 r.encoding =r.apparent_encoding
 print(r.text[-500:])
except:
 print("爬取失败")