爬虫第一节：requests库的使用（实践篇）

最新推荐文章于 2023-10-18 14:09:22 发布

下水道程序员

最新推荐文章于 2023-10-18 14:09:22 发布

阅读量211

点赞数 1

分类专栏：爬虫文章标签：爬虫 python 开发语言

本文链接：https://blog.csdn.net/Cobrander2_0/article/details/127596973

版权

爬虫专栏收录该内容

3 篇文章 0 订阅

订阅专栏

紧接着上文，我给大家讲解了requests库的一些用法，接下来我们在实例中使用这些用法

一，当爬虫的请求被一些网站驳回，使得爬虫无法爬取时，我们可以将自己伪装成为一个浏览器对它进行访问

import requests
KV={'User-Agent':'mozilla/5.0'}
r=requests.get(url,headers=kv)
r.encoding=r.apparent_encoding
print(r.text)

只需要将头部信息之中的请求者信息更改即可

二，精选信息，提取信息

import requests
kv={'wd':'python'}
try:
    r=requests.get("http://www.baidu.com/",params=kv)
    print(r.status_code)
    print(r.requests.url)
    print(r.text)
except:
    print("爬取失败")

在打印让他的url后会发现变成了“hettp://www.baidu.com/?wd=python”

wd是搜索目标前面标识的值，python则是搜索的内容，每一个网站的搜索标识符都不一样，我们可以通过搜索一个东西，观察他的网址来得到。

三，对于图片，视频的爬取和存储

第一步，找到图片，视频的网络地址比如是url

#图片的格式一般是二进制

import requests
path="D:/abc.jpg"
r=requests.get(url)
print(r.status_code)
with open(path,'wb')as f:
      f.write(r.content)

这一系列操作完成后，你就可以进入你的D盘去寻找你的照片了

接下来给大家一个保姆级别的代码

import requests
import os
root="D://pics//"
path=root+url.url.split('1')[-1]
try:
    if not os.path.exists(root):
        os.mkdir(root)
    if not os.path.exists(path):
        r=requests.get(url)
        with open(path,'wb')as f:
            f.write(r.content)
            print("文件保存成功")
    else:
        print("文件已存在")
except:
    print("出现错误")

这其中的os.mkdir()方法就是创建目录的方法

eg:os.mkdir(D:/hello)

os.mkdir(D:/hello/hi)

一层一层创建目录。

四，IP地址归属的查询

requests requests
url="hettp://m.ip138.com/ip.sap?ip="
r=requests.get(url+'202.204.80.112')
r.status_code
print（r.text）

·注意：网络不是法外之地，爬虫也不是牟利工具，正确运用爬虫知识。

下水道程序员

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
爬虫第一节：requests库的使用（实践篇）

五分钟带你明白爬虫requests库的使用方法，在实战中锻炼自己。
复制链接

扫一扫

专栏目录