python脚本（爬虫练习）

最新推荐文章于 2024-07-22 15:15:29 发布

小白.酷酷

最新推荐文章于 2024-07-22 15:15:29 发布

阅读量225

点赞数 10

文章标签： python 爬虫

本文链接：https://blog.csdn.net/qq_42008721/article/details/140319432

版权

首先事先声明，这个脚本只是最基础的练习脚本，个人学习用的，有什么不对的，请各位大佬赐教，有什么好的方法，也烦请大佬指出

代码如下：

import re
import requests
import os

def download(file,url):
    with open(file,mode='wb') as fw:
        fw.write(requests.get(url).content)
def get_url(fname,patt):
    result = []
    patt_obj = re.compile(patt)  # 编译正则表达式 patt_obj: 正则对象，可用于匹配数据
    with open(fname, mode="rb") as fr:
        for item in fr.readlines():
            data = patt_obj.search(item)  # 匹配图片链接
            if data != None:  # 匹配成功
                result.append(data.group())
    return result
if __name__ == '__main__':
    url = r"想要爬的网页"
    file = r"自己想要保存的路径"
    pic_patt = br"(http|https)://[\w\./-]+\.(jpg|jpeg|png)"
    download(file,url)
    result = []
    pic_url = get_url(file,pic_patt)
    print(pic_url)
    for item in  pic_url :
        str_obj = item.decode('utf-8')
        result.append(str_obj)
    for item in result:
        download( "自己想要保存的路径"+os.path.basename(item),item)

接下来对各部分进行解析，也算是对自己学习的巩固。

这段代码中，最重要的就是以下两个方法：

def download(file,url):
    with open(file,mode='wb') as fw:
        fw.write(requests.get(url).content)
def get_url(fname,patt):
    result = []
    patt_obj = re.compile(patt)  # 编译正则表达式 patt_obj: 正则对象，可用于匹配数据
    with open(fname, mode="rb") as fr:
        for item in fr.readlines():
            data = patt_obj.search(item)  # 匹配图片链接
            if data != None:  # 匹配成功
                result.append(data.group())
    return result

download方法，需要导入两个参数，file是自己想要保存的文件的路径，url是想要获取内容的网址，在使用的方法中需要注意，requests.get(url).content中的content是获取原始的二进制内容，这与打开文件的mode一定要对应，因此是"wb"及在get_url方法中用的是"rb"，为什么使用二进制呢，因为这对于处理图片、视频来说，相对好用，如果是文本，建议是使用text(这个我还没获取过文字，可以试试看)

get_url方法，需要导入刚才获取到内容的文件的路径以及规则

    url = r"想要爬的网页"
    file = r"自己想要保存的路径"
    pic_patt = br"(http|https)://[\w\./-]+\.(jpg|jpeg|png)"

为什么在url和file后面加r呢，因为我输入路劲的时候有一些反斜杠，在运行的时候程序会无法识别，解决的方法我知道的有两个，一个是r，一个是"\"反斜杠转义字符，然后仔细看规则，也会发现会有一个“b”，这个是把规则转化成二进制，因为我获取的文件中的源代码是以二进制形式获取的，所以匹配也得用相同的格式，不然会报一个“not bytes”的错，这个需要注意一下

别的内容我相信各位大哥也看得懂，如果有什么不明白可以留言，有什么好方法也可以留言

小白.酷酷

关注

10
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
python脚本（爬虫练习）

download方法，需要导入两个参数，file是自己想要保存的文件的路径，url是想要获取内容的网址，在使用的方法中需要注意，requests.get(url).content中的content是获取原始的二进制内容，这与打开文件的mode一定要对应，因此是"wb"及在get_url方法中用的是"rb"，为什么使用二进制呢，因为这对于处理图片、视频来说，相对好用，如果是文本，建议是使用text(这个我还没获取过文字，可以试试看)get_url方法，需要导入刚才获取到内容的文件的路径以及规则。
复制链接

扫一扫