【python爬虫】自用笔记

Loca77

已于 2024-05-09 17:36:24 修改

阅读量243

点赞数 5

分类专栏：学习笔记文章标签： python 爬虫

于 2023-12-10 15:01:58 首次发布

本文链接：https://blog.csdn.net/Loca17/article/details/134908455

版权

学习笔记专栏收录该内容

5 篇文章 0 订阅

订阅专栏

2023.12.10 第一次记录

环境配置

pycharm2022.1.3

anaconda3

查看python版本：

import sys
print(sys.version)

运行：

一

1.python网络爬虫实现图片的爬取

# 爬虫--模拟用户在浏览器/某个应用上的操作，把操作的过程、实现自动化的程序
# 输入网址后：（1）域名解析--查找域名对应的IP地址（2）向IP对应的服务器发送请求（3）服务器响应请求，发回网页内容（4）浏览器解析网页内容
# 网络爬虫本质--浏览器http请求
# 浏览器和网络爬虫是两种不同的客户端，都以相同的方式来获取网站

import time
import threading
from threading import Lock

# 爬虫
import requests
import re
# 操作文件
import os

# 使用多线程 爬取 网络图片
class Spider(threading.Thread):
    def run(self) -> None:
        pass

    def download(self,url):
        # 发送请求，获取数据
        request = requests.get(url,timeout=10) # 单位为毫秒。可能连接会断掉，所以设置timeout，10ms内连接不成功就放弃
        # 数据匹配--拿到想要的数据
        # 正则表达式--按照某种规则去匹配符合条件的字符串。很复杂，不用记，需要的时候百度
        img_urls = re.findall('"objURL":"(.*?)"',request.text)
        # 保存图片的路径
        img1_urls = './img1'
        for img_urls in img_urls:
            img_name = str(int(time.time()*100000000))+".jpg" # 多设置点，防止图片名重复
            try:
                pic = requests.get(img_urls,timeout=10) # 这行代码很容易报错，因为网络很容易断
                img_path = os.path.join(img1_urls,img_name) # 保存的路径
                f = open(img_path,"wb") # 打开文件，若不存在，则创建并打开
                f.write(pic.content) # 写文件
                f.close() # 写好后一定记得关掉
                print(f"图片保存成功{img_name}")
            except: # 出现异常后执行报错提示
                print(f"图片保存失败{img_name}")

if __name__ == "__main__":
    url = "https://image.baidu.com/search/flip?tn=baiduimage&ie=utf-8&word=%E7%93%B6%E7%93%B6&pn=30"
    spider = Spider()
    spider.download(url)

2.爬取网站：

https://image.baidu.com/search/flip?tn=baiduimage&ie=utf-8&word=%E7%93%B6%E7%93%B6&pn=30

二

import time
import threading
from threading import Lock

# 爬虫
import requests
import re
# 操作文件
import os

# 使用多线程 爬取 网络图片
# 创建多线程锁
lock = Lock()
urls = []
class Spider(threading.Thread):
    def run(self) -> None:
        global urls
        while True:
            # 获取锁
            lock.acquire()
            if len(urls) == 0:
                lock.release()
                return
            url = urls[0] # 获取列表中的第一个元素
            print("----------------------------------")
            # 获取到一个列表后，开启下一个，并删掉上一个
            del urls[0]
            # 释放锁
            lock.release()
            # 下载图片
            self.download(url)

    def download(self,url):
        # 发送请求，获取数据
        request = requests.get(url,timeout=10) # 单位为毫秒。可能连接会断掉，所以设置timeout，10ms内连接不成功就放弃
        # 数据匹配--拿到想要的数据
        # 正则表达式--按照某种规则去匹配符合条件的字符串。很复杂，不用记，需要的时候百度
        img_urls = re.findall('"objURL":"(.*?)"',request.text)
        # 保存图片的路径
        img1_urls = './img1'
        for img_urls in img_urls:
            img_name = str(int(time.time()*100000000))+".jpg" # 多设置点，防止图片名重复
            try:
                pic = requests.get(img_urls,timeout=10) # 这行代码很容易报错，因为网络很容易断
                img_path = os.path.join(img1_urls,img_name) # 保存的路径
                f = open(img_path,"wb") # 打开文件，若不存在，则创建并打开
                f.write(pic.content) # 写文件
                f.close() # 写好后一定记得关掉
                print(f"图片保存成功{img_name}")
            except: # 出现异常后执行报错提示
                print(f"图片保存失败{img_name}")

if __name__ == "__main__":
    # url = "https://image.baidu.com/search/flip?tn=baiduimage&ie=utf-8&word=%E7%93%B6%E7%93%B6&pn=30"
    # spider = Spider()
    # spider.download(url)
    # 网站如果有分页，那我们的这个程序，是只下载当前页面的

    keyword = "灰太狼" # 关键词“灰太狼”
    page_num = 3 # 同时下载三个页面
    urls = [f'https://image.baidu.com/search/flip?tn=baiduimage&ie=utf-8&word="{keyword}"&pn={30 * index}'for index in range(page_num)]
    queue = []
    for index in range(3): # 创建三个线程对象
        spider = Spider()
        spider.start()
        queue.append(spider) # 把它加到列表里去

    for s in queue:
        s.join() # join的作用是把三个子线程加入主线程中，让主线程一直等待全部的子线程结束后才能结束
        # 线程的特定--各干各的

    print("结束")
    print(len(urls))