深度学习实战--垃圾分类识别系统

陶陶name

已于 2023-12-18 11:05:39 修改

阅读量1.2w

点赞数 58

文章标签： pytorch 深度学习神经网络

于 2021-01-24 14:18:46 首次发布

本文链接：https://blog.csdn.net/public669/article/details/113081408

版权

原创专栏收录该内容

49 篇文章 30 订阅

订阅专栏

垃圾分类收集处理，能提高资源化利用程度。在垃圾成分中，其中的金属、纸类、塑料、玻璃等是可直接回收利用的资源，回收利用率高，较之开发自然资源有着处理简单、成本低廉、污染小的优势。

说明：

之前写了一个关于垃圾分类的文章，已被访问上万次，几百次的收藏。同时也有很多的人询问笔者关于这个项目的问题。在这里非常的感谢大家的厚爱。其实很早就想再迭代一个垃圾分类项目出来，但是由于之前比较的忙，一直没有时间将其落实。最近没什么事情，笔者花了一些时间又重新做了一个垃圾分类系统。希望对大家学习研究有所帮助。说干就干，接下来，笔者就详细的介绍一下这个项目。

思路：

在这里，笔者的大体思路是首先通过python对垃圾数据进行训练，然后再通过使用java web端的SpringMVC进行结合，进而达到前后端分离的设计效果。

开发环境：

笔者的开发环境如下：

Java部分：
TomCat
IDEA
maven
Python部分：
python3.6+
torch1.0+
anaconda

训练：

垃圾数据收集
关于垃圾数据的收集，笔者主要是通过采用网络爬虫的方式
这里笔者写了一个网络爬虫，使用爬虫的方式主要是为了获取数据集，因为
我们知道想要训练出一个比较好的识别模型的前提就是拥有大量的数据

import re
import requests
from urllib import error
from bs4 import BeautifulSoup
import os

num = 0
numPicture = 0
file = ''
List = []


def Find(url):
    global List
    print('正在检测图片总数，请稍等.....')
    t = 0
    i = 1
    s = 0
    while t < 1000:
        Url = url + str(t)
        try:
            Result = requests.get(Url, timeout=7)
        except BaseException:
            t = t + 60
            continue
        else:
            result = Result.text
            pic_url = re.findall('"objURL":"(.*?)",', result, re.S)  # 先利用正则表达式找到图片url
            s += len(pic_url)
            if len(pic_url) == 0:
                break
            else:
                List.append(pic_url)
                t = t + 60
    return s


def recommend(url):
    Re = []
    try:
        html = requests.get(url)
    except error.HTTPError as e:
        return
    else:
        html.encoding = 'utf-8'
        bsObj = BeautifulSoup(html.text, 'html.parser')
        div = bsObj.find('div', id='topRS')
        if div is not None:
            listA = div.findAll('a')
            for i in listA:
                if i is not None:
                    Re.append(i.get_text())
        return Re


def dowmloadPicture(html, keyword):
    global num
    # t =0微观
    pic_url = re.findall('"objURL":"(.*?)",', html, re.S)  # 先利用正则表达式找到图片url
    print('找到关键词:' + keyword + '的图片，即将开始下载图片...')
    for each in pic_url:
        print('正在下载第' + str(num + 1) + '张图片，图片地址:' + str(each))
        try:
            if each is not None:
                pic = requests.get(each, timeout=7)
            else:
                continue
        except BaseException:
            print('错误，当前图片无法下载')
            continue
        else:
            string = file + r'\\' + keyword + '_' + str(num) + '.jpg'
            fp = open(string, 'wb')
            fp.write(pic.content)
            fp.close()
            num += 1
        if num >= numPicture:
            return


if __name__ == '__main__':  # 主函数入口
    tm = int(input('请输入每类图片的下载数量 '))
    numPicture = tm
    line_list = []
    with open('./name.txt', encoding='utf-8') as file:
        line_list = [k.strip() for k in file.readlines()]  # 用 strip()移除末尾的空格

    for word in line_list:
        url = 'http://image.baidu.com/search/flip?tn=baiduimage&ie=utf-8&word=' + word + '&pn='
        tot = Find(url)
        Recommend = recommend(url)  # 记录相关推荐
        print('经过检测%s类图片共有%d张' % (word, tot))
        file = word
        y = os.path.exists(file)
        if y == 1:
            print('该文件已存在，请重新输入')
            file = word
            os.mkdir(file)
        else:
            os.mkdir(file)
        t = 0
        tmp = url
        while t < numPicture:
            try:
                url = tmp + str(t)
                result = requests.get(url, timeout=10)
                print(url)
            except error.HTTPError as e:
                print('网络错误，请调整网络后重试')
                t = t + 60
            else:
                dowmloadPicture(result.text, word)
                t = t + 60
        numPicture = numPicture + tm

    print('任务完成')

数据处理：
通过上述的方式获取到的数据，当然有些是无效的数据，需要通过数据清洗将一些脏数据去除。这里笔者是对初步处理完的数据又进行了人为方式的数据清洗
为什么说比较的笨呢，由于我的数据量也并没有很大，大概几万张吧，所以可以在文件夹下预览一下数据，然后大概的看一下有哪些数据是不符合的，可以进行删除。比如说图片的大小不合适。
另外就是数据中存在很多的干扰数据等等。
训练数据：
笔者通过使用深度神经网络的方式对收集到的垃圾数据集进行训练，进而获得高准确率的模型。
训练过程如下：
训练的代码如下：

import torch
import visdom
from Data_Pre import Data
from resnet import ResNet18
from torch import optim, nn
from torch.utils.data import DataLoader


batchsz = 64
lr = 1e-1
epochs = 20

device = torch.device('cuda')
torch.manual_seed(1234)

train_db = Data('train_data', 224, mode='train')
val_db = Data('train_data', 224, mode='val')
test_db = Data('train_data', 224, mode='test')
train_loader = DataLoader(train_db, batch_size=batchsz, shuffle=True,
                          num_workers=4)
val_loader = DataLoader(val_db, batch_size=batchsz, num_workers=4)
test_loader = DataLoader(test_db, batch_size=batchsz, num_workers=4)

viz = visdom.Visdom()


def evalute(model, loader):
    model.eval()
    correct = 0
    total = len(loader.dataset)

    for x, y in loader:
        x, y = x.to(device), y.to(device)
        with torch.no_grad():
            logits = model(x)
            pred = logits.argmax(dim=1)
        correct += torch.eq(pred, y).sum().float().item()

    return correct / total


def main():

    optimizer = optim.Adam(model.parameters(), lr=lr)
    criteon = nn.CrossEntropyLoss()

    best_acc, best_epoch = 0, 0
    global_step = 0
    viz.line([0], [-1], win='loss', opts=dict(title='loss'))
    viz.line([0], [-1], win='val_acc', opts=dict(title='val_acc'))
    for epoch in range(epochs):

        for step, (x, y) in enumerate(train_loader):
            x, y = x.to(device), y.to(device)

            model.train()
            logits = model(x)
            loss = criteon(logits, y)

            optimizer.zero_grad()
            loss.backward()
            optimizer.step()

            viz.line([loss.item()], [global_step], win='loss', update='append')
            global_step += 1

        if epoch % 1 == 0:
            print('第 '+str(epoch+1)+' training……')
            val_acc = evalute(model, val_loader)
            if val_acc > best_acc:
                best_epoch = epoch
                best_acc = val_acc
                torch.save(model.state_dict(), 'best.mdl')
                viz.line([val_acc], [global_step], win='val_acc', update='append')


    print('最好的准确率:', best_acc, '最好的批次:', best_epoch)

    model.load_state_dict(torch.load('best.mdl'))
    print('正在加载模型……')

    test_acc = evalute(model, test_loader)
    print('测试准确率:', test_acc)

if __name__ == '__main__':
    main()

我这边使用的是visdom进行数据训练的实时监控。
具体效果如下所示：
在这里插入图片描述
训练于23：00开始进行训练，这里epoch设置的为10，于23:30的样子训练结束。大家可以根据自己数据集的和准确率的要求，自行调整。

下面的这个是loss和training的数据可视乎。使用数据可视化，可以方便我们查看模型的趋势。有利于我们对模型参数进行调整。
在这里插入图片描述

可以看到训练时的准确率可以达到近99%，测试准确率达到近98%，模型的效果还是很不错的。

搭建Java

打开IDEA搭建一个maven项目
我们训练好了模型以后，为了方便使用。搭建一个使用平台是很有必要的。
这里主要使用的java搭建的一个客户端。
详细搭建过程，可以自行百度，网上介绍的很详细，这里笔者就不再赘述了……
前端部分
这里由于笔者并没有系统的学习过前端开发，所以前端代码写的不能同专业的前端程序员进行比较。
前端有五个界面：初始化界面以及其他的四个识别界面。

Java、Python相结合：

在进行这个部分结合的过程时，笔者是真的是被搞得有些蒙圈。因为二者都是高级语言，所以在语言间跨度上有些不匹配，各种鬼畜问题，一个接着一个报出。

Java、python语言间跨度上关键部分

@RequestMapping("/upload")
        public String fileUpload(@RequestParam("file") CommonsMultipartFile file,
                             HttpServletResponse response,
                             HttpServletRequest request, Model model) throws IOException,InterruptedException {
        //上传路径保存设置getServletContext
        String path=request.getServletContext().getRealPath("/upload");
        //获取文件名 : file.getOriginalFilename();
        String uploadFileName = file.getOriginalFilename();
        //如果文件名为空，直接回到首页
        if ("".equals(uploadFileName)){
            return "redirect:/index.jsp";
        }
        System.out.println("上传文件名 : "+uploadFileName);


        //如果路径不存在，创建一个
        File realPath = new File("E:/Java_project/garbage/src/main/Detection/test");
        if (!realPath.exists()){
            realPath.mkdir();
        }
        // 将文件名传到前端，由${filename}方式获取
        model.addAttribute("filename",uploadFileName);
        System.out.println("上传文件保存地址："+realPath);

        InputStream is = file.getInputStream(); //文件输入流
        OutputStream os = new FileOutputStream(new File(realPath,uploadFileName)); //文件输出流
        //读取写出
        int len=0;
        byte[] buffer = new byte[1024];
        while ((len=is.read(buffer))!=-1){
            os.write(buffer,0,len);
            os.flush();
        }
        os.close();
        is.close();

        /*python--->java core code*/

        Process proc;
        try{

            String str="./test/";
            proc = Runtime.getRuntime().exec("python Test_model.py "+str+uploadFileName,
                    null,new File("E:/Java_project/garbage/src/main/Detection"));
            BufferedReader in = new BufferedReader(new InputStreamReader(proc.getInputStream()));
            StringBuffer sb = new StringBuffer();
            String line;
            while ((line = in.readLine()) != null) {
                sb.append(line);
            }
            in.close();
            proc.waitFor();
            sb.toString();

            /*detect time limit*/
            Timer timer=startTimer();
            Thread.sleep(1000*30);
            System.out.println("End time:"+getCurrentTime());
            timer.cancel();
            /*detect time limit*/

            /*Test code*/
        }catch (IOException e){
            e.printStackTrace();
        }catch (InterruptedException e){
            e.printStackTrace();
        }

最终结果：

完成了上述工作，整个项目也就完结了，接下来，演示一下。

初始化界面：
选择图片进行识别：
开始检测：
由于模型检测需要一定的时间，所以需要设置一个缓冲时间再进行页面跳转
识别结果：

总结：

到此，新版本的垃圾分类识别系统就算完成了。希望大家可以多动手实践，希望我的思路可以帮助到大家！
由于笔者知识能力有限，在描述上可能存在不准确的地方，还请谅解。
如遇到什么问题欢迎添加笔者qq:1017190168
进行讨论。

更多NLP和CV文章以及完整代码都在"陶陶name"获取。

陶陶name

关注

58
点赞
踩
354

收藏

觉得还不错? 一键收藏
打赏
42
评论
深度学习实战--垃圾分类识别系统

垃圾分类收集处理，能提高资源化利用程度。在垃圾成分中，其中的金属、纸类、塑料、玻璃等是可直接回收利用的资源，回收利用率高，较之开发自然资源有着处理简单、成本低廉、污染小的优势。说明：自笔者于2019年8月发出了深度学习实战之垃圾分类博文以来，已被访问上万次，几百次的收藏。同时也有很多的人询问笔者关于这个项目的问题。在这里非常的感谢大家的厚爱。其实很早就想再迭代一个垃圾分类项目出来，但是由于之前比较的忙，一直没有时间将其落实。最近没什么事情，笔者花了一些时间又重新做了一个垃圾分类系统。希望对大家学习.
复制链接

扫一扫