ABin_203-CSDN博客

转载超越ImageBind？腾讯LanguageBind已开源！

该工作介绍了一项名为"LanguageBind"的技术，旨在扩展视频-语言（VL）预训练模型的适用性，以处理多模态数据。该技术的核心思想在于以语言模态作为多种不同模态之间的纽带，因为语言模态包含丰富的语义信息。此方法通过在VL预训练模型的基础上冻结语言编码器，然后使用对比学习方法来训练其他模态的编码器，从而将各个模态映射到一个共享的特征空间，以实现多模态数据的语义对齐。此外，文章还提到了作者创建的名为"VIDAL-10M"的高质量数据集，其中包含了视频、红外、深度、音频等多模态数据，以及它们的相关语言描述。

2023-10-11 10:28:28 483

原创 dlib安装与imglab制作数据集

dlib安装很多人可能苦于dlib的安装，很多博主写到需要studio环境等，还有版本问题。但后来博主走了很多弯路，发现根本没必要这样。在python3.6环境中直接pip install dlib==19.6.1这样就能够无脑解决，什么cmake，studio统统不用管。这样就下载并安装好了dlib。配置imglab环境网上各路神仙大显神通，配这个配那个，博主这里提供一个无脑版，已经帮你配好了。所有设置不需要动，配置文件别删，请解压后使用。链接：https://pan.baidu.com/s

2020-06-14 17:50:57 2099 6

原创 dlib训练自己的数据集

现在公开的68点特征提取权重非常强大，但是有的时候我们并不想提取这些，在有数据的基础上，就应该自己训练一个模型权重。如何制作数据集请参考博主上篇博客。训练在制作完数据集后，在你的images文件夹的同级目录下有一个xml后缀的文件，这个文件就是我们的数据。# -*- coding: utf-8 -*-import osimport sysimport globimport dlibimport cv2# options用于设置训练的参数和模式options = dlib.simple_

2020-06-14 17:50:33 2211 1

原创 Keras框架下调用tensorboard查看训练过程

tensorboard参数介绍1、log_dir: 用来保存Tensorboard的日志文件等内容的位置2、histogram_freq: 对于模型中各个层计算激活值和模型权重直方图的频率。3、write_graph: 是否在 TensorBoard 中可视化图像。4、write_grads: 是否在 TensorBoard 中可视化梯度值直方图。5、batch_size: 用以直方图计算的传入神经元网络输入批的大小。6、write_images: 是否在 TensorBoard中将模型权重以图

2020-06-08 15:20:14 2255 2

原创 Keras搭建AlexNet网络以及网络优化(附代码数据集)

搭建AlexNet网络AlexNet数据集实战AlexNetAlexNet是2012年ImageNet竞赛冠军获得者Hinton和他的学生Alex Krizhevsky设计的。也是在那年之后，更多的更深的神经网络被提出，比如优秀的vgg,GoogLeNet。这对于传统的机器学习分类算法而言，已经相当的出色。结构呢现在看来还是很清晰的不复杂，不过对于当时2012年来说，这个网络的结构可谓是巨兽，参数超级多。结构如下：**1、一张原始图片被resize到(224,224,3)；2、使用步长为4x

2020-06-08 15:04:12 4423 1

原创小白也能理解的MTCNN（下）

大白话讲MTCNN环境实战环境环境博主用的是Keras2.2.4+Tensorflow-gpu1.11.0+python3.6,如果有小伙伴还不懂怎么配置gpu环境的话可以看博主第一篇博客噢。在命令行进入这个环境后就pip install mtcnn这样就可以调用这个集成包了。用你自己的脸来检测检测吧，那么还需要cv2来调用你的摄像头。在命令行进入环境后安装这个包。pip install opencv-python实战非常简单首先导入包。来用摄像头捕捉你的大头，实例化mtcnn。.re

2020-06-02 21:41:06 666

原创小白也能理解的MTCNN（上）

大白话讲MSTNNMTCNN图像金字塔P-netR-netO-netMTCNN它是2016年中国科学院深圳研究院提出的用于人脸检测任务的多任务神经网络模型，该模型主要采用了三个级联的网络，采用候选框加分类器的思想，进行快速高效的人脸检测。这三个级联的网络分别是快速生成候选窗口的P-Net、进行高精度候选窗口过滤选择的R-Net和生成最终边界框与人脸关键点的O-Net。和很多处理图像问题的卷积神经网络模型，该模型也用到了图像金字塔、边框回归、非最大值抑制等技术。MTCNN，Multi-task conv

2020-06-02 21:26:07 853

原创最强降维模型t-SNE vs 最常用降维模型PCA（下）

异常点检测前文讲到tsne在高维度数据有着绝对的优势，能够碾压其余降维模型，在低维度的数据也毫不逊色任何一种。但是缺点也很明显，性能的代价往往是时间，它的时间复杂度过高。tsne降维完分块的特点很明显，但也有一些飘来飘去的点，这些点叫做异常点，异常点的剔除在日常生活中非常常见。比如机器零件的异常，食品，饮料等部分指标异常等。t-SNE和PCA降维后都有异常点，我们试着来分析分析，这些异常点如何检测以及通过这些点来判断降维的效果。常见的检测异常点有4种异常点检测方法，One-Class SVM（一分类

2020-05-25 22:58:36 2268 2

原创最强降维模型t-SNE vs 最常用降维模型PCA（上）

t-SNE vs PCA背景概述实战总结由于原理较枯燥以及博主水平有限，故本文直接开始实战，需要补原理的读者还请谅解。背景概述假设你有一个包含数百个特征的数据集，却对该数据所属领域几乎没有什么了解，并且你需要去探索数据中存在的隐模式。那可谓是数无形时少直觉，根本无从下手，当数据各特征间存在高度的线性相关，这时你可能首先会想到使用 [公式] 对数据进行降维处理，但是PCA 是一种线性算法，它不能解释特征之间的复杂多项式关系，而t-SNE (t-distributed stochastic neighbo

2020-05-25 22:12:18 6327 6

原创初学者对LSTM的理解

LSTM从RNN说起普通RNNLSTM四个状态在LSTM内部的使用本文借鉴和参考了许多文章，但忘记录了，如果侵权，请联系我，我将立马删除。从RNN说起循环神经网络（Recurrent Neural Network，RNN）是一种用于处理序列数据的神经网络。相比一般的神经网络来说，他能够处理序列变化的数据。比如某个单词的意思会因为上文提到的内容不同而有不同的含义，RNN就能够很好地解决这类问题。普通RNN先简单介绍一下一般的RNN。其主要形式如下图所示（图片均来自台大李宏毅教授的PPT）：图源

2020-05-20 20:16:10 1807 1

原创基于LSTM的股票时间序列预测（附数据集和代码）

LSTM数据集实战如果对LSTM原理不懂得小伙伴可以看博主下一篇博客，因为博主水平有限，结合其他文章尽量把原理写的清楚些。数据集首先附上数据集链接：https://pan.baidu.com/s/1AKsz-ohmYHr9mBEEh76P5g提取码：6owv这个数据集是关于股票的，里面有日期，开盘价等信息。既然是时间序列预测，我们最关心的是预测值在时间维度上的走势如何，那我们只要最后一列volume和第一列date这两列就好了。实战先是导入相关包，一些常见的包就不详细说了，我们需要的Se

2020-05-20 20:04:01 70852 96

原创适合小白的keras搭建VGG-16

上次博主研究vgg16是直接调用已经训练好的vgg模型，没有自己进行搭建网络，这次博主先是用了tensorflow搭建，后来又用了keras搭建，发现keras对新手太友好了。首先附上vgg16的构建代码。想看实战项目的可以在博主的第二篇博文查看vgg16实战。vgg16先卷积2次，池化，卷积2次，池化，卷积3次，池化，卷积3次，池化，然后全连接层。看看大概结构其实很容易发现规律，似乎有些代码都是重复的，然后有些只是改个数字而已。具体怎么写，下面进行详细介绍。小伙伴们要特别注意代码中一些数字和上图结构

2020-05-14 00:04:30 3790 7

原创 TensorFlow之重要概念的基础操作

重要概念GraphSession创建关闭注入机制指定设备TensorOperationFeedFetchtensorflow为什么要这样取名，tensor：张量，flow：流动。在我们的tensorflow里面，变量就是张量，张量在不断的流动。其实就相当于我们日常生活中的流程图一般。这就引申出Graph这个概念。Graph图描述了计算的过程，可以通过tensorboard图形化流程结构。我们看到上面这个图，我们暂且称为流程图吧，流程图先是a+b=d,a*b=c,然后d+c=e。很简单的一个流程。对

2020-05-13 14:31:49 561 1