![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
imagednn
文章平均质量分 84
小李飞刀李寻欢
视频号:小明哥直播间
展开
-
No module named ‘pytorch_lightning.utilities.distributed‘
安装stable-diffusion中的依赖包解决原创 2023-07-04 17:09:39 · 9298 阅读 · 4 评论 -
优秀图片生成参数-stable-diffusion-webui
stable-diffusion-webui优秀生图来了。原创 2023-05-18 19:57:08 · 746 阅读 · 0 评论 -
stable- diffusion新版本V2效果有提升吗?
stable- diffusion V2 就丝滑好用了吗?原创 2023-04-21 19:50:38 · 1282 阅读 · 0 评论 -
stable-diffusion真的好用吗?
CV大模型GPT,stable- diffusion原创 2023-04-11 11:29:49 · 1663 阅读 · 0 评论 -
Sequential model should have a single output tensor. For multi-output layers,use the functional API.
这个错误的原因在于不知道啥叫序列化模型,keras的模型都是序列化堆叠的模型,如果你觉得不好用,你可以直接用tf的函数构建,不要嫌弃keras,人家本来就是高级API,你想知道更多,你用低级的API呗非要用LSTM中的状态也可以,先了解下参数,啥都不了解就不要轻易下结论,不被人笑死??input_data = tf.keras.layers.Input(shape=(12,3))hidden_1, state_h, state_c = tf.keras.layers.LSTM(units=16,原创 2020-05-30 13:21:11 · 2201 阅读 · 0 评论 -
MAP-Mean Average Precision 平均精度均值
在分类任务中,不知道是不是多标签分类,看完本文就知道了。除了常见的评价指标外,还有一个能装逼的指标,因为知道的人少了一些。这是来自github搜索到的版本,感觉很高大上啊。每一个类别的AP,最后得到MAP,太好看了。当前py file的绝对路径为os.path.abspath(__file__)切换工作文件夹到pathos.chdir(path)当前工作路径os.getcwd()由于MAP是由PR值求得的,因此必然有PR值,公式为:来源于网络,没有仔细考究原创 2020-05-22 19:44:43 · 1523 阅读 · 0 评论 -
关于ResNet50的解读
说起ResNet必然要提起He大佬,这真是神一样的存在,这不,不久前又有新的突破RegNet,真是厉害啊。ResNet开篇之作在此,后面又出了各种变形啥的,ResNeXt,inception-ResNet等等吧,代码在此。总体:这个网络结构主要是解决加深网络而不能减小loss的问题,如图下:网络越深越好吗?不是,加一层acc或者其他指标就好了??并不是,既然网络加深了,又难以训...原创 2020-05-04 02:57:34 · 13826 阅读 · 0 评论 -
关于GP Global Pooling
hi,dearhave seen many Global Pooling?why is the gap ,gmp, gsp? Will talk in detailGAP,here is Global average pooling,Not mentioned in NeXtVLAD Global average precision全局平均池化,这是在图像处理中的最后面的层,为了降维...原创 2020-04-08 17:45:23 · 703 阅读 · 0 评论 -
基于内容和时间记忆的视频质量评价VSFA
代码在此,paper在此。总体:采用预训练ResNet50提取的帧特征,对于时间记忆的影响(时间滞后效应:人们总是记得质量差的前面的帧,即使后面出现了好的帧,也难以改变人们的评价),采用GRU和时间池化层。框图如下:默认是32帧一个batch,每帧得到的都是2048D特征,GP是全局池化,后面接FC全连接层降维,GRU输出每个帧的评分,及时间维度的池化层,最后是一个全局平均池化GA...原创 2020-04-09 14:41:10 · 1475 阅读 · 1 评论 -
TSM视频理解解读
几个月前我做了TSM的测试工作,由于的确比较笨,用pretrained model测试单个视频我都费了好多天。paper在此,pytorch代码在此。总体:TSM达到三维卷积的效果,但是只有2维卷积的复杂度。Temporal Shift Module就是沿着时间维度移动部分通道,因而方便帧之间的信息交换。第二个图是双向的TSM,将过去和未来的帧与现在的帧交融。多余的截断,缺少的...原创 2020-04-06 22:49:17 · 4867 阅读 · 6 评论 -
分类模型的最后一层输出是什么?
说起这个问题,那就不可避免要提到激活函数,常见的有sigmoid和softmax,损失函数则是交叉熵。通过help(roc_auc_score)得到官方的某个解释:roc_auc_score(y_true, y_score, average='macro', sample_weight=None, max_fpr=None, multi_class='raise', labels=Non...原创 2020-04-06 18:19:28 · 3432 阅读 · 0 评论 -
TSN视频识别详解
原作者给出的torch版本的代码,看起来有点不习惯,但比caffe版本好多了。paper在此但光流提取及视频列表生成还是到原来的TSN repo.总体:稀疏时间采样策略及视频级监督。Two-stream及卷积模型在拟合大尺度时间上有些力不从心,这主要因为它们的接近时间上下文背景有限,比如仅仅在单帧或几段clips上操作。复杂的运动时间跨度大,简单的网络结构可能失败,而TSN是视频级...原创 2020-04-06 16:42:28 · 3871 阅读 · 1 评论 -
分类任务的metrics——模型评测标准
在分类任务中,想要知道模型的好坏,是不是能够实际应用,那么必须有评价的标准,本文将详细说来。如果不提到混淆矩阵,那么下面的概念就不好理解。我自己先默写了下,结果发现错了(错的全颠倒),错误示例如下:上图错误的原因是不知道True/Positive这种概念是针对谁来说,小明哥这里给出:True/False是针对(预测结果)这个预测是不是正确来说的,如果预测正确,那么为True,预测错...原创 2020-04-04 23:05:12 · 2323 阅读 · 0 评论 -
百度飞浆NeXtVLAD之推断inference
上一篇是基础的数据输入,然而继续查看模型的输入数据会遇到各种数据结构,比如迭代器yield本文将继续寻根究底,看看是如何输入audio及rgb 特征,然后得到NeXtVLAD聚类后的特征。我看了下模型的输出,似乎只能输出类别,而我想得到某一层的输出结果。这个咋整呢??屁大点事结果我麻烦了百度的很多人帮我解决,真是辛苦了,从此再也不说飞浆的坏话了,哈哈。我觉得杀鸡就得用牛刀,快!自己...原创 2020-04-03 00:07:20 · 1820 阅读 · 0 评论 -
NeXtVLAD 飞酱预训练模型测试
hi,dear 大佬:找遍了全网,只有飞酱提供了预训练的模型,请使用_final版本的,下面我将用inceptionV3提取图像特征然后经过该模型得到concat之前聚类之后的特征,该特征我将用做embedding,别问我有啥意义,我哪知道,inceptionV3不也是这么玩的吗??【意义很清楚,就是将泛特征经过聚类得到新的特征,剔除了冗余的特征及微小的弱特征】另外我也会将音频vgg后...原创 2020-04-03 00:38:56 · 553 阅读 · 0 评论 -
视频封面图特征提取问题
在视频推荐中,视频的封面图是用户首先看到的内容,非常直观、显著。用户是否点击该视频很大程度上也与封面有关,这种封面一般是指嵌入到图文中的视频封面,或者第一眼能看到的封面,一般这个封面也是视频中的关键帧,暂不考虑那些刻意抽取的一帧作为封面的情况。 在爱奇艺软色情视频识别中也有用到封面图,而且是单独用作特征(采用的是Xception特征提取,后面接的是Attenti...原创 2020-03-25 17:42:13 · 1590 阅读 · 0 评论 -
NeXtVLAD视频分类pb模型修改
之前搞落地问题,肯定会遇到pb模型,模型结点啥玩意的都能烦死。根据上一篇思路,这里单独开一篇,将模型的头部分输入砍掉,也不用将pca采用tf写,这样方便容易理解。使得输入的就是固定的input_shape,有一点顾虑,就是tf的resize可能与cv2的不同,那么直接采用tf的resize不是就避免了(ResizeBilinear),我看第一步就是扩展一个维度,从这里输入也可以。输出就...原创 2020-03-16 19:28:47 · 2073 阅读 · 0 评论 -
NeXtVLAD中特征提取修改及对比结果
鉴于lin大佬所写的代码只能单个图做特征,不能批处理,所以寡人修改了下。这里进行结果对比,看看是否一致。【注意是关键帧的特征】我发现lin没有resize都直接输入模型了???这个模型中必有resize的过程,只有固定一个吧。下面看看模型的输入。【后来发现为啥没有用批处理了,如果批处理,那么其input_shape必然是固定不变的,下面详细看看模型是如何reshape的,因为是pb模型...原创 2020-03-16 21:28:05 · 1135 阅读 · 1 评论 -
视频关键帧inceptionV3&Xception特征提取
很多时候都是重复造轮子,反复无常,这源于没有结构性的记录,东西放的地方不对,文件命名不规范,以后凡是能够复用的务必写readme文件,以防忘记。本文要解决的是两个问题,这里先来特征提取【有实际的代码比优秀的构想更重要,啥都别吹,写代码。天天吹牛逼,关键时候屁都没有,岂不是被人笑死】1-特征提取【直接拿我inceptionV3的脚本文件copy来改改】先从github上下载模型,放到...原创 2020-03-16 11:48:55 · 2222 阅读 · 0 评论 -
Xception网络结构
直接用的keras官方给的模型。设定shape为默认的299,这里回答下之前博文的无知之处,预训练的模型都是输出的global_average_pooling,关于这个pooling很好理解,就是全局的池化,HWC维度直接到C维度2048D2000多万参数,巨无霸模型。Layer (type) Output Shape Param #...原创 2020-03-15 23:51:12 · 815 阅读 · 0 评论 -
NeXt VLAD多模态视频分类
NetVLAD最初是用于位置识别中聚合空间表达,发现比常规的时间模型(LSTM/GRU)用于聚合视觉和听觉特征任务更有效、更快。Net VLAD主要的一个缺点是特征维度高,基于这种特征的大的分类模型需要几百百万的参数。例如,一个Net VLAD网络有128个聚类,特征2048维,那么作为向量就是262144维。后面的全连接层是2048维度的输出,那么将有537M的参数。这种低效的参数将使得模型很难...翻译 2020-03-14 16:04:11 · 5092 阅读 · 3 评论 -
阿里优酷视频分类方法???咋理解啊?
阿里大佬讲了下面的ppt,这都过去大半个月了我还是一头雾水、一脸懵逼、一无所获, 菜鸟的世界真是灰色.图片来源:阿里巴巴文娱技术公众号问题:1 NeXtVLAD是预训练的网络吗?如果是,如何获取啊?如果是linrongcheng大佬的模型,那么上图的后续步骤在lin大佬源码里面有体现吗??2 FC+Gating咋设置啊?MoE多专家分类是啥?这俩有参考吗???[大致浏...原创 2020-03-13 12:17:20 · 1948 阅读 · 5 评论 -
yt8m如何做帧特征?
最近一直困扰的就是特征问题,视频特征——>帧特征——>特征聚合/融合前天看了对面大佬的ppt,也是用的linrongcheng大佬的想法来做的特征,包括视频帧/音频/文字,大佬说其实还是视频特征最重要,影响很大,而音频反而区分度不大,文字特征似乎没有见lin大佬提及,且不管,先按照lin大佬的做一下特征提取。【据我所知lin大佬的想法与TSM应该差不多是同一时期,且后者可能还是...原创 2020-03-13 01:27:12 · 763 阅读 · 0 评论 -
tensorflow中的正确率是怎么来的??
哈喽,大家好,今天周一,距离年会还有5天,距离回家还有10天,距离返程还有17天。。。。。。。。在tf模型中一般都有acc的计算,无非就是最后一层softmax,然后取argmax,然后判等即可,说起来容易,现场写代码估计大多数都会懵逼,真的是“纸上得来终觉浅,绝知此事要躬行”一般是如下:1-对logits取softmax2-取argmax3-与ground_truth判等...原创 2020-01-13 11:59:21 · 2007 阅读 · 0 评论 -
视频高层特征分类实际测试
接上一篇:https://blog.csdn.net/SPESEG/article/details/103875916用的抖音的视频数据,测试找来的我司视频,看看效果如何。策略:随机抽帧20~40帧,堆叠所有帧,按照index选帧,然后整体进入inceptionV3模型,再进入分类模型,没啥技术含量。概率作为相似程度,可以这么理解。但我估计效果并不会很好。考虑到时间,如果能有什么快...原创 2020-01-13 14:43:17 · 546 阅读 · 0 评论 -
MNIST数据相似度query
嗨,我是人间人爱花见花开的百变大魔王探花小明哥GBM。这个其实在另一篇博文中已经提及,这里再尝试run几次看看。搜索的数据得到的结果的标签应该是相同的,在数据库中的标签数据大于topk的情况下。query data id 355, label 1result: {1574, 1579, 1611, 1614, 1615, 178, 179, 180, 182, 184, 185,...原创 2020-01-13 09:19:04 · 786 阅读 · 0 评论 -
query保存的索引——batch与否是否影响?
这个思维与这篇博文类似,都是菜鸟思维。在KNN保存index之前是否一定要进行一次尝试搜索,此搜索的作用是什么?这个搜索是单个数据与batch数据有区别吗??下面以MNIST数据作为例子来看:1-是否需要一次搜索??尝试不搜索保存下index试试,对比前后结果是否一致。先进行了PCA保存为20D,没有尝试搜索,直接保存index。加载index并进行单个数据的query,已知数...原创 2020-01-12 22:34:16 · 528 阅读 · 0 评论 -
视频随机特征聚类
接上一篇,这是第二个2将我司部分视频按照随机index进行抽帧,然后得到inceptionV3 2048avg features2.1降低维度,采用上一篇的方法PCA或者试试其他方法LDA??【其实LDA线性判别分析是我在听很多大佬报告时经常听到的,说明经常去听报告还是有好处的,一为认识大佬,混个脸熟;二为交流学问,增长见识;三为混吃混喝,但基本上路费都吃不回来,尴尬;四为相亲,哈哈,...原创 2020-01-10 18:12:55 · 682 阅读 · 0 评论 -
视频动作相似性或仅仅是图像的相似性?
哈喽,大家好,我是人见人爱,花见花开的小明哥。视频内容的理解并不容易,语义在人看来是很容易做到的,而网络没有人脑那么大的容量,肯定比不上人。之前提取的视频特征其实说实话是图像特征,我之前也有提到,并没有动作的识别或理解。请充值查看完整版!!但用户其实也并不是太在意是否真的是有某个...原创 2020-01-10 10:23:25 · 5191 阅读 · 0 评论 -
人脸验证1:1——用现有库做
哈喽,我是菜鸟小明哥。今天遇到个问题,其实这个问题存在已久了,就是简单的人脸验证,1:1识别,我觉得这是个基本问题,应用场景广泛,如果这个都没有做过,岂不是很笨,很尴尬。所以今天还是用现有的库做一下。1-人脸检测这个可能是必备的,dlib及MTCNN都有库,直接调用即可实现,简直不要太好用。2-人脸编码这个问题与NLP处理是相似的过程,文本转成向量,这里是人脸变成向量,当然人脸...原创 2020-01-09 15:35:48 · 570 阅读 · 0 评论 -
视频特征再分类??试试看
哈喽,接上一篇:https://blog.csdn.net/SPESEG/article/details/103871268如果说,上面的效果不好,那也没办法,我先试试二分类。对,就是拿inceptionV3的特征直接输入,搞几层CNN试试,或者就是几层dense也行。且看效果如何?【我能说C3D的模型真的很慢吗?242个视频现在还没处理完,卧槽,思路:每16帧均进行预测,步长也是16】...原创 2020-01-07 19:45:11 · 1455 阅读 · 0 评论 -
视频特征提取与PCA&t-SNE
哈喽,大家好。我是人间人爱,花见花开的小明哥。【很多妹子都沉迷我的才华,而无法相信我还是这么帅,哈哈】正文:持续更新中。。。敬请期待视频抽帧是否一定要每秒抽一帧,还是随机选帧,还是固定每个视频固定选取30帧,这个到底有多大的影响??1-每秒抽一帧,cap得到fps,则固定间隔,最后的帧数与时长相同,比如1min,那就是60帧;2-随机选取,纯粹随机选取30帧,random产生随...原创 2020-01-07 15:36:14 · 1518 阅读 · 0 评论 -
TSM视频测试之k400
哈喽,各位小粉丝,我是你们挚爱的小明哥,事无巨细,事必躬亲,身体力行。别人都是跑网络,而我看细节及实现落地。k400动作有的并不符合国人的习惯或者行为,所以我估计效果并不会太好,且看测试效果。996开始,从此相逢是路人。再见!帧级别整体测试:与有DataLoader的一样结果204131290317266373132采用的是如下模型TSM_kinetics_...原创 2020-01-03 17:43:05 · 1208 阅读 · 0 评论 -
视频高层语义特征提取问题
视频高层语义其实也是针对帧来做的,因为帧之间的连续性或者连贯性目前的确有难度,这种连续性就是指行为或者动作的识别,空间上的概念。很多都是时间上的概念,目前视频理解就是如此,复杂的动作,比如SomethingV2中就有很多,根据我上面关于TSM视频的测试可知,抽帧组合的方式其实还是满足时间上的概念的,比如这个博文中提及的帧数选取的问题,无论怎样两个clip序列都是满足时间上的先后顺序的,测试的是...原创 2019-12-31 22:31:57 · 2715 阅读 · 6 评论 -
TSM视频测试——终结篇啊
鉴于上一篇并未完结,其中视频帧数是个问题,如果想要边读边测,那么只有固定规则了,不能说idx是变化的了。考虑到如果分割完视频帧,那么势必要将图片存储起来,因为有的视频长,内存可能会占满,因此不如读取一些帧就做个测试,不是说16帧来个测试吗??但这种预测的速度肯定慢,因为无论是多少帧,只要是大于3帧的,结果都会变成6*16帧,那么这个数据进入模型进行推断时间真的很慢,没有直接的16帧来的快,所以...原创 2019-12-30 21:28:41 · 1935 阅读 · 0 评论 -
TSM模型测试——测试视频
这个玩意TSM从训练开始看,我特么看了近两周了,本来想用官方模型测试一下看看效果得了,结果一看,卧槽没法直接测试视频,官方给的测试还是测试集的测试,还需要用DataLoader,卧槽,一点都不方便,不好用,这也可能是官方引起关注的一个技巧吧,不然大多伸手党直接走了,连个issue都没有,谁还保持关注???请看我的issue,尽管已经回复了一个参考,但我能说这个脚本很垃圾吗??同样是先ffm...原创 2019-12-27 09:13:27 · 2446 阅读 · 0 评论 -
动作识别??——无关于物体仅与动作有关??
接上一篇:https://blog.csdn.net/SPESEG/article/details/103688178寡人看了下验证集的json,发现其中的动作是同样的,而物体不同,比如说:Spinning [something] that quickly stops spinning其中的something是占位符,这或许就something数据集名字的来源占位符可以为:"p...原创 2019-12-24 20:46:54 · 398 阅读 · 0 评论 -
视频分类4
鉴于上次分类结果不容乐观,故而本次增加了0视频,此次测试结果如下:一、实际是0视频,误判帧率,共200多个完整短视频视频[未切分]The total frames number=1474,error rate =0.0000The total frames number=1315,error rate =0.0274The total frames number=1472,erro...原创 2019-12-11 20:23:58 · 1578 阅读 · 2 评论 -
视频二分类结果——3
接上一篇:https://blog.csdn.net/SPESEG/article/details/103403737哈喽,大家好,我是小明哥,依旧是人见人爱花见花开百变大魔王小明哥GBM结果不容乐观,不是跳舞的,甚至是有人的动作,更甚的是没有人也能识别为跳舞,这就尴尬了。一方面增加数据量,重新训练,另一方面看下其他的模型。1-误识别结果,事实是全部视频都不是跳舞other7T...原创 2019-12-09 13:23:41 · 637 阅读 · 1 评论 -
视频行为理解之二
接上一篇,果然不出我所料,都是错的因为我采用的训练集中的非跳舞数据都不是vlog那种形式的,类型也与跳舞的差得很远,所以根据视频风格就区分出来结果了,因而是错误的,所以必须用统一的vlog形式的【尽管按道理说与视频格式形式无关,但是为了消除这种影响还是统一为好】鉴于我分割了800多个dance视频,而nodance视频不够,所以还是将其中的有女人的视频放入nodance一时半会也不好找...原创 2019-12-07 18:40:35 · 557 阅读 · 0 评论