事情的起因是我在做一个自用软件时,需要测试文字生成图像的功能。于是就对现在能使用的ai大模型去做了一些尝试。输入几组我的描述性文字其中的一张图片令我大为震撼。
(师妹 师兄 温酒 毛驴)
问题大家应该可以发现,一位图像人物的下半身时有问题的。同时从人的逻辑上,这种图缺少内核逻辑。在NLP的成熟度如此高的情况下,对描述性文字进行逻辑上的重构并不是太麻烦的事情。
豆包扩充文字
(在一个宁静的日子里,师兄与师妹并辔而行,一头毛驴慢悠悠地跟在他们身后。阳光透过树叶的缝隙洒下,斑驳地落在他们身上。师兄手中提着一壶温酒,时不时轻抿一口,那醇厚的酒香在空气中弥漫开来。师妹眉眼弯弯,笑着与师兄交谈,清脆的声音如同银铃般在林间回荡。微风拂过,吹起他们的衣角,仿佛时间都在这一刻静止,只剩下这温馨的画面和那带着暖意的温酒气息。)
这个描述后生成的图像还是一言难尽。
文心 扩充文字
(
在一个宁静的黄昏,夕阳如熔金般洒落在古朴的院落里,师兄与师妹并肩坐在石桌旁,享受着这难得的闲暇时光。师兄手持一只精致的陶壶,正细心地温着一壶陈年佳酿,那酒香随着袅袅升起的热气,轻轻弥漫在空气中,引得周围的空气都似乎变得柔和而醉人。
师妹则坐在师兄的对面,脸上洋溢着温暖的笑容,眼中闪烁着对师兄细致入微关怀的感激。她偶尔低头轻抚着身旁那头温顺的毛驴,那毛驴似乎也感受到了这份和谐与宁静,不时地发出几声悠长的鼻息,为这画面增添了几分生动与趣味。
师兄温酒的动作既熟练又充满仪式感,仿佛每一次倾倒都承载着对过往岁月的怀念与对未来日子的期许。他轻声对师妹说:“这酒,如同我们的情谊,越陈越香,无论时光如何流转,它都会是我们心中最温暖的记忆。”
师妹闻言,眼眸中闪过一丝感动,她轻声道:“是啊,师兄,有你在身边,每一天都像是被温暖包围。这毛驴,还有这壶酒,都是我们共同走过的见证。”
随着夜幕降临,院中的灯火渐次亮起,师兄与师妹的欢声笑语与远处偶尔传来的虫鸣交织在一起,构成了一幅温馨而美好的画面。而那头毛驴,似乎也被这份温情所感染,静静地站立在一旁,守护着这份难得的宁静与幸福。
)
这个图像还是存在问题,但是比上面的两组的话,相对好了很多。
ai 在未来肯定是逐步走向类人的思维,但是ai不能只有简单的拼接能力,更应该具有思维逻辑。
视觉真实性上来说我们应该提高细节处的优化,从图像与描述的匹配度上来说,不能单独去对文字进行匹配拼接,更应该准确理解文本描述,去具备一定的构图逻辑,而不是拼接。