目录
AIGC发展概览
AIGC,即AI文本生成,是基于大型预训练模型的一项技术。它在经典模型的基础上进行了改进,成为科技领域的热门话题之一。
AIGC通过利用模型中的大量参数和数据,寻找规律并具备一定的方法能力,从而生成所需的文本、图像、视频或其他内容。
从狭义上来说,AIGC主要关注图像文本、音频视频等内容的生成。从广义上来说,它还包括生成策略和代码等内容,可以提高代码编写的效率。
在上文左右两边图中,我们可以看到这些生成内容的例子。
-
左边是一张图像,如果你在抖音或者小红书等平台上浏览,可能经常会遇到一些脸部相似的内容。在这种情况下,你不必怀疑,很可能是AIGC用一种软件生成的。
这样的图片看起来灯光和背景会比较统一。如果你不仔细观察其他细节,真实程度还是很高的,它们可以用于广告投放等用途。
-
右边的这张图,是一张对话。我在向他咨询如何写好一份PPT,且不超过200字。在这种情况下,对话会采用一种拟人化的形式,回复方式更加精准和人性化。
对话伙伴会询问你关于PPT主题、排版和演讲速度等方面的需求,并帮助你设计一个好的流程。
与平常的文字文本或生成模型相比,这种对话给人一种与NPC或通用智能交互的感觉。因此,这一技术在chatGPT出现后成为一个新的里程碑。
对于未来的发展,首先我们需要意识到这项技术的实用性,这样我们才会更好地思考如何在各种实际应用场景中大力使用它。
AIGC发展的重要里程碑事件
从前年年底ChatGPT上线以来,它迅速吸引了大量用户的使用。你们刚才看到的截图展示了其中一种使用方式,它给人一种惊艳的通用智能体验。特别是对于那些熟悉AI产品的程序员或用户来说,他们纷纷开始投入使用。
之后,OpenAI开始发布一些新的模型和能力,比如多模态模型。通过上传图片或音频,这些模型可以帮助我们理解其中的内容。这意味着它们具备了视觉和听觉的能力,为我们打开了一个前所未有的领域。
在前年,国内公司如百度、阿里和腾讯纷纷开放了它们自己的大语言模型,而华为、OPPO和Vivo也在他们的手机端推出了大语言模型能力。小米也曾提及过,各个手机厂商基本上都在致力于大语言模型的发展。
与此同时,看到下面一侧,AIGC的发展速度也引起了相关政策法规的关注。由于可能涉及版权和数据源的问题,政策法规部门也在跟进。
之前有新闻提到,各类新闻媒体如纽约时报开始关注是否有机构使用他们的数据进行训练,因为一些生成的内容与其文章高度相似,这可能会引发侵权问题。
另外一方面,AIGC在未来的市场规模是我们评估行业技术发展的一个重要方面。
首先,我们需要关注整个市场的规模预测。若市场规模预测足够庞大,那么AIGC的未来趋势将是一个非常值得投资或创业的前景。
据中国AI产业群体报告显示,到2030年,AIGC的市场规模有望达到万亿级别。
今年,多家厂商已经在主流应用场景中铺开了部署,并推出了一些收费模式。
-
举例来说,像阿里云和华为云开放了大语言模型能力,并提供收费调用服务。
-
另外,一些公司可能会提供图像生成工具,用户可以在其网站上生成并下载图片,下载过程可能需要付费,尤其是对于超出内容的部分。
-
第三种则是用户订阅软件或一次性购买模型,然后针对其私有数据进行定制开发。
这些付费逻辑点可能会在AIGC未来的发展中扮演重要角色,尤其是在面向To C端或To B端的情况下。
右边的图像,是一个名为"妙鸭相机"的app,最近这段时间很流行。它的基本原理是图像生成模型。你可以输入大约20多张图像,让模型学习你的脸部轮廓和细节,并对其进行微调,最后生成符合你预期的证件照。
在AIGC爆发之前,像这种小程序或APP进行AIGC内容生成并不常见,因此使用时会给人一种神奇的感觉。
这种应用的优点是相对于线下或其他拍照方式,它能够即时生成证件照,并且价格更亲民,成品率也相对较高。
总体而言,我认为目前AIGC在这个领域的发展非常迅速,未来将对产业做出重大贡献。过去,数据应用主要基于已有形态,比如输入文本进行分类。
但现在,随着AI技术的发展,与之交互的方式有了根本性的改变。AI可以与用户互动、进行对话,让你感觉像是在与一个智能NPC聊天,这种变化颠覆了以往的流程。
媒体平台AIGC功能
媒体平台AIGC功能-广点通
首先,我使用的是广点通广告账户。作为广告主,当我点击进入后,可以看到创意中心和AIGC工具箱。如果你也是广告主账户,你可以直接进入功能页查看。这些图片都是我从腾讯广告平台上截取的。
从这些图片中可以看出,很多都是关于文生图内容,包括像素材制作、商品核查、智能编辑、快速视图以及文案助手等功能,大多数功能都是以文生图为主。
在左下角,我们可以看到一个行业选项。当你选择素材创作时,它会提供几个选项,包括选择不同行业,然后会针对不同行业做一些个性微调。
它不会一上来就给你一个通用大模型,因为这样的话,模型训练到的效果可能不够精准,输出的效果也不会很好。如果你有对应的行业,选择针对行业进行微调,那么输出的效果就会更符合预期,成功率也会更高。
对于模型的选择,它提供了三个选项。如果你想生成一些常见的物品,比如电商产品、化妆品或瓶子等,写实通用模型可能已经足够好了。
如果你想生成模特或者电商服装模特,我建议选择混元写实模型,因为经过对比,输出的效果更加写实,看起来更加真实。
而如果有去了解过阿里云、腾讯云、华为云这些,在你使用它们的时候,也会提供上述类似的选项给你。
在广点通中,我认为相对比较出色的地方在于右侧的部分。在这一块,当你需要生成文生成图时,你需要有一些文字描述,然后让模型帮助你生成你想要的图片。
在这种情况下,你可能不清楚如何编写文字以确保模型认可并输出高质量的图片。在这点上,广点通做得相当不错。
比如,当我输入“一瓶消毒水”,它可以扩展成三个内容,这显然是针对模型本身的能力。当我们输入“消毒水”时,它可能会自动生成一些内容,比如透明塑料瓶和一些简单的标签。我们可以点击这些标签进行修改,同时微调扩写的细节,对关键词进行修改,使描述更加清晰。
接下来,我将展示一下广点通在这方面的功能。如果我们想要输出一个模特的图片,那么对于输入的描述应该怎样更合适呢?
首先,我可能会简洁地描述为一个穿着连衣裙的模特,正面拍摄,简约背景,高度详细的光线,类似时尚杂志照片的关键词。
因为实际上,整个输出的内容主要是由关键词组成的,要匹配你预期的图片生成样式。你可以看到,管理审核非常严格,左上角和右下角会生成四张图片,但其中两张会被过滤掉。
在这方面,我认为平台还没有做得很好,它应该能够自动过滤掉一些不符合要求的内容,并重新生成符合要求的内容,而不是需要你重新操作来增加交互的程度。
另外,对于右侧的部分&#