人工智能智能制作PPT
一、问题的提出
1.1 人工智能在幻灯片制作领域应用价值与意义
1.2 人工智能制作幻灯片需解决的技术难题
二、问题的论证
2.1 人工智能在幻灯片制作域技术路线
2.2 现有技术方案与应用案例
2.3 技术应用效果
三、结论与展望
3.1 现有技术的不足与有待改进
3.2 新技术方法预测或下一步研究
3.3 工程伦理挑战
3.4 结论
参考文献
介绍PPT
一、问题的提出
1.1 人工智能在幻灯片制作领域应用价值与意义
根据Facebook的有项调查研究,80%的人每天工作都会涉及到PPT;
其中85%的人每天会查看10份以上的PPT。
所以说PPT已经成为当代社会人,打工人的左膀右臂,
而且PPT的应用场景广泛,无论是大中小学上课,学生毕业答辩、小组课题研讨、公司商业演讲、老板会议汇报还是工作梳理,招商引资、项目申报、产品发布、上市融资等都离不开PPT
我现在也正使用PPT来传递关于人工智能制作PPT的念想和实现思路,离开ppt,演讲就难以让观众理清行文的逻辑和抓住我所说的重点
以上都是PPT对人们的重要性,但是做过PPT的人都知道,制作一套精美贴合实际的PPT有多么耗时间,
而且在当代社会的巨大压力下人们很难抽出大量的时间来学习并自己制作PPT,
所以才有了老教授反人类的蓝白PPT,白底黑字密密麻麻的根本不想看的PPT
但如果随着科技的快速发展,幻灯片制作被人工智能所替代后,这项技术可以为任何有PPT需求的人提供便利,节省他们的节省时间精力,再也不用为做ppt强说愁了
BUT在关于智能制作ppt市场上,我们可以看到有很多PPT插件,但无论是PPT美化大师也好,islide也罢,本质上都是辅助人设计的,却没有一款软件是可以智能制作的ppt!
这也是情有可原的,要将大量的内容,逻辑清晰、系统全面地整合到短短十几页的PPT里,与此同时,风格还要简约大气,贴合主题、场景,确实是一件不容易的事情。
而且对于目前阶段尚未达到强人工智能的AI来说更是一个挑战
1.2 人工智能制作幻灯片需解决的技术难题
文本的处理
版面设计
二、问题的论证
2.1 人工智能在幻灯片制作域技术路线
NLP英文名是Natural Language Processing中文名就是自然语言处理
其中N是指神经系统L是指语言P是指指令
我们可以通过NLP,通过研究我们的大脑如何制作ppt的过程转换为机械制作ppt
2.2 现有技术方案与应用案例
文本的处理
我们的目标是可以使用人工智能的中文自然语言处理,对文本内容进行处理,将文本分成ppt主题,ppt副标题,ppt内容,以及演讲稿内容,以便之后PPT制作的调用
其中提到了对文本内容进行处理,我们要有文本才能进行处理啊。首先我们应该接受用户的文章标题输入,以及相关资料文本的输入
然后我们可以通过网络爬虫,即一段自动执行的程序,能把访问到的网页记录保存下来。通过指定好种子(起始连接)、选择合适抓取策略(关键词搜索的结果列表、种子页面的链接等)以及明确好提取的内容(抽取网页中的正文、图片等),就能搭建出满足自己需求的爬虫。然后利用用户提供的文章标题相应的关键词,对全网的文章进行信息检索与布尔运算,通过文章的浏览量,点评数,点赞数,引用数,和ppt主题内容的相关性进行加权计算,取前十名的文章下载,但是整体最优秀不代表最合要求和局部最优秀,我们可以对其文章标题,副标题,文章内容进行分类,再在小类中通过和主题关键词的相关性进行加权打分,选取最优内容保存,并通过逻辑来安排ppt的进行顺序
这里有一些相关问题的实现问题,
首先是关于用户提供的文章标题和相关资料中相应的关键词的提取问题
以及如何识别相关副标题的逻辑问题,比如是并列逻辑、顺序逻辑还是其它逻辑的逻辑问题
关于关键词问题,我们可以通过识别成具有特定意义的实体,包括人名,地名,机构名,专有名词等等,来进行关键词提取
但是如何让只知道0和1的计算机领悟我们博大精深的汉语呢?
这就关系到了计算机如何理解中文语料的问题,facebook机械学习的工程师mikelov已经提出创新性的方法wordsvel,通过记录神经网络模型的权重来解决减轻one hot 和TF-IDF的稀疏矩阵和词向量维度过高和效率底下的问题,又使用n-gram算法来解决计算机识别字的顺序问题,相关内容这里就不多展开了
回到正题,我们可以使用命名实体识别(named entity recognition)利用隐马尔可夫模型和维特比算法来提取关键词
我们可以建立几个标签,
如
then通过字典、文章分析,
计算单字的转移概率,也就是第一个字转移到第二个字仍是词组的概率
发射概率,也就是所在词组在字典文章中的概率
以及初始隐状态概率,就是词组是标签的概率
来训练隐马尔可夫模型模型
然后用维特比算法进行修正,让局部最优解变成全局最优解
之后利用训练好的HMM模型将输入的可读文本语句转换成不可观测的隐状态,来判断关键词
比如用于判断一句话
也可以用于判断逻辑
例如并列的人名
和公司名
然后利用检索文本中的关键词来判断词语之间的逻辑关系问题
例如
“和”就是“并列”逻辑、“因为...所以”是因果逻辑、“第一步第二步第三步”就是“流程”逻辑
来安排ppt进行顺序
版面设计
文档处理完成,我们就可以来实现人工智能在版面设计方面的工作了
首先我们可以通过网络爬虫获取大数据时代下网络上的大量PPT模板或者ppt的数据库 ,以及我们可以利用用户提供的官方,老板,或者同伴公认做得好的ppt样本,增加此样本在样本选择中的权重。
之后通过标题和相关介绍给相关模板加标签。
然后通过神经网络,通过和主题的相关程度,相关关键词的百度图片的颜色重复率统计,来确定最佳配色以及美术设计等各种参数的加权计算,选取最合适的模板。
选取模板后识别并增删模板中的文本框,修改其中内容,并自动插入文字,形成文字初稿。
但只有文字的PPT不是好PPT,还应解决图片配图和逻辑的问题,
我们先训练机器对设计理解的模型,建立一个框架印象
先将大量设计素材的设计数据进行结构化标注,最后经过一系列的神经网络学习,输出空间 + 视觉的设计框架.
框架设计中,首先通过人工标注的方式,让机器理解该幅设计有哪些元素组成,比如它的商品主体,花的背景,蒙版. 往上一层,还需要通过设计的经验知识,定义一些设计的手法和风格. 手法指的是这些元素为什么可以这么构成. 最上面这一层是风格,当这些元素构成之后,它从美学或者视觉角度看是一个什么感受,让机器知道它是用什么组成.
下一步是准备设计的原始文件,比如一系列花朵和设计方法,输入到深度学习网络中. 该网络具备一定记忆功能,可以记住设计步骤中复杂的过程.
经过这层神经网络学习之后,会得到一个设计框架. 从技术上理解,它是一堆空间特征和视觉特征构成的模型. 从设计师的视角来看,它相当于设计师脑里在做一组设计之前那个大概的框架印象.
在设计框架的同时,元素中心也在批量输入元素(如底图,主图、修饰元素等),由元素分类器进行学习,按照视觉特征和类型分类.
具体来说,提前收集一些版权图库,以及自己造设计元素的方式,输入到元素分类器中. 这个分类器会把这些元素分布到各个类型里,比如背景、主体、修饰,也会完成图片库的提取.
行动器的主要作用,是根据需求从风格学习模块中选择设计原型,并从元素中心中选取元素,规划出多个最优生成路径,完成图片设计.
这与设计师实际工作过程非常相似,如设计师要设计一朵花,也会在软件里会不断去调每个位置、每个像素、每个角度. 同时,整个过程也是一个强化学习的过程,行动器会在不断试错中更聪明、更智能.
计算机理解设计以后,我们可以通过网络爬虫,在各大专业非专业的网站上下载大量高清相关性高的图片,或者使用云图库,或者插入相关视频。然后利用关键词和逻辑顺序,删除冗余图片,通过设计框架进行图片设计,之后按逻辑词编写对应的代码,根据逻辑从而将文本内容快速转化为逻辑图形,然后快速调取“并列”“递进”等的Smartart图形套上去,就完成了
但只有呆板的图片和文字还不行,我们还应解决图片文字排版和ppt之间的动画设计问题
好在现在市场上已经有相对成熟的技术了,例如口袋动画插件,就可以一健排版一键动画,我们只用利用代码调用插件就可以达到效果
而艺术字,市场上已经有piti等插件支持一键美化,我们可以通过代码调用
而对于文字配上数据就需要数据表格直观化,
好在现在市场上islide已经制作出成熟的模板,我们只需要将相关数据调出导入插件中就可以达到自动生成的效果
此过程完成后,最后由于人工智能可以极大提高制作ppt的效率,人类做一天的ppt,可能人工智能在极短时间内就可以做几十个,还可以通过代码和算法进行打分,输出评分最高的三个,以供用户选择。用户使用的过程中产生了更多的数据反馈到大数据库中,更多更精准的数据使AI不断学习并应继续应用于设计当中,从而使新技术赋能新设计,新设计赋能新商业
2.3 技术应用效果
人们通过内容输入,瞬间就可以获得千人千面的PPT
三、结论与展望
3.1 现有技术的不足与有待改进
现在人工智能只能调用以前的PPT逻辑,然后参考和模仿
而无法形成具有创造新的思路和方案,以及令人构想耳目一新的思路
总的来说人工智能制作还没有办法进行逻辑创新,
3.2 新技术方法预测或下一步研究
更深一步的发展,可能要等待计算机学科的深度发展,生物学课对人脑的进一步认识,甚至是哲学上对人工智能的更深一步的认识
以后美工的工作将会被人工智能所取代,但设计被取代的可能性较低,内容创意设计和全链路设计会成为设计师未来发展的方向
3.3工程伦理挑战
虽然有人说懒是人类进步的阶梯,但有人对人工智能化与设计的矛盾提出了质疑
他们认为没有情感化的思考,人工智能制作的PPT会同质化严重。
有可能这样的人工智能技术只会把人变成傻子,
设计是一个全局化思维过程,你的审美能力、逻辑思维、文字排版都会体现在你最后的结果上。
全部交给机器来完成,将会逐渐丧失你独立思考的能力,
太多的影视、文学作品里看到过人工智能独霸一方与人类对抗的故事。
一切的起源都是因为这种贪图方便开始的,懒惰最终会毁了我们自己。
工具永远只是协助更高效的完成工作,不要把最后的底线都交给机器。
3.4 结论
人工智能智能制作PPT还在纸上谈兵的阶段,还没有实现市场化,但是有很多互联网公司都在进行积极的尝试,例如阿里鲁班智能设计平台对商业广告和别墅设计进行了探索,Office 365的排版神器,设计灵感和智能图文对图形和文字的排版进行了探索等,随着未来对人工智能NLP领域的深入探讨和其他学课的共同发展,人工智能智能制作幻灯片将脱离纸上谈兵的阶段,让这个想法落地,让其水平接近专业设计师设计的效果.
参考文献
[1]Enhanced LSTM for Natural Language Inference
[2]Bilateral Multi-Perspective Matching for Natural Language Sentences
[3]Natural Language Inference over Interaction Space
[4] 蓝江《人工智能的伦理挑战》[N].人民日报2019年04月01日
[5] Islide《如何使用人工智能技术生成ppt?》[EB/OL] 2019-02-19
[6]《Discussion on Web Crawlers of Search Engine》2016-12-12
[7]杨状元,林建中.人工智能的现状及今后发展趋势展望[J].科技信息,2009(04):184~185.
[8]郝勇胜.对人工智能研究的哲学反思[D].太原:太原科技大学,2012.
[9]史忠植,王文杰.人工智能[M].北京:国防工业出版社,2007.