斯坦福人工智能百年研究：人工智能如何在医疗、交通大显身手

最新推荐文章于 2022-11-17 19:56:25 发布

chengyue3227

最新推荐文章于 2022-11-17 19:56:25 发布

阅读量76

点赞数

文章标签：爬虫移动开发人工智能

原文链接：https://my.oschina.net/u/3904760/blog/1861786

版权

虽然哥也是一媒体人，但黑起自己的行业来是丝毫不会手软的，假设你现在是一家媒体的IT部门人员，这家媒体每天做的最多，最重要的工作就是从别的网站复制文章过来，然后加一些自己的记号上传到自己的网站上去，而你虽然是一介码农，但是却心怀天下，想要拯救公司里那些苦逼的编辑。于是你决定自己编写一个程序，帮助编辑们一键完成，甚至自动完成这些复制文章的事，你应该怎么做？

当然，用人工智能来复制粘贴看起来是有点大材小用了，但这活看起来很机械，倒也需要一定的应变，比如网站的页面里除了正文外还有很多乱七八糟的广告链接，只要网站的设计者不会太蠢，设计出来的结果应该是人一眼就能看出来哪个部分是正文哪些是无关信息。但一个算法要如何识别正文和广告/无关链接的区别呢？而且算法如何在网站的内容中寻找到哪些是值得Copy的内容呢？（是谓“热点”）

最关键的是，细细一想，这些要注意的事项还真挺多。你平时学的If else似乎不够用了，你该用什么语言来完成你的惊世算法呢？

说到这里，我们就面临了李开复提到的目前的深度学习面临的第一个挑战：没有平台

深度学习的挑战之一：平台

人工智能目前还没有一个统一的平台。在深度学习方面，现在的人懂就是懂，不懂就是不懂。这就是为什么Google最近花了重金不断在挖业界顶尖的人才，给年轻人开出的年薪甚至超过200万美元。这些人也就是二十来岁，博士刚毕业不久，怎么会这么值钱呢？

为什么这么贵呢？李开复老师有提到，这些人被投入到各个领域的AI研究中去后，可能很快就能创造出千万美元甚至上亿美元的价值了。但他可能没有表达出来的一个意思是，现在的AI开发真的很难，很难，之所以这么难，就是因为没有平台。

人工智能发展最大的问题是没有平台化？

平台是一个比较玄乎的概念，因为现在人工智能的发展还处于一种摸着石头过河的状态，因此没有人能预测所谓的“平台”的准确形态是什么样，这话题铺开来讲可能能单独讲一篇文章，但简单来说，大概会是一种“统一标准”的状态。比如说现在一提神经网络算法人们就会想起很多种概念，CNN、RNN、DNN等等，而具体到应用实现的方法也千奇百怪。所有基于AI的编程，都是要从0开始编起，一点一点构筑起算法。但如果有一天有一个类似于iOS、安卓的东西，探索出了一种最优秀的算法（当然这只是打个比方，不一定有最优秀的算法。），并且将其集成进了某种程序中，后人如果想进行神经网络有关的开发，只需要调用它提供的API就能完成了。那样就能极大的简化深度学习开发的难度。

智搜（Giiso）信息成立于2013年是国内领先的“人工智能+资讯”领域技术服务商，在大数据挖掘、智能语义、知识图谱等领域都拥有国内顶尖技术。同时旗下研发产品包括编辑机器人、写作机器人等人工智能产品！凭借雄厚的技术实力，公司成立之初，就获得了天使轮投资，并在2015年8月获得了金沙江创投500万美元pre-A轮投资。

深度学习挑战之二：数据的收集和运算

当然作为一个心怀天下的码农，这点小事肯定是难不倒你的，你应该很快就找到了合适的语言系统，比如Tensorflow，比如Scikit，开开心心的编起了程序。不过接下来你要面对的问题可能就没有那么好解决了：它们都从两个方向分别决定着你的算法训练的效果：训练数据的量和训练的速度。李开复老师将这个问题拆成了两个问题，但我们认为，其实他们都是关于算法训练的问题，因此其实可以归于同一个问题。

深度学习的网络太大，需要海量的数据。

因为数据太多，所以计算特别的慢，所以需要非常大的计算量。

人工智能发展最大的问题是没有平台化？

如何识别网站内的正文位置倒还是个比较好解决的问题，如果你心一横，决定只从几大（十几大）主流媒体内复制文章的话，用if else都是可以解决的，毕竟虽然每个网站之间正文部分的规律不同，但每个网站内部的文章还是基本遵循相同规律的。实在想做一个通用的算法来说，规律也不难找，比如正文部分的文字密度会突然变大而html代码的密度则会暴跌，比如正文的始终基本都是<p></p>。如果网站每天能更新四五百篇文章的话，估计训练个十天左右就能达到非常高的准确度了。

难点在于“追热点”啊！

智搜（Giiso）信息成立于2013年，是国内首家专注于资讯智能处理技术研发及写作机器人核心软件开发和运营的高科技企业。公司成立之初，就获得了天使轮投资，并在2015年8月获得了金沙江创投500万美元pre-A轮投资。

互联网的热点每天都在变化，你的算法怎么知道今天的热点是什么？又如何知道算法正在扫描的这篇文章是不是跟热点有关的文章，写的如何？要让算法训练出判断这些信息的能力，怎么说也要扫描个几千万上下篇文章来训练吧？作为一个终极发烧友码农，你第一次感觉到了你面前的那台电脑里的8核i7和GTX Titan是那么的无力，哎，写个爬虫慢慢爬着先吧。看改天能不能改天网络低峰期用公司的服务器偷偷跑一跑。

要让深度学习算法自己进化到一个比较高的水平，李开复老师估计至少要有10亿级别的数据，如此庞大的数据是相当难以收集的。而且，只有这些数据都是你自己的时候，他们在你手中才能发挥出真正的价值，并且由于数据量的庞大其需要的运算量也是相当庞大的，要在深度学习领域大展身手，最好有自己的计算设备，比如拥有自己的服务器机群。因此我们看到，初期在人工智能有所建树的都是世界级的、像微软、谷歌和Facebook这样的公司，他们不仅拥有更多的资金、更好的人才，最重要的是，他们拥有海量的数据。

深度学习挑战之三：没有反馈

“有点奇怪但也合理：机器无法用人的语言告知做事的动机和理由。即便机器训练做了很棒的深度学习，人脸识别、语音识别做的非常棒，但它不能和人一样，它讲不出来这是怎么做到的。虽然有人也在做这方面的研究，但是在今天，如果一个领域是不断需要告诉别人该怎么做，需要向别人去解释为什么的，那这个领域对于深度学习来讲还是比较困难的。比如Alpha Go打败李世石，你要问Alpha Go是为什么走这步棋，它是答不上来的。”

转载于:https://my.oschina.net/u/3904760/blog/1861786

chengyue3227

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
斯坦福人工智能百年研究：人工智能如何在医疗、交通大显身手

虽然哥也是一媒体人，但黑起自己的行业来是丝毫不会手软的，假设你现在是一家媒体的IT部门人员，这家媒体每天做的最多，最重要的工作就是从别的网站复制文章过来，然后加一些自己的记号上传到自己的网站上去，而你虽然是一介码农，但是却心怀天下，想要拯救公司里那些苦逼的编辑。于是你决定自己编写一个程序，帮助...
复制链接

扫一扫