2017年10月_数据派THU

转载报名 | IBM苏中：从深蓝到AlphaGo，从大数据到认知商业

数量大、速度快、多样性、不确定性等特点，给大数据的采集、存储、管理和分析都带来许多挑战。如何将纷繁数据化繁为简，实现类似人脑的认知与判断，发现新的关联和模式，从而做出正确的决策，就显得尤为重要。伴随着认知计算时代的到来，计算机将成为人类能力的扩展和延伸。将计算机的运算处理能力与人类的认知能力完美结合，完成人类或机器无法单独完成的任务。认知计算意味着更加高效的信息处理能力、更加自然的人机交互能力、以

2017-10-31 00:00:00 489

转载大数据基础设施建设需要得到重视 | 记清华大数据“应用·创新”讲座

“大数据基础设施是面向数据采集、数据分析和数据应用的创新性系统工程。它一方面指支撑大数据应用和大数据产业的基础设施，另一方面指用大数据和人工智能的方法，解决基础设施运行过程中的问题。”清华-青岛数据科学研究院（以下称“数据院”）大数据基础设施研究中心副主任赵强博士说到。数据时代，基础设施建设已经成为数据科学发展的瓶颈，提高人们对大数据基础设施建设重要性的认知迫在眉睫。10月26日新一期清华大数据“

2017-10-30 00:00:00 3054

转载在TensorFlow中对比两大生成模型：VAE与GAN（附测试代码）

来源：机器之心本文长度为3071字，建议阅读6分钟本文在 MNIST 上对VAE和GAN这两类生成模型的性能进行了对比测试。项目链接：https://github.com/kvmanohar22/ Generative-Models变分自编码器（VAE）与生成对抗网络（GAN）是复杂分布上无监督学习最具前景的两类方法。本项目总结了使用变分自编码器（Va

2017-10-29 00:00:00 3944 1

转载盘点 | 近期活动信息都在这里啦~

想知道近期有什么最新活动？大数点为你整理的近期活动信息在此：消费升级时代的精准营销技术讲座2017年10月31日活动简介：一个广告应该在什么时候投放? 广告应该投放到什么样的应用才有效? 如何实现有效的定向数据营销，帮助企业从数字经济中获得竞争优势？本期清华大数据“应用·创新”系列讲座，我们邀请到了清华校友、美国马里兰大学罗伯特史密斯商学院副教授马力烨与大家分享如何

2017-10-28 00:00:00 461

转载 MIT-THU未来城市创新网络即将和你见面！

一个月前，清华大学副校长、教务长，清华大学全球产业4.5研究院（“产研院”）院长杨斌访问美国麻省理工学院，会见教务长马丁·施密特（Martin Schmidt）、副教务长理查德·莱斯特（Richard Lester），双方签署“麻省理工-清华未来城市创新网络”（MIT-Tsinghua Future City Innovation Connector）项目合作协议。两校双聘教授、产研院未来

2017-10-28 00:00:00 1510

转载三步教你搭建给黑白照片上色的神经网络 !（附代码）

来源：量子位本文长度为7970字，建议阅读8分钟本文为你介绍通过搭建神经网络，来给黑白照片上色的教程。深度学习云平台FloydHub最近在官方博客上发了一篇通过搭建神经网络，来给黑白照片上色的教程，在Twitter和Reddit论坛上都广受好评。FloydHub是个YC孵化的创业公司，号称要做深度学习领域的Heroku。它在GPU系统上预装了Tensor

2017-10-28 00:00:00 12520 1

转载一个框架解决机器学习大部分问题！

来源：大数据挖掘DT数据分析本文长度为2519字，建议阅读5分钟本文为你介绍一个几乎可以解决任何机器学习问题的自动的机器学习框架。一个叫 Abhishek Thakur 的数据科学家，在他的 Linkedin 发表了一篇文章 Approaching (Almost) Any Machine Learning Problem，介绍他建立的一个自动的机器学习框架，几乎可以解

2017-10-27 00:00:00 593

转载完整复现何恺明ICCV获奖论文结果并开源 !（附论文&开源代码）

整理自：AI科技评论、AI科技大本营、图森未来本文长度为1434字，建议阅读3分钟本文为你介绍何恺明ICCV 2017两篇获奖论文，并附上完整复现论文结果的开源代码！ICCV 作为计算机视觉的顶级会议，2017年共收到2143篇论文投稿，比上一届ICCV2015的1698篇增加了26.2%。共621篇被选为大会论文，录用比例28.9%；poster、spotlight、oral

2017-10-26 00:00:00 8629 65

转载数据蒋堂 | 非常规聚合

来源：数据蒋堂作者：蒋步星本文长度为1200字，建议阅读2分钟本文为你研究业务上有意义的其它形式聚合运算。标准SQL中提供了五种最常用的聚合运算：SUM/COUNT/AVG/MIN/MAX。观察这几个运算，我们发现它们都可以看成是一个以集合为参数返回单值的函数，我们就先把这个共同点理解为聚合运算的定义，把集合变成单值，多个值变成一个值，也就是发生了"聚合“，所以

2017-10-25 00:00:00 407

转载《大数据实践课》开创实践教学新模式：清华大数据能力提升项目特色课程系列报道之一

2014年4月，清华大学顺应时代潮流成为全国第一批成立大数据研究机构的高等学府。四年来，清华-青岛数据科学研究院（以下简称：数据院）与研究生院共同设计组织实施了以大数据能力提升项目为主的大数据人才培养体系。清华大学大数据能力提升项目在“学校统筹，问题引导”的指导原则下，形成大数据思维与技能、跨界学习、实操应用相结合的课程体系，重点培养具有大数据思维和应用创新的“π”型人才。2017年7

2017-10-24 00:00:00 1587

原创独家 | 教你用Scrapy建立你自己的数据集（附视频）

原文标题：Using Scrapy to Build your Own Dataset作者：Michael Galarnyk 翻译：李清扬全文校对：丁楠雅本文长度为2400字，建议阅读5分钟数据科学中，数据的爬取和收集是非常重要的一个部分。本文将以众筹网站FundRazr为例，手把手教你如何从零开始，使用Python中非常简便易学的Scrapy库来爬取网络数据。

2017-10-23 00:00:00 390

转载自然语言处理领域重要研究及资源全索引！

来源：机器之心作者：Kyubyong Park本文长度为3071字，建议阅读6分钟本文为你整理自然语言处理最新深度研究成果。自然语言处理（NLP）是人工智能研究中极具挑战的一个分支。随着深度学习等技术的引入，NLP 领域正在以前所未有的速度向前发展。但对于初学者来说，这一领域目前有哪些研究和资源是必读的？最近我们整理了一份完整列表。 GitHub 项目链接：ht

2017-10-22 00:00:00 3884

转载两代“狗”开发者首次解答30多个问题，一定有你想了解的！（附论文下载）

本文经AI新媒体量子位（公众号ID:qbitai ）授权转载，转载请联系出处本文长度为4660字，建议阅读5分钟本文为你整理两代AlphaGo主要开发者开展的超级问答AMA（Ask Me Anything）内容。昨天，新一代AlphaGo Zero发布，引起轰动。AlphaGo Zero完全从零开始，不需要任何历史棋谱的指引，更不需要参考人类任何的先验知识，完全靠自身强

2017-10-20 00:00:00 729

转载用朴素贝叶斯模型预测柯南中被害人和凶手！

本文来自公众号：超级数学建模微信号：supermodeling作者：周铂本文长度为3000字，建议阅读5分钟本文介绍朴素贝叶斯模型通过角色特征（性格、行为、与他人关系等）预测其身份（凶手/被害人）的方法。这个研究是我在一门课上的期末作业，旨在用一些广泛流传的《柯南》"规律"（比如毛利小五郎指出的凶手大多是好人）预测凶手和被害人，并定量地探索作者——青

2017-10-19 00:00:00 653

转载数据蒋堂 | 再谈有序分组

来源：数据蒋堂作者：蒋步星本文长度为1200字，建议阅读2分钟本文为你分析考虑集合的有序性，结果集的成员次序是否具有业务意义。细心的读者可能会发现，我们在讨论有序分组时只研究了待分组集合的成员次序对分组运算可能的影响，但即然要考虑集合的有序性，那么结果集的成员次序是不是也有业务意义呢？确实有意义，不过重要程度不如原集有序性。分组结果集的有

2017-10-18 00:00:00 453

原创独家 | 磁共振斑块成像的技术研发、案例与数据挑战（附视频）

[导读] 随着磁共振管壁成像技术的迅速发展，大量多层次、多维度的图像数据应运而生。然而在图像数据的判读分析、风险预测模型的构建和人群健康管理模式的探索等方面存在诸多挑战。人工智能和大数据技术可能为脑动脉易损斑块的精准评估和卒中风险预测带来新的机遇。本期清华大数据“应用·创新”系列讲座邀请到清华大学生物医学影像研究中心研究员赵锡海老师与大家分享脑动脉粥样硬化斑块磁共振成像的技术研发、

2017-10-18 00:00:00 1257 6

转载清华张学工团队入选“人类细胞图谱计划”首批项目

来源：测序中国作者：Reggie本文长度为2600字，建议阅读3分钟本文为你介绍“人类细胞图谱计划”公布首批38个项目，并分享清华大学张学工教授专访。美国太平洋时间2017年10月16日，与“人类基因组计划”相媲美的“人类细胞图谱计划” 首批拟资助的38个项目正式公布。清华大学张学工负责的项目是其中唯一一个由中国科学家承担的项目。人类细胞图谱计划是一项大型国际合

2017-10-17 00:00:00 624

原创独家 | 手把手教TensorFlow（附代码）

上一期我们发布了“一文读懂TensorFlow（附代码、学习资料）”，带领大家对TensorFlow进行了全面了解，并分享了入门所需的网站、图书、视频等资料，本期文章就来带你一步步上手TensorFlow。1. 前言深度学习算法的成功使人工智能的研究和应用取得了突破性进展，并极大地改变了我们的生活。越来越多的开发人员都在学习深度学习方面的开发技术。Google推出的Tens

2017-10-16 00:00:00 1243

原创搜狗研究员：详解基于深度学习的语音分离

来源：AI 研习社本文长度为3000字，建议阅读6分钟本文为你介绍语音分离方面主要的研究课题和相关方法。[导读] 基于深度学习的有监督语音分离在学术界和工业界越来越受到关注，也是深度学习在语音领域的应用中重要的一部分。作为雷锋网 AI 研习社近期组织的一系列语音领域应用的分享会之一，本次我们请到了来自搜狗的研究员文仕学对语音分离方面主要的研究课题和相关方法做一些介绍。

2017-10-15 00:00:00 2444

原创数据蒋堂 | 有序分组

来源：数据蒋堂作者：蒋步星本文长度为1500字，建议阅读3分钟本文为你讲解以有序集合为考虑对象时，如何考虑成员次序对分组的影响。我们知道，SQL延用了数学上的无序集合概念，所以SQL的分组并不关注过待分组集合中成员的次序。我们在前面讨论过的等值分组和非等值分组，也都没有关注过这个问题，分组规则都是建立在本身的成员取值本身上。但如果我们要拓展SQL，以有序集合

2017-10-14 00:00:00 508

原创姚期智云栖大会首日演讲：为什么我说现在是金融科技的“新”黄金时代

2017年10月11日，阿里云栖大会在杭州盛大开幕。当日，阿里巴巴集团宣布成立 “达摩院”，一家研究基础科学和颠覆式技术创新的机构。达摩院首批公布的研究领域包括：量子计算、机器学习、基础算法、网络安全、视觉计算、自然语言处理、人机自然交互、芯片技术、传感器技术、嵌入式系统等，涵盖机器智能、智联网、金融科技等。清华大学交叉信息研究院院长姚期智院士出席活动并在ATEC蚂蚁金服专

2017-10-13 00:00:00 593

原创直播 | 脑血管斑块磁共振成像：技术研发、临床转化和数据挑战

脑卒中（脑中风）是我国居民的首位死因，因其具有高发病率、高死亡率、高复发率和高致残率等特征，现已成为国人最为沉重的健康负担。脑动脉易损斑块破裂是缺血性卒中的主要致病原因。因此，早期识别脑动脉易损斑块是预防脑卒中的关键。磁共振高分辨率管壁成像技术能够精准识别脑动脉斑块的易损特征，是目前评价斑块易损性的最佳无创性手段。现阶段磁共振管壁成像技术已由二维成像发展为三维成像，大大提升了成像

2017-10-12 00:00:00 1027

原创带你训练一个简单的音频识别网络（附代码）

来源：大数据文摘本文长度为7600字，建议阅读10分钟本文将一步步向你展示，如何建立一个能识别10个不同词语的基本语音识别网络。你需要知道，真正的语音与音频识别系统要复杂的多，但就像图像识别领域的MNIST，它将让你对所涉及的技术有个基本了解。完成本教程后，你将拥有一个模型，能够辨别一个1秒钟的音频片段是否是无声的、无法识别的词语，或者是“yes”、“no”、“up

2017-10-09 00:00:00 9742

原创第四范式程晓澄：机器学习如何优化推荐系统

本文经AI新媒体量子位（公众号ID：qbitai )授权转载，转载请联系出处本文长度为9532字，建议阅读10分钟本文为你介绍推荐系统的诞生土壤和早起演进、推荐系统当下的基本架构以及如何搭建一个推荐系统。9月20日晚，我们邀请到第四范式资深算法科学家程晓澄，他以“机器学习在推荐系统中的应用”为题，与大家分享了如何用机器学习来优化推荐系统相关技术问题。程晓澄是第四

2017-10-08 00:00:00 4230

原创李飞飞：物体识别之后，计算机视觉的进展、目标和前景何在？

来源：AI科技评论本文长度为4170字，建议阅读6分钟本文为你解读机器计算机视觉的进展与前景。9 月 26 日，机器人领域的顶级学术会议 IROS 2017 进入第二日。上午，著名华人计算机视觉专家、斯坦福副教授李飞飞，在温哥华会议中心面向全体与会专家学者作了长达一小时的专题报告。在报告中李飞飞与大家讨论了计算机视觉的目标：丰富场景理解，以及计算机视觉与语言结合和任

2017-10-07 00:00:00 4773

原创机器学习和深度学习视频资料精选（附学习资料）

来源：大数据挖掘DT数据分析本文长度为633字，建议阅读3分钟。本文为你介绍机器学习和深度学习的视频资料。第一部分基础语言pandax视频教程链接: https://pan.baidu.com/s/1pLqavVX密码: fathpython入门到精通链接: https://pan.baidu.com/s/1mhVNIkC 密码: cvp3第二部分数

2017-10-05 00:00:00 1974 1

原创手把手教你安装深度学习软件环境（附代码）

来源：机器之心本文长度为2800字，建议阅读5分钟。本文向你解释如何在一台新装的 Ubuntu 机器上安装 Python 和 Nvidia 硬件驱动、各类库和软件包。为了进行强化学习研究，我最近购置了一台基于 Ubuntu 和英伟达 GPU 的深度学习机器。尽管目前在网络中能找到一些环境部署指南，但目前仍然没有全面的安装说明。另外，我也不得不阅读了很多文档来试图理解安装细节——其中的一些并不完整，

2017-10-04 00:00:00 5043

原创自然语言处理数据集免费资源开放（附学习资料）

作者：Jason Brownlee翻译：梁傅淇本文长度为1500字，建议阅读3分钟本文提供了七个不同分类的自然语言处理小型标准数据集的下载链接，对于有志于练习自然语言处理的新手而言，是极有帮助的资源。在你刚开始入手自然语言处理任务时，你需要数据集来练习。最好是使用小型数据集，这样你可以快速下载，也不用花费很长的时间来调试模型。同时，使用被广泛使用和了解的标准数据集也是有所帮助的，你可以用你的结果来

2017-10-02 00:00:00 4806 1

数据派THU