2017年12月_数据派THU

转载为你分享10篇NLP、CV领域优质论文

来源：PaperDaily本文长度为2200字，建议阅读6分钟本文为你盘点近期值得关注的NLP、CV领域相关论文。自然语言处理01Knowledge Graph Embedding: A Survey of Approaches and Applications@jerryshi 推荐#Knowledge Graph本文对当下流行的 Knowledge Graph Eembedding 进行汇总，

2017-12-31 00:00:00 1057

原创数据派新年寄语 | 新时代，新年好！

关于2017 2017，是人工智能走向繁荣的一年。AI江湖风起云涌，无意的一颗石子则激起千层浪。 AlphaGo2.0以3:0完胜柯洁▼它太完美我很痛苦，看不到任何胜利的希望。---柯洁赛后哽咽。 “人工智能”首次写入政府工作报告▼率先布局、把握机遇，这是属于历史的接力棒。国务院出台《新一代人工智能发展规划》▼这或许是人工智能技术走出实验室，走向市场，实现产业化的一剂“强心针”。科技部公布人工

2017-12-30 00:00:00 1092

转载一文读懂卷积神经网络CNN（学习笔记）

来源：机器学习算法与自然语言处理作者：白雪峰本文为图文结合，建议阅读10分钟。本文为大家解读如何简单明了的解释卷积，并且分享了学习中的一些方法案例。首先文章的提纲为：CNN栗子镇楼What is CNN 什么是卷积什么是池化Why CNN对CNN的其他一些理解CNN实现（接口）1、CNN栗子（A Beginning Glimpse of CNN）Mod

2017-12-29 00:00:00 5125

转载数据蒋堂 | JOIN延伸 - 维度概念

来源：数据蒋堂作者：蒋步星本文长度为1320字，建议阅读3分钟本文为你讲解维度概念。谈到数据分析时常常会用到维度这个词，针对数据立方体的钻取、旋转、切片等操作都是围绕维度进行的，几乎所有的数据分析人员都知道并会运用这个术语，但要问及它的定义，却几乎没有人能给出来。通俗来讲，我们把用来分类的属性（字段）称为维度，比如地区、年度、产品类型等；而另外一些用于聚合运算的属性则称为测度，比如销售额、产量、考

2017-12-28 00:00:00 499

原创机器智能加速器：大数据环境下知识工程的机遇和挑战 | 清华李涓子教授

导读：知识图谱已经成为推动人工智能发展的核心驱动力之一。本文选自清华大学计算机科学与技术系教授、清华-青岛数据科学研究院科技大数据研究中心主任李涓子老师于2017年12月20日在阿里联合中文信息学会语言与知识计算专委会举办的知识图谱研讨会上做的以“知识工程：机器智能的加速器”为题的报告。李涓子老师在报告中概述了与知识图谱密切相关的在大数据环境下的知识工程在知识表示、知识获取、知识推理计算以及知识服

2017-12-28 00:00:00 2504 11

转载教你用百度地图API抓取建筑物周边位置、房价信息（附代码）

来源：大数据挖掘DT数据分析本文共2465字，建议阅读5分钟。本文为大家解读怎样用脚本与百度API的交互，爬取百度地图的数据。需求描述对于数据挖掘工程师来说，有时候需要抓取地理位置信息，比如统计房子周边基础设施信息，比如医院、公交车站、写字楼、地铁站、商场等，一般的爬虫可以采用python脚本爬取,有很多成型的框架如scrapy，但是想要爬百度地图就必须遵循它的JavaScript Api，htt

2017-12-27 00:00:00 9541 1

转载为你分享73篇论文解决深度强化学习的18个关键问题

来源：PaperWeekly作者：王凌霄本文共2434字，建议阅读5分钟。本文为大家分享了73篇论文，介绍深度学习的方法策略以及关键问题分析。这两天我阅读了两篇篇猛文 A Brief Survey of Deep Reinforcement Learning 和 Deep Reinforcement Learning: An Overview，作者排山倒海的引用了 200 多篇文献，阐述强化学习未

2017-12-26 00:00:00 4211

转载教你用OpenCV人脸检测自动给头像戴圣诞帽（附代码）

来源：老王和他的IT界朋友们作者：流川疯本文长度为3400字，建议阅读7分钟跟着代码走，教你自动给头像带上圣诞帽。原图：效果：原理其实很简单：采用一张圣诞帽的png图像作为素材利用png图像背景是透明的，贴在背景图片上就是戴帽子的效果了。人脸检测的目的主要是为了确定贴帽子的位置，类似ps中自由变换的功能，检测到人脸中间的位置（两眼中间），resize圣诞帽子和人脸大小匹配，确定位置，贴上去

2017-12-23 00:00:00 1330

转载揭秘深度学习成功的数学原因：从全局最优性到学习表征不变性

来源：机器之心本文长度为4900字，建议阅读7分钟本文为深层网络的若干属性，如全局最优性、几何稳定性、学习表征不变性，提供了一个数学证明。近年来，深度学习大获成功，尤其是卷积神经网络（CNN）在图像识别任务上的突出表现。然而，由于黑箱的存在，这种成功一度让机器学习理论学家颇感不解。本文的目的正是要揭示深度学习成功的奥秘。通过围绕着深度学习的三个核心要素——架构、正则化技术和优化算法，并回顾近期研究

2017-12-22 00:00:00 488

原创放弃“for循环”，教你用这种算法 !（附代码）

原文标题：Why you should forget ‘for-loop’ for data science code and embrace vectorization作者：Tirthajyoti Sarkar翻译：杨金鸿校对：丁楠雅本文长度为1986字，建议阅读5分钟数据科学需要快速计算和数据转换的能力。Python中的NumPy对象提供了优于常规编程结构算法，比如for循环。如何用简单的代码

2017-12-21 00:00:00 1744

原创独家 | 10分钟带你上手TensorFlow实践（附代码）

原文标题：TensorFlow Tutorial: 10 minutes Practical TensorFlow lesson for quick learners作者：ANKIT SACHAN翻译：和中华校对：程思衍本文长度为2000字，建议阅读10分钟通过这篇文章，你可以了解TensorFlow中最基础的几个概念，还可以学习最简单的线性回归如何在TensorFlow中完成。这篇TensorF

2017-12-20 00:00:00 1832 1

转载 2017年深度学习必读31篇论文（附下载地址）

来源：新智元本文长度为4100字，建议阅读6分钟本文为你盘点今年最值得关注的深度学习相关论文。2017年即将擦肩而过，Kloud Strife在其博客上盘点了今年最值得关注的有关深度学习的论文，包括架构/模型、生成模型、强化学习、SGD & 优化及理论等各个方面，有些论文名扬四海，有些论文则非常低调。一如既往，首先，标准免责声明适用，因为今年仅与GAN有关的论文就超过1660篇。我肯定会有疏漏，试

2017-12-19 00:00:00 661

转载院长齐聚，答疑解惑 | 清华-青岛数据科学研究院“院长接待日”成功举办

2017年12月14日下午，清华-青岛数据科学研究院（以下简称：数据院）“院长接待日”活动在双清大厦四层成功举行。院长俞士纶、副院长王建民和执行副院长韩亦舜与来自校内不同院系对大数据感兴趣的同学面对面分享学术、科研经验，教育指导委员会主任刘政也放下手头工作，赶来与同学见面。几位领导从专业角度为同学们答疑解惑，并对新时期打造多层次、多类型的数据人才提出了新的要求与希望。首先，工业工程系的王明哲同学代

2017-12-18 00:00:00 1159

转载从零开始用Python构造决策树（附公式、代码）

来源：Python中文社区作者：weapon本文长度为700字，建议阅读5分钟本文介绍如何不利用第三方库，仅用python自带的标准库来构造一个决策树。起步熵的计算:根据计算公式：对应的 python 代码:条件熵的计算:根据计算方法：对应的 python 代码:其中参数 future_list 是某一特征向量组成的列表，result_list 是 label 列表。信息增益：根据信息增益的计算方

2017-12-18 00:00:00 3346 1

转载独家 | 一文读懂LinkedIn个性化推荐模型及建模原理

原文标题：HowLinkedIn Makes Personalized Recommendations via Photon-ML Machine Learning tool作者：Yiming Ma, Deepak Agarwal翻译：张媛校对：丁楠雅本文长度为2500字，建议阅读8分钟本文将重点关注个性化推荐模型，并解释建模原理以及如何通过Photon-ML来实现，使其能够惠及数亿用户。简介推荐

2017-12-17 00:00:00 956

转载清华成立“脑与智能”和“未来”两大实验室，跨学科AI深度融合

来源：新智元本文长度为3400字，建议阅读10分钟清华大学于本月15日一口气成立了两个跨学科的研究机构——“清华大学脑与智能实验室”和“清华大学未来实验室”，它们都与人工智能有着密不可分的联系。清华大学于本月15日一口气成立了两个跨学科的研究机构——“清华大学脑与智能实验室”和“清华大学未来实验室”，它们都与人工智能有着密不可分的联系。其中，清华大学脑与智能实验室将致力于系统及计算神经科学与人工智

2017-12-17 00:00:00 1152 1

转载近期活动盘点：智慧园区大数据精准招商思享会、数据法学研讨会、海外学者短期讲学（12.21-12.24）

想知道近期有什么最新活动？大数点为你整理的近期活动信息在此：智慧园区之大数据精准招商与服务思享会2017年12月21日活动简介：目前，产业园区、写字楼等企业空间以及政府招商部门等普遍存在招商成本上升、传统招商手段失效、服务缺乏人力物力等问题。然而互联网、人工智能、大数据等技术的成熟，为解决类似问题提供了新的思路和方法。应用大数据与人工智能的深度结合，基于三千万企业数据库，自动推荐招商线索，招商人员

2017-12-16 00:00:00 489 1

转载从零开始教你训练神经网络（附公式&学习资源）

来源：机器之心作者：Vitaly Bushaev本文长度为8900字，建议阅读15分钟本文从神经网络简单的数学定义开始，沿着损失函数、激活函数和反向传播等方法进一步描述基本的优化算法。作者从神经网络简单的数学定义开始，沿着损失函数、激活函数和反向传播等方法进一步描述基本的优化算法。在理解这些基础后，本文详细描述了动量法等当前十分流行的学习算法。此外，本系列将在后面介绍 Adam 和遗传算法等其它重

2017-12-16 00:00:00 6041 1

转载数据蒋堂 | JOIN提速 - 外键指针的衍生

来源：数据蒋堂作者：蒋步星本文长度为1320字，建议阅读3分钟本文为你讲解外间指针的衍生。我们继续讨论外键JOIN，并延用上一篇的例子。当数据量大到无法全部放进内存时，前述的指针化方法就不再有效了，因为在外存无法保存事先算好的指针。一般来讲，外键指向的维表容量较小，而不断增长的事实表要大得多。如果内存还能把维表放下的话，我们可以采用临时指向的方法来处理外键。1. P=file("products.

2017-12-15 00:00:00 602

转载手把手教你搭建AI开发环境 !（附代码、下载地址）

来源：虎贲智能机器本文长度为1000字，建议阅读5分钟本文为你介绍基于ubuntu16 Python3 tensorflow的人工智能开发环境的搭建。人最大的长处就是有厉害的大脑。电脑、手机等都是对人大脑的拓展。现今，我们每个人都有这个机会，让自己头脑在智能的帮助下，达到极高的高度。所以，拥抱科技，让智能产品成为我们个人智力的拓展，更好的去生活、去战斗。用项目引导学习：我们的目标是用现有最流行的谷

2017-12-15 00:00:00 2141

转载 AI根据视频画面自动配音，真假难辨 !（附数据集）

本文经AI新媒体量子位（公众号ID:qbitai)授权转载，转载请联系出处本文长度为3216字，建议阅读7分钟本文为你分享实现AI自动为视频配音的流程。先来做个“真假美猴王”的游戏。你将看到两段画面相同的视频，请判断哪段来自视频原声，哪段是AI根据视频画面配上的假声？莫非两个都是真的？不可能，答案文末揭晓。（还有更多真假难辨的视频原声和配音大对比）真假难辨，简直让人怀疑耳朵。模型合成的假音效，什么

2017-12-13 00:00:00 2867

转载致研究生：一定要从这3个方面审视你的研究方向

说明：本文是本人指导研究生选题讲座的文字整理稿，只代表本人的学术观点。感谢研究生An Yutong的文字整理工作。研究生选择研究方向，确定研究题目的关键是一定要有意义。主要体现在三个方面：理论贡献、实践意义、方法改进与创新，有其中一个就可以。要是发表论文，做一个算法或者是一个参数的改进是可以的。但是要申请“国家自然科学基金”是不可能的。所以我首先要讲一下，研究方向一定要有意义。第一，一定要有理论贡

2017-12-12 00:00:00 6427

转载教你用深度学习LSTM网络预测流行音乐趋势（附代码）

来源：大数据挖掘DT数据分析本文长度为1500字，建议阅读5分钟本文为你介绍LSTM网络原理及其在流行音乐趋势预测赛题中的应用。后台回复关键词“音乐”，下载完整代码及数据集一、 LSTM网络原理1.1 要点介绍LSTM网络用来处理带“序列”(sequence)性质的数据。比如时间序列的数据，像每天的股价走势情况，机械振动信号的时域

2017-12-11 00:00:00 5686 31

转载用GAN还原语义标注图！还能手动改细节（附论文、代码）

来源：量子位本文长度为2100字，建议阅读5分钟本文为你带来高清版的pix2pix。输入一张语义地图——就能为你还原整个世界：输入一张亲妈都认不出来的语义标注图——为你合成一张真实的人脸。聪明的你可能已经发现，这个名为pix2pixHD的神奇算法，可以用条件生成式对抗网络（c

2017-12-09 00:00:00 670

转载近期活动盘点：大数据自杀风险感知讲座、智能制造讲座、数据法学研讨会、海外学者短期讲学（12.7-12.20）

想知道近期有什么最新活动？大数点为你整理的近期活动信息在此：大数据下的自杀风险感知与疏导讲座2017年12月13日活动简介：自杀是困扰全世界的一个社会性问题，鉴于自杀给个人、家庭和社会带来的巨大情感创伤和经济损失，及时有效地感知和预防这种极端行为极为必要。心理学研究成果表明长期慢性压力是导致自杀发生的主要原因之一。本场讲座将探讨如何通过网络社交媒体大数据，从慢性压力

2017-12-09 00:00:00 901

转载独家 | 数据分析@爱可可-爱生活是否在用机器学习算法运营微博

微博账号@爱可可-爱生活是数据科学圈的网红，因每天分享大量精选的数据科学领域的学习资料而出名，深受粉丝关注和喜爱。该账号每天从早晨4-5点开始发微博，日均发布大几十条原创，有人不禁质疑，它的运营者北邮模式识别实验室的副教授陈光，每天的时间是怎么安排的，除了科研、教务、带学生、写基金等工作，是如何做到每天发布这么多内容。莫非是一个团队在维护？再或者，他其实是利用工具自动追踪arXiv、大牛博客、科技

2017-12-09 00:00:00 3338

转载数据蒋堂 | JOIN提速 - 外键指针化

来源：数据蒋堂作者：蒋步星本文长度为1520字，建议阅读4分钟本文为你讲解重新定义JOIN后如何能够提高运算性能。我们来看重新定义JOIN后如何能够提高运算性能，先看外键式JOIN的情况。设有两个表：其中sales表中的productid是指向products表中id字段的外键，id是products表的主键。现在我们想计算销售额有多

2017-12-07 00:00:00 555

转载独家 | 一文读懂贝叶斯分类算法（附学习资源）

贝叶斯分类是一类分类算法的总称，这类算法均以贝叶斯定理为基础，故统称为贝叶斯分类。本文首先介绍分类问题，给出分类问题的定义。随后介绍贝叶斯分类算法的基础——贝叶斯定理。最后介绍贝叶斯分类中最简单的一种——朴素贝叶斯分类，并结合应用案例进一步阐释。贝叶斯分类1. 分类问题综述对于分类问题，我们每一个人都并不陌生，因为在日常生活中我们都在或多或少地运用它

2017-12-07 00:00:00 1193

转载清华副校长杨斌 :“祛魅”, 科技创新需要避免教育“人性”缺失

来源：九宫八卦本文长度为1200字，建议阅读4分钟“在知识、能力、价值诸多大学所追求的成效当中，哪一个最抓得住？哪一个最可定量、衡量？哪一个最可转化为商品进行交换？”昨天闭幕的GES2017未来教育大会，主题是“科技创新推动教育进步”。然而，作为大会演讲嘉宾，清华大学副校长杨斌却认为，现在的教育创新，特别是商业和技术驱动下的教育创新，多数集中在以课程为主的部分。由此，可能导

2017-12-06 00:00:00 475

转载带你测试对比深度学习框架！TensorFlow,Keras,PyTorch...哪家强？(附数据集）

授权自AI科技大本营（ID: rgznai100)本文长度为3556字，建议阅读7分钟亚马逊MXNet在CNN、RNN与NLP情感分析任务上性能强劲，而TensorFlow仅擅长于特征提取。深度学习框架哪家强：TensorFlow？Caffe？MXNet？Keras？PyTorch？对于这几大框架在运行各项深度任务时的性能差异如何，各位读者不免会有所好奇。微

2017-12-06 00:00:00 976

转载报名 | 智能制造：困惑中前行讲座

最近几年，中国进入“新常态”、经济发展速度放缓。背后是人口和经济发展进入了新的阶段。我们过去强调的一些观点和做法，已经逐渐变得不合时宜。中国制造业提高自动化、智能化水平，是适应这种变化的必然举措。但是，在推进智能制造的过程中，企业遇到很多困惑。典型的困惑之一就是：单纯地提高自动化或者智能化水平，经济上往往是不合算的。智能制造需要大量投资，这些投资必须要开拓新的、高端市场，才能获得足够的

2017-12-05 00:00:00 423

转载超全！基于Java的机器学习项目、环境、库...

原文标题：Java Machine Learning作者：Jason Brownlee翻译：杨金鸿校对：丁楠雅本文长度为3000字，建议阅读8分钟本文介绍了主要的平台和开放源码的Java机器学习库。你是一名希望开始或者正在学习机器学习的Java程序员吗？利用机器学习编写程序是最佳的学习方式。你可以从头开始编写算法，但是利用现有的开源库，你可以取得更大的进

2017-12-05 00:00:00 971

转载从数据小白到大赛黑马，他们如是说 | 专访2017中国高校SAS数据分析大赛亚军团队

近日，2017年中国高校SAS数据分析大赛在北京举办了颁奖仪式，来自清华大学大数据能力提升项目的三位学生（王存光、姚超、李继凡）组队参赛，并一举斩获了亚军殊荣。这项以“高校数据分析人才”为核心的赛事至今已举办至第五届，今年是清华大学第一次派出代表队参加比赛。通常的参赛队伍多来自于金融与统计专业，然而此次获得亚军殊荣的三位学生王存光、姚超、李继凡分别来自于清华大学水利系、精密仪器系和生物医学工程系。

2017-12-04 00:00:00 766

转载独家 | CIKM AnalytiCup 2017冠军团队获胜经验分享（附PPT&视频）

清华大数据“赛事经验分享”系列讲座是清华-青岛数据科学研究院继“应用•创新”和“技术•前沿”系列后推出的又一学术品牌，旨在分享国内外大数据领域重要赛事获胜团队及个人的参赛历程及其获胜经验。本期我们邀请到CIKM AnalytiCup2017凭借“基于雷达图像预测未来降水”模型，以绝对优势排名第一的清华大学Marmot团队(姚易辰，李中杰），团队成员李中杰从赛题介绍、数据描述、赛题思考、解决方案

2017-12-04 00:00:00 1995 42

原创近期活动盘点：工业大数据讲座、大数据自杀风险感知讲座、数据法学研讨会、海外学者短期讲学（12.3-12.13）

想知道近期有什么最新活动？大数点为你整理的近期活动信息在此：工业大数据分析：机会与挑战讲座2017年12月6日活动简介：随着“中国制造2025”国家战略和“工业4.0”、“工业互联网”等理念的推进，工业领域的大数据应用获得大量的关注，但其中存在不少浮夸和误解。本讲座通过多个行业实践案例分析，阐述工业大数据的特质和挑战，并从实践方法、模型算法、分析软件、大数据

2017-12-03 00:00:00 365

原创报名 | 工业大数据分析：机会与挑战讲座

随着“中国制造2025”国家战略和“工业4.0”、“工业互联网”等理念的推进，工业领域的大数据应用获得大量的关注，但其中存在不少浮夸和误解。本讲座通过多个行业实践案例分析，阐述工业大数据的特质和挑战，并从实践方法、模型算法、分析软件、大数据平台等多个维度讨论其技术需求，尝试为工业大数据分析实战提供一些有益参考。【时间】12月6日(周三) 15:00 – 17:00【地点】 FIT楼二

2017-12-03 00:00:00 440

原创一文概览图卷积网络基本结构和最新进展(附视频&代码）

来源：机器之心本文长度为3476字，建议阅读7分钟本文为你介绍图卷积网络的基本结构和最新的研究进展，并用一个简单的一阶 GCN 模型进行图嵌入。本文介绍了图卷积网络的基本结构和最新的研究进展，并指出了当前模型的优缺点。通过对半监督学习应用 GCN 证明三层 GCN 模型不需要节点的任何特征描述就可以对只有一个标签实例的类进行线性分离。GitHub 链接：

2017-12-03 00:00:00 5542

原创数据蒋堂 | JOIN简化 - 意义总结

来源：数据蒋堂作者：蒋步星本文长度为3000字，建议阅读6分钟本文为你讲解SQL中用于多表关联的JOIN运算的简化——意义总结。我们重新审视和定义了等值JOIN运算，并简化了语法。一个直接的效果显然是让语句书写和理解更容易。外键属性化、同维表等同化和主子表一体化方案直接消除了显式的关联运算，也更符合自然思维；维度对齐则可让程序员不再关心表间关系，降低

2017-12-02 00:00:00 420

原创英特尔专家告诉你信息时代如何掌控数据安全（附视频&PPT）

随着人类社会进入信息时代，大数据、物联网、人工智能技术的飞速发展和创新应用，正快速推动教育、医疗、工业、能源等各行业的产业创新与变革。在大数据应用规模和应用种类不断飞涨的同时，大数据平台系统在数据采集、传输、处理、存储方面，对安全方案、隐私保护、生命周期管理、数据来源安全、价值保护等都提出了新的挑战，保护数据安全和隐私、不被篡改也是企业和用户越来越重视的问题。清华-青岛数据科学研究院（以

2017-12-02 00:00:00 585

原创 IBM苏中：怎样利用深度学习、增强学习等方法提高信息处理效率

伴随着认知计算时代的到来，如何将我们计算机的信息处理能力与人类的认知能力相结合，从而提高我们的信息处理效率，是我们在目前所要思考的问题。本期清华大数据“技术·前沿”系列讲座我们邀请到IBM研究院研究总监、大数据及计算研究方向首席数据科学家苏中为大家带来题为《从深蓝到AlphaGo，从大数据到认知商业》的分享。后台回复关键词“苏中”，下载演讲PPT。以下是数据派独家整理的讲座

2017-12-01 00:00:00 462

空空如也

空空如也