自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

数据派THU

发布清华大学数据科学相关科研动态、教学成果及线下活动

  • 博客(41)
  • 收藏
  • 关注

原创 独家 | 关于Spark NLP学习,你需要掌握的 LightPipeline(附代码&链接)

作者:Veysel Kocaman, Data Scientist & ML ResearcherANKIT CHOUDHARY翻译:赵春光校对:申利彬本文约2800字,建议阅...

2019-12-31 17:00:00 890

转载 通俗易懂!《图机器学习导论》(附链接)

来源:专知本文多图,建议阅读8分钟本文为你介绍目前较新的基于图的机器学习方法。[ 导读 ]图是强大的数据结构,可以被用于建模许多真实世界的场景。图可以建模样本之间的关系信息,然而,许多...

2019-12-31 17:00:00 1433

转载 800 名科学家联名主张废除 p 值!斯坦福教授直言,没有p值,期刊将充斥“无可辩驳的废话”!...

来源:新智元本文约4800字,建议阅读8分钟本文将探讨p值的去与留。统计显著性和p值是衡量研究可靠性的重要标准。这个标准是怎么来的?今年3月Nature上一篇主张废除p值的文章,为何获得...

2019-12-30 17:00:00 419

转载 新鲜出炉!年度10篇新颖到出格的 AI 论文(附链接)

来源:AI科技评论本文约4700字,建议阅读8分钟我们总结了2019年十大精彩 AI 学术论文,从学术价值的角度挑选了我们认为 2019年里值得重读、值得纪念的机器学习论文。前两天我们总...

2019-12-30 17:00:00 555

转载 跨学科融合,塑π型人才 | 数据科学研究院第四届"RONG"奖学金答辩会成功举办...

为服务国家大数据发展战略,打造多层次、多类型的大数据人才队伍,清华-青岛数据科学研究院(以下简称:数据院)“RONG”奖学金答辩会于2019年12月27日成功举办。“RONG”奖学金答辩...

2019-12-29 17:00:00 683

转载 Python编程神器Jupyter Notebook使用的28个秘诀(附代码)

来源:大数据本文约2800字,建议阅读8分钟本文总结了28种Jupyter Notebook的使用技巧。[ 导读 ]最近做实验一直是用Jupyter Notebook编程,有一种打草稿的...

2019-12-28 17:00:00 2282

转载 在2020年到来之前,你应该知道的10大科技趋势预测

来源:机器之心本文约2100字,建议阅读8分钟2020年,我们即将开始进入AI的“工业化”大规模生产时代。2019 年即将成为过去,2020 年的脚步也越来越近。这一年,人工智能正在沿着...

2019-12-27 17:00:00 299

转载 清华大学首批研究生学术与职业发展能力提升项目评估交流会举行

12月24日,清华大学研究生院组织专家对2015年首批启动的两个研究生学术与职业发展能力提升项目(以下简称“能力提升项目”)——学生创新力提升项目和大数据能力提升项目开展了定期评估。评估...

2019-12-26 20:43:13 404

转载 面向回家编程!GitHub标星两万的"Python抢票教程”,我们先帮你跑了一遍

来源:大数据文摘本文约3400字,建议阅读8分钟本文为你介绍Python抢票教程,带你回家!盼望着,盼望着,春节的脚步近了,然而,每年到这个时候,最难的,莫过于一张回家的火车票。据悉,今...

2019-12-24 17:00:00 1201

转载 PhD养成记 | 于歆杰:如何有效获取、归档和阅读文献

来源:清华研读间本文约1000字,建议阅读5分钟于歆杰教授教你如何有效地查找并筛选本研究领域的文献、怎样阅读文献、如何将已读文献进行整理归档。编者按文献阅读是开展学术工作的基础,掌握正确...

2019-12-23 17:00:00 628

转载 NeurIPS 2019 | 17篇论文,详解图的机器学习趋势

来源:深度学习自然语言处理本文约7400字,建议阅读10+分钟可高深,也可接地气。本文来自德国Fraunhofer协会IAIS研究所的研究科学家Michael Galkin,他的研究课题...

2019-12-23 17:00:00 643

转载 近期活动盘点:​年末必学课程《社会网络分析》

想知道近期有什么最新活动?大数点为你整理的近期活动信息在此:年末必学课程《社会网络分析》《社会网络分析》是清华大学社会科学学院社会与金融研究中心主任,清华大学社会学系长聘副教授——郑路老...

2019-12-22 07:00:00 1673

转载 一文盘点2019年AI领域都发生了什么

来源:AI前线本文约3100字,建议阅读6分钟本文进行了回顾,对人工智能世界在这一年来发生的事情进行了大盘点。[ 导读 ]回首即将逝去的 2019 年,在人工智能领域中,都有哪些可圈可点...

2019-12-20 17:00:00 139

转载 赠书 | 热潮下的冷思考,人工智能即将改变的三大领域

文中有数据派THU福利哦遥想1969年,ARPANET(由美国国防部高级研究计划局ARPA创建)刚刚成立的时候,还只是美国国防部防止苏联打击的冷战产物。谁曾想在随后的半个世纪,由ARPA...

2019-12-20 17:00:00 362

原创 独家 | 构建符合道德规范的用于人才管理的AI(附链接)

作者:Tomas Chamorro-Premuzic,Frida Polli,Ben Dattner翻译:wwl校对:吴金笛本文约2800字,建议阅读5分钟在人才管理中,相较于依赖招聘经...

2019-12-19 17:00:00 398

原创 独家 | 避免神经网络过拟合的5种技术(附链接)

作者:Abhinav Sagar翻译:陈超校对:王琦本文约1700字,建议阅读8分钟。本文介绍了5种在训练神经网络中避免过拟合的技术。最近一年我一直致力于深度学习领域。这段时间里,我...

2019-12-18 17:00:00 526

转载 一文读懂梯度下降背后的数学原理几何

来源:AI科技评论本文共3600字,建议阅读10+分钟。数学原理拆解+简单的现实案例,带你领略梯度下降的数学之美!对于诸位“MLer”而言,梯度下降这个概念一定不陌生,然而从直观上来看,...

2019-12-18 17:00:00 1185

转载 图灵奖得主Bengio:深度学习不会被取代,我想让AI会推理、计划和想象

来源:授权自AI科技大本营(ID:rgznai100)本文约4000字,建议阅读10分钟。本文为你介绍图灵奖得主Bengio对深度学习看法。在1990年代那个漫长而寒冷的AI寒冬期,大...

2019-12-17 17:00:00 224

原创 独家 | 微软与哈佛大学定量社会科学研究所合作开发开放数据差异隐私平台,开启研究新征程(附链接)...

作者:John Kahan - Chief Data Analytics Officer翻译:吴金笛校对:和中华本文约2400字,建议阅读5分钟本文介绍了一个基于差异隐私技术的数据分享平...

2019-12-16 17:00:00 559

转载 学术必备!35个国内外社会科学数据网站资源汇总(附链接)

来源:社科方法网本文约10000字,建议阅读20+分钟。本文介绍了目前国内外常用的35个数据资源网站。目录UK Data ArchiveData.gov.uknter-universi...

2019-12-15 17:00:00 3314

转载 我收集了12款自动生成器,无聊人士自娱自乐专用

来源:授权自AI科技大本营(ID:rgznai100)本文约2600字,建议阅读9分钟。OMG!太厉害了![ 导读 ]此前,我们为大家介绍一个火爆文章生成器系统 BullshitGen...

2019-12-14 17:00:00 1293

原创 独家 | CycleGAN之美 赛马翻译成斑马背后的直觉和数学(附论文)

作者:Sebastian Theiler翻译:吴金笛校对:张玲本文约2300字,建议阅读10分钟。本文介绍了CycleGAN的映射原理和4项损失的基本含义,并提供了详细的损失方程。本文假...

2019-12-13 18:57:09 785

转载 快讯 | 清华数为物联网数据库IoTDB被评为“优秀大数据产品”

2019年12月,由清华大学软件学院自主研发的“清华数为物联网数据库IoTDB”在由大数据产业生态联盟、联盟大数据与产品质量保障工作组、中国软件评测中心组织的专业评审活动中被评为“优秀大...

2019-12-13 18:57:09 1375

转载 《长安十二时辰》中的计算社会学 | 数据科学赋能人文创新论坛

长安十二时辰2019年6月,一部制作精良、细节考究的电视剧杀出重围,点亮了沉寂已久的国产剧圈。这部在今年暑期档收获了极高的话题度和关注度的电视剧,就是改编自马伯庸同名小说,雷佳音、易烊千...

2019-12-12 17:00:00 405

转载 赠书 | 成为一个多模型思考者,从掌握数据跃迁到拥有智慧

文中有数据派THU福利哦密歇根大学复杂性研究中心“掌门人”斯科特·佩奇大力提倡多模型思维方法,即通过一系列不同的逻辑框架“生成”智慧的方法。为了论证多模型思维方式的优点,我们先从诗人和剧...

2019-12-12 17:00:00 611

原创 独家 | 5G已起跑,目前有哪些应用抢先落地?

他来了!他来了!他带着高速率、大容量和低延迟走来了!随着2019年6月6日工信部向中国电信、中国移动、中国联通、中国广电发放5G商用牌照,我国正式进入了5G商用元年。在政策支持、技术进...

2019-12-11 17:00:00 11665

转载 《深度学习,统计学习,数学基础》人工智能算法工程师手册:程序员写的AI书,50 章一网打尽...

来源:专知本文约3400字,建议阅读10+分钟。免费开源人工智能手册,带你快速上手写代码![ 导读 ]市面上很多人工智能相关的书籍。大部分的书,面向小白,内容深度不够;小部分教材书或者科...

2019-12-10 20:14:00 497

原创 独家 | 改善AI性别偏见的4种方法

作者:Josh Feast翻译:王子龙校对:王琦本文约2200字,建议阅读8分钟。本文阐述导致AI偏见的原因并提出应用的解决方案。图片来源:哈佛商业评论工作人员/ UNSPLASH任...

2019-12-10 20:14:00 706

原创 独家 | 使用深度神经网络在Oculus Quest上进行准确的手部追踪

作者:Shangchen Han, Beibei Liu, Tsz Ho Yu, Randi Cabezas, Peizhao Zhang, Peter Vajda, Eldad Isa...

2019-12-09 17:00:00 889

转载 原始数据哪里找?这些网站要用好!200个国内外经济/金融/行研/咨询数据网站大全(附链接)...

来源:社科方法网本文约8000字,建议阅读10+分钟本文为你提供200个国内外经济、金融、行研、咨询数据网。来源:数据玩家资料搜集是个相当繁琐与累的工作,也是投资入门的基本,良好的信息资...

2019-12-08 17:00:00 9344

转载 数据蒋堂 | BI系统中容易被忽视的数据源功能

作者:蒋步星来源:数据蒋堂本文共1100字,建议阅读8分钟。关注BI系统数据源有关的后台功能点。用户在选购BI解决方案的时候,常常会更关注界面环节的功能指标,比如美观性、操作的流畅性、移...

2019-12-07 17:00:00 201

转载 奖学金申请 | 2019年清华-青岛数据科学研究院​“RONG”奖学金申请通知

清华-青岛数据科学研究院“RONG”奖学金申请通道将于12月2日开启啦,奖学金面向全校各院系获得清华大学大数据能力提升项目证书的在校生,请各院系符合申请条件的研究生踊跃申请~奖学金简介“...

2019-12-07 17:00:00 340

原创 干货 | 统计学概论和医疗临床大数据分析(附PPT下载)

本文内容选自加拿大约克大学数学统计系终身教授王晓刚于近期在清华大数据“技术·前沿”系列讲座所做的题为《统计学概论和医疗临床大数据分析》的演讲。关注数据派THU(DatapiTHU)后台回...

2019-12-06 17:00:00 314

转载 《2019人工智能发展报告》!含计算机视觉、机器人等13个子领域(附链接)

来源:AI算法与图像处理本文约多图,建议阅读10+分钟。本文简要介绍了最新发布的《2019人工智能发展报告》。近日,由清华大学-中国工程院知识智能联合研究中心、中国人工智能学会吴文俊人工...

2019-12-06 17:00:00 969

原创 独家 | 数据科学家应该避免的5种统计陷阱(附链接)

作者:Matthew Mayo翻译:冯羽校对:陈雨琳本文长度约为2500字,建议阅读5分钟本文介绍了数据科学家应该避免的五种统计陷阱。标签:偏见,谬误,辛普森悖论,统计这篇文章讲了五种统...

2019-12-05 17:00:00 309

转载 干货 | 22道机器学习常见面试题目

来源:机器学习算法与自然语言处理本文共6600字,建议阅读13分钟。本文为你带来22道机器学习常见的面试问题和回答。1、无监督和有监督算法的区别?有监督学习:对具有概念标记(分类)的训练...

2019-12-05 17:00:00 325

原创 独家 | 19年NAACL纪实:自然语言处理的实用性见解

作者:Nikita Zhiltsov翻译:王威力校对:李海明本文约5000字,建议阅读15分钟。本文为你概述处理不同NLP问题时的具有卓越性能的方法、技术和框架等。计算语言:人类语言技...

2019-12-04 17:00:00 637

转载 刘知远 陈慧敏:流言止于“智”者——网络虚假信息的特征与检测

来源:清华大学藤影荷声本文约5000字,建议阅读10分钟本文为你介绍网络虚假信息的一些特征和检测方法。互联网的深度普及加速了“信息时代”的到来,网络中每个人都可以以极低甚至“零”成本的方...

2019-12-03 07:30:00 2896

原创 独家 | 如何用简单的Python为数据科学家编写Web应用程序?(附代码&链接)

作者:拉胡尔·阿加瓦尔(Rahul Agarwal), Walmart 实验室的数据科学家翻译:陈之炎校对:闫晓雨本文约4300字,建议阅读10分钟。本文阐述如何使用StreamLit创...

2019-12-02 17:00:00 393

转载 数据蒋堂 | 做基础软件要投入很多钱?

作者:蒋步星来源:数据蒋堂本文共1100字,建议阅读8分钟。看起来还真是,似乎还要再加大投入才行?现在有个说法,国家对基础软硬件的投入太少,经常会说微软、Oracle、Intel这些巨头...

2019-12-01 17:00:00 212

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除