自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

数据派THU

发布清华大学数据科学相关科研动态、教学成果及线下活动

  • 博客(44)
  • 收藏
  • 关注

原创 300万知乎多标签文本分类任务经验分享(附源码)

来源:大数据挖掘DT数据分析本文长度为4600字,建议阅读6分钟本文为你分享知乎看山杯冠军团队参赛经验。后台回复回复关键词“PT”即可获取源码(PyTorch实现)github地址。七月,酷暑难耐,认识的几位同学参加知乎看山杯,均取得不错的排名。当时天池AI医疗大赛初赛结束,官方正在为复赛进行平台调试,复赛时间一拖再拖。看着几位同学在比赛中排名都还很不错

2017-11-30 00:00:00 12631 90

原创 送你6份最新开源代码!含NLP、ML、计算机视觉方向(附代码&论文)

来源:PaperWeekly本文长度为636字,建议阅读3分钟本文为你分享6份最新的开源代码,包括自然语言处理、计算机视觉和机器学习3个方面。自然语言处理 1DuReader: a Chinese Machine Reading Comprehension Dataset from Real-world Applications@zhan

2017-11-29 00:00:00 961

原创 数据揭秘清华研究生日常!47%单身,50.7%从未打过游戏...

清华研究生在园子里的生活如何?他们怎么看待学业?日常习惯如何?有怎样的就业预期?都脱单了吗?今天,研读间带你揭秘清华研究生的那些事儿。第一编 基本信息1.  男女比例男女比例接近2比1,看来清华的研究生群体,也是「僧多肉少」。——莫名的情愫啊,请问谁来将它带走呢?——所以只能去隔壁湖畔的柳树下闲逛,邂逅某个姑娘了吗…

2017-11-29 00:00:00 2466

原创 报名 | 大数据下的自杀风险感知与疏导讲座

自杀是困扰全世界的一个社会性问题,鉴于自杀给个人、家庭和社会带来的巨大情感创伤和经济损失,及时有效地感知和预防这种极端行为极为必要。心理学研究成果表明长期慢性压力是导致自杀发生的主要原因之一。本场讲座将探讨如何通过网络社交媒体大数据,从慢性压力的角度进行自杀危险感知,以及如何从压力源头进行疏导排解,避免问题的扩大化与蔓延化。本次清华大数据“应用·创新”系列讲座,我们很荣幸的邀请到了清华

2017-11-28 00:00:00 500

原创 通知 | 2017年清华-青岛数据科学研究院“RONG”奖学金即将开放申请

各有关同学: 为促进大数据人才培养,服务国家大数据发展战略,清华-青岛数据科学研究院(简称:数据科学研究院)设立“RONG”奖学金,申请通道将于12月1日开启。奖学金面向全校各院系获得“大数据能力提升项目”证书的在学研究生,奖励比例高达35%!希望各院系符合申请条件的研究生踊跃申请。“RONG”取其与“融”“溶”“荣”“容”之谐音,意指“融合”“包容”“宽容”“繁荣”等,代表了数据院成立的

2017-11-28 00:00:00 882

原创 教你用300万共享单车出行数据,预测骑行目的地 !(附源码)

来源:大数据挖掘DT数据分析本文长度为1647字,建议阅读3分钟本文为你介绍使用出行记录数据和源码预测摩拜出行目的地的方法。后台回复关键词“摩拜” 获取本文数据及源码地址。摩拜单车在北京的单车投放量已经超过40万。用户可以直接在人行道上找到停放的单车,用手机解锁,然后骑到目的地后再把单车停好并锁上。因此,为了更好地调配和管理这40万辆单车,需要准确地预测每个

2017-11-28 00:00:00 6730 68

原创 怎样构建中文文本标注工具?(附工具、代码、论文等资源)

来源:Paperweekly本文长度为2218字,建议阅读4分钟本文为你介绍中文文本标注工具的构建方法,并提供多个开源文本标注工具。项目地址: https://github.com/crownpku/Chinese-Annotator自然语言处理的大部分任务是监督学习问题。序列标注问题如中文分词、命名实体识别,分类问题如关系识别、情感分析、意图分

2017-11-26 00:00:00 2604

原创 楼天城:世界顶尖黑客、曾被脸书谷歌青睐的中国大学生编程第一人

来源:程序人生作者:小七本文长度为2910字,建议阅读5分钟本文为你介绍中国大学生编程第一人:楼天城。楼天城,有「中国大学生计算机编程第一人」的称号,也被参加竞赛的学子们敬称为「楼教主」。李开复说他是未来推动中国互联网产业发展的中流砥柱!他的传奇经历一直激励着众多年轻学子:他的老师是美籍华人姚期智院士,而姚教授也是声誉极高的学者!!他

2017-11-26 00:00:00 6769

原创 近期活动盘点:基于雷达图像预测未来降水参赛经验分享、智慧政府讲座、金融AI思享会、数据法学研讨会(11.29-11.30)

想知道近期有什么最新活动?大数点为你整理的近期活动信息在此:CIKM AnalytiCup 2017—基于雷达图像预测未来降水参赛经验分享2017年11月29日活动简介:清华大学清华-青岛数据科学研究院一直致力于面向校内外的大数据领域传播知识,继清华大数据“技术·前沿”、“应用·创新”系列讲座之后,全新推出“赛事经验分享”系列讲座,分享国内外大数据领域重要赛事获

2017-11-25 00:00:00 827

原创 教你用TensorFlow实现神经网络(附代码)

来源:云栖社区作者:Pavel Surmenok本文长度为2600字,建议阅读5分钟本文帮助你理解神经网络的应用,并使用TensorFlow解决现实生活中的问题。如果你一直关注数据科学/机器学习,你就不能错过深度学习和神经网络的热潮。互联网公司正在寻找这方面的人,而且从竞赛到开源项目,都有巨额奖金。 如果你对深度学习所提供的前景感到兴奋,但是还没有开始,在这

2017-11-25 00:00:00 7115 2

原创 手把手教你估算深度神经网络的最优学习率(附代码&教程)

来源:机器之心作者:Pavel Surmenok本文长度为2000字,建议阅读4分钟学习率(learning rate)是调整深度神经网络最重要的超参数之一,本文作者Pavel Surmenok描述了一个简单而有效的办法来帮助你找寻合理的学习率。我正在旧金山大学的 fast.ai 深度学习课程中学习相关知识。目前这门课程还没有对公众开放,但是现在网络上有去年

2017-11-24 00:00:00 3173

原创 报名 | 大数据打造智慧的政府门户讲座

随着互联网的不断发展,社会群众对政府网站的要求越来越高,而国务院办公厅在2017年5月发布了《政府网站发展指引》,目标是推进互联网政务信息数据和便民服务平台建设,提升政府网上服务能力。围绕这个话题,本次清华大数据“应用·创新”系列讲座将会探讨如何实现电子政务,用大数据打造智慧的政府门户。本次讲座,我们很荣幸的邀请到了清华大学公共管理学院副教授张楠和清华校友、国双科技政府事业部产品总

2017-11-23 00:00:00 549

原创 独家 | 手把手教你用Python 3创建用于机器学习开发的Linux虚拟机(附安装教程&代码)

原文标题:How to Create a Linux Virtual Machine For Machine Learning Development With Python 3作者:Jason Brownlee翻译:杨金鸿翻译校对:白静文字校对:丁楠雅本文长度为3000字,建议阅读8分钟本文主要内容包括Linux虚拟机的优点、安装教程以及使用VM的技巧。Lin

2017-11-23 00:00:00 2431

原创 我是怎样爬下6万共享单车数据并进行分析的(附代码)

来源:钱塘大数据本文长度为3297字,建议阅读7分钟本文为你解答用Pyhon获取、分析单车数据的过程,并为你分析得出的结论。后台回复关键词“摩拜”获取完整源码(文末有福利呦~)共享经济的浪潮席卷着各行各业,而出行行业是这股大潮中的主要分支。如今,在城市中随处可见共享单车的身影,给人们的生活出行带来了便利。相信大家总会遇到这样的窘境,在APP中能看到很多单车,但走到那

2017-11-22 00:00:00 3821

原创 张长水主任当选2018年IEEE Fellow!中国大陆17位当选者清华占了5位 !(附完整名单)

日前,全球最大的非营利专业技术学会IEEE(国际电气与电子工程师协会)公布了2018年度Fellow名单,中国大陆共有17位科学家当选新一届IEEE Fellow,其中清华大学张长水、舒继武、孙宏斌、赵争鸣、周彤5人当选。张长水教授简介:张长水,清华-青岛数据科学研究院二维码安全技术研究中心主任,智能技术与系统国家重点实验室学术委员会委员,清华大学自动化系教

2017-11-22 00:00:00 6352

原创 教你用TensorFlow和自编码器模型生成手写数字(附代码)

来源:机器之心本文长度为1876字,建议阅读4分钟本文介绍了如何使用 TensorFlow 实现变分自编码器(VAE)模型,并通过简单的手写数字生成案例一步步引导读者实现这一强大的生成模型。自编码器是一种能够用来学习对输入数据高效编码的神经网络。若给定一些输入,神经网络首先会使用一系列的变换来将数据映射到低维空间,这部分神经网络就被称为编码器。然后,网络会使

2017-11-21 00:00:00 3054

原创 清华大学大数据能力提升项目三名学生斩获2017年中国高校SAS数据分析大赛亚军

2017年11月20日,2017中国高校SAS数据分析大赛颁奖典礼在钓鱼台国宾馆举行。清华大学今年首次组队参赛,在与北京大学、人民大学、复旦大学等1036支参赛团队激烈比拼后,清华大学大数据能力提升项目的三位学生——王存光、姚超、李继凡组成的团队一举荣获亚军。颁奖典礼现场亚军获奖证书中国高校SAS数据分析大赛举办五届以来,通常是金融专业和统计

2017-11-21 00:00:00 3636

原创 各类机器学习问题的最优结果合集!附论文及实现地址索引

来源:中国大数据本文长度为2721字,建议阅读4分钟本文为你介绍RedditSota 统计的各种机器学习任务的最顶级研究成果(论文)。该 GitHub 库提供了所有机器学习问题的当前最优结果,并尽最大努力保证该库是最新的。如果你发现某个问题的当前最优结果已过时或丢失,请作为问题提出来(附带:论文名称、数据集、指标、源代码、年份),我们会立即更正。这是为所有类

2017-11-19 00:00:00 532

原创 近期活动盘点:基于雷达图像预测未来降水参赛经验分享、大数据基础设施讲座、药品行业分析及大数据应用思享会(11.22-11.29)

想知道近期有什么最新活动?大数点为你整理的近期活动信息在此:CIKM AnalytiCup 2017—基于雷达图像预测未来降水参赛经验分享2017年11月29日活动简介:清华大学清华-青岛数据科学研究院一直致力于面向校内外的大数据领域传播知识,继清华大数据“技术·前沿”、“应用·创新”系列讲座之后,全新推出“赛事经验分享”系列讲座,分享国内外大数据领域重要赛事获

2017-11-18 00:00:00 859

转载 10个深度学习软件的安装指南(附代码)

来源:AI前线本文长度为2385字,建议阅读4分钟本文为你介绍10个深度学习软件安装指南。由于近期论文的需要,我搭建了一个基于 Ubuntu 和英伟达的深度学习环境。尽管已经有很多非常棒的关于英伟达驱动和 CUDA 的安装指南, 但依然没有详尽的深度学习环境搭建指南。另外,我需要查阅很多文档来熟悉细节,其中一些细节还有待完善,甚至还有一些包含语法错误。因此我决定把我这段时间

2017-11-18 00:00:00 9176

原创 数据蒋堂 | JOIN简化 - 消除关联

来源:数据蒋堂作者:蒋步星本文长度为2200字,建议阅读5分钟本文为你讲解SQL中用于多表关联的JOIN运算的简化——消除关联。我们将等值JOIN分成三种情况来分别讨论,分情况相当于加强了条件,我们可以充分利用每种情况下的特征。1. 外键属性化先看个例子,设有如下两个表:employee表和delpartment表的主键都是其中的id字段

2017-11-17 00:00:00 449

原创 Yann Lecun最新演讲:机器怎样进行有效学习?

作者:岑大师来源:AI科技评论本文长度为3200字,建议阅读7分钟本文为你分享Yann Lecun关于利用对抗网络进行无监督学习的研究。本文为Yann Lecun在CoRL 2017大会上做的演讲的概述,所有资料来自于官方公开资源整理。回顾Yann Lecun清华演讲精华内容:深扒Yann LeCun清华演讲中提到的深度学习与人工

2017-11-17 00:00:00 560

原创 《大数据系统基础》课程实践项目中期答辩顺利举行,清华持续探索大数据人才教育创新之路

2017年11月15日,清华大学大数据能力提升项目之《大数据系统基础》课程实践项目中期答辩在清华大学六号教学楼顺利举行。160余名同学分为21组,向任课老师和企业导师汇报了各组实践项目的进展情况,任课老师和企业导师根据同学们的汇报表现逐一进行了点评和指导。据悉,本次答辩项目来自于国家发改委、百度、国美等政府机构和知名大数据企业等。项目需求和数据涉及多个行业领域,如“建设工程造价指数”、“餐饮行业白

2017-11-16 00:00:00 1059

原创 自创数据集,用TensorFlow预测股票教程 !(附代码)

来源:机器之心本文长度为4498字,建议阅读8分钟本文非常适合初学者了解如何使用TensorFlow构建基本的神经网络。STATWORX 团队近日从 Google Finance API 中精选出了 S&P 500 数据,该数据集包含 S&P 500 的指数和股价信息。有了这些数据,他们就希望能利用深度学习模型和 500 支成分股价预测 S&P 500 指数。STATWORX

2017-11-15 00:00:00 21730

原创 独家 | PHM数据竞赛首个中国夺冠团队经验分享(常用模型&赛题详解&PPT&视频)

清华大数据“赛事经验分享”系列讲座旨在分享国内外大数据领域重要赛事获胜团队及个人的参赛历程及获胜经验,本期,我们邀请到PHM Data Challenge十年竞赛史上首个完全由中国本土数据精英组成的冠军团队——昆仑数据K2代表队的领队人昆仑数据首席数据科学家田春华博士及团队成员代表刘家扬,两位嘉宾分别与大家分享了工业大数据分析如何有机融合机理模型与统计学习模型,以及2017 PHM Dat

2017-11-14 00:00:00 3079 7

转载 李飞飞CS231n2017课程双语字幕版上线 !(附课程链接)

来源:AI科技评论本文长度为2400字,建议阅读4分钟本文为你介绍最近上线的李飞飞的CS231n2017课程中文版。CS231n 2017双语字幕版上线!正式开课!距离斯坦福计算机视觉课程结束5个月,2017春季CS231n中文版终于上线了,课程中文版已经在AI慕课学院(mooc.ai )发布,11月10日正式开课,预计持续12周!无法科学上网看到原视频的、以及对英

2017-11-14 00:00:00 14892

转载 教你实现双十一商品标签自动归类(附数据模板)

来源:云栖社区作者:傲海本文长度为1280字,建议阅读4分钟本文为你分享借助PAI平台的文本分析功能,实现一版简单的商品标签自动归类系统。背景双十一购物狂欢节刚刚过去,如果是网购老司机,一定清楚通常一件商品会有很多维度的标签来展示,比如一个鞋子,它的商品描述可能会是这样的“韩都少女英伦风系带马丁靴女磨砂真皮厚底休闲短靴”。如果是一个包,那么它的商品描述可能是“天

2017-11-13 00:00:00 3647

转载 秒杀99.99%大学生!看看清华的学霸到底有多牛?

中国最牛高校学霸什么样?11月7日下午,2017年清华本科生特奖答辩会上,16位学霸现身PK,争夺清华授予在校学生的最高荣誉。中国最牛高校学霸PK还记得曾今轰动网络的这张成绩单吗?15门课程100分、4门99分、1门98分!这是当时清华大学韩衍隽同学的成绩,据了解,该图出自2014年清华大学本科生特等奖学金答辩会。清华大学特等奖学金于1989

2017-11-13 00:00:00 7418 2

转载 快讯 | 第二届数据标准化及治理大会成功举办,清华力量助推中国数据标准化建设

2017年11月12日上午,第二届中国数据标准化与治理大会在北京万寿宾馆隆重举行。本届会议旨在持续汇集专家人才和经验,促进领域发展和提升业界实践水平。大会由中国工业和信息化部和国家标准化管理委员会指导,中国电子技术标准化研究院、中国科学技术部高技术研究发展中心、中国行政体制改革研究会、清华大学、国际数据管理协会中国分会(DAMA China)联合举办。大数据时代,数据是国家基础战略

2017-11-12 00:00:00 457

转载 NLP专题论文解读:从Chatbot、NER到QA系统...

来源:PaperWeekly本文长度为2721字,建议阅读4分钟本文为你分享NLP专题论文笔记,涵盖对话系统、命名实体识别(NER)和QA系统。本期NLP 专题论文笔记,涵盖对话系统、命名实体识别(NER)和QA系统,希望对你有所帮助。一、对话系统论文 | Affective Neural Response Generation链

2017-11-12 00:00:00 2375

转载 李飞飞力赞论文:描述视频密集事件新模型 !(附论文)

来源:AI科技大本营论文作者:Ranjay Krishna, Kenji Hata,Frederic Ren, Li Fei-Fei, Juan Carlos Niebles  StanfordUniversity本文长度为3094字,建议阅读6分钟本文第一部分为你介绍论文的摘要及引言翻译,第二部分为解读(不代表本文观点)。 前几日李飞飞发了一条推文:

2017-11-11 00:00:00 2420 1

转载 周志华:实验论证最好的非深度神经网络方法 !(附论文、代码)

来源:全球人工智能本文41张PPT,建议阅读4分钟北京时间 11月5 日到11月6日,西瓜书《机器学习》作者、南京大学机器学习与数据挖掘研究所(LAMDA)周志华教授日前在MLA 2017上的演讲:深度森林初探——讲述的关于他最新集成学习研究成果-深度森林,一种对深度神经网络可替代性方法。 最新实验表明gcForest已经是最好的非深度神经网络方法。

2017-11-10 00:00:00 842

转载 近期热门领域新鲜数据集汇总!

来源:程序媛的日常本文长度为2721字,建议阅读4分钟本文为你分享一些新颖的数据集,涵盖了阅读理解、对话系统、新闻摘要等热门领域。今天想跟大家分享一些近期看到的比较新颖的数据集。随着很多基础设置下的简单问题被解决,想要去检验一个模型是否具有更强的能力,就需要更好的更复杂的数据集做支持。由此,许多研究者通过各种方法爬取、构造了一些高质量且有新意的数据集。今天想分享的涵盖了许多热门

2017-11-09 00:00:00 1997

转载 数据蒋堂 | JOIN运算剖析

来源:数据蒋堂作者:蒋步星本文长度为2200字,建议阅读5分钟本文为你讲解SQL中用于多表关联的运算JOIN。JOIN是SQL中用于多表关联的运算,无论从程序员编写还是数据库实现角度来看,JOIN都是SQL中最难的运算。其实,SQL对JOIN的定义非常简单,就是对两个集合(表)做笛卡尔积后再按某种条件过滤,写出来的语法也就是A JOIN B ON ...的形式。

2017-11-08 00:00:00 477

转载 新手神器!不用部署深度学习环境、上传数据集!(附代码&视频教程)

来源:大数据文摘作者:Emil Wallnér本文长度为4600字,建议阅读7分钟本文带你快速创建神经网络,开启深度学习之旅。前言深度学习的浪潮在五年前开始兴起。随着计算能力的爆炸型增长和几个成功的案例,深度学习引起了大肆宣传。深度学习技术可以用来驾驶车辆,在Atari游戏中进行人机对抗,以及诊断癌症。开始学习神经网络时,我花

2017-11-08 00:00:00 1267

转载 “学在清华”清华大学本科教育主题展在校史馆开展

11月5日下午,“学在清华”清华大学本科教育主题展在清华大学校史馆二层展厅正式开展,薛克宗、薛芳渝、彭刚、安宇、丛振涛、史元春、冯务中、邓俊辉、梅赐琪、刘震、王健、李晓雁、彭建敏、杨颖、邢沁妍等15位来自本科教学一线的教师代表为展览揭幕,部分师生代表参观了展览,校团委书记邴浩为师生们做了讲解。▲展厅。▲校团委书记邴浩做讲解。“学在清华”清华大学本

2017-11-06 00:00:00 983

转载 教你搭建多变量时间序列预测模型LSTM(附代码、数据集)

来源:机器之心本文长度为2527字,建议阅读5分钟本文为你介绍如何在Keras深度学习库中搭建用于多变量时间序列预测的LSTM模型。长短期记忆循环神经网络等几乎可以完美地模拟多个输入变量的问题,这为时间序列预测带来极大益处。本文介绍了如何在 Keras 深度学习库中搭建用于多变量时间序列预测的 LSTM 模型。诸如长短期记忆(LSTM)循环神经网络的神经神经网络几乎

2017-11-06 00:00:00 25647 14

转载 近期活动盘点:数据标准化及治理大会、IBM苏中讲座、产业创新交流会、企业走访和数据法学征稿(11.6-11.12)

想知道近期有什么最新活动?大数点为你整理的近期活动信息在此:清华大学iCenter产业创新交流会2017年11月6日活动简介:本次活动结合iCenter在智能制造、大数据、数字现实技术、人工智能等领域的探索与实践,以启发城市未来为主旨,提供相关领域人才进行跨界交流的机会。并对一些优秀成果进行总结,也希望通过本次活动邀请更多的学生、老师、企业加入到我们的创新创

2017-11-05 00:00:00 1081

转载 这8份前沿Paper+Code ,你一定用得上!

来源:PaperWeekly本文长度为600字,建议阅读5分钟本文为你列出八篇自然语言处理、计算机视觉及机器学习领域前沿的论文及代码。[ 自然语言处理 ]SLING: A framework for frame semantic parsing@paperweekly 推荐#Semantic Parsing一个非常快的 sem

2017-11-05 00:00:00 2814

转载 半世纪全球顶级学者迁移图(附视频、亿级学术信息)| 数据院科技大数据研究中心发布

来源:新智元作者:闻菲,刘小芹本文长度为3000字,建议阅读7分钟本文介绍了科技情报挖掘系统AMiner对半个世纪以来的顶级研究者的迁徙的研究。[ 导读 ] 2017机器智能前沿论坛今日在中国工程院报告厅成功举办。清华大学计算机系副教授唐杰发表主题演讲,并为大家介绍了数据科学研究院AMiner团队自主研发的研究者社会网络挖掘与搜索系统——AMiner及近期研究成果。

2017-11-04 00:00:00 1003

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除