NLP/DeepLearning
文章平均质量分 73
数据娃掘
人生何需久睡,死后自会长眠
展开
-
kaggle 首战拿金牌总结
kaggle 首战拿金牌总结这篇文章是我对自己第一次参加 kaggle 竞赛并获得金牌(14/4129)的一个总结,谈不上太多经验,涉及到的一些比赛规则和小技巧希望能对刚刚开始打 kaggle 比赛的小伙伴起到一些帮助。1. 平台简介kaggle 是全球首屈一指的数据科学、机器学习竞赛和分享平台。很多大公司作为出题方,会将问题和相关数据放在平台上形成一个竞赛,所有的 kaggle ...转载 2020-03-06 14:57:25 · 2340 阅读 · 0 评论 -
ACM论文投稿时常用的几项操作
一、我们发现ACM的latex模板中会有ACM Reference Format信息,如下:投稿时,可以使用如下的方法将其去掉,在 \documentclass[sigconf]{acmart}下面直接添加这几行即可去掉\settopmatter{printacmref=false} % Removes citation information below abstract\re...原创 2020-02-11 19:42:40 · 27641 阅读 · 8 评论 -
知识蒸馏,teacher—student模型的思考
知识蒸馏,teacher—student模型的思考这个方向的学术源头是Rich Caruana2014年的作品《Do Deep Nets Really Need to be Deep?》,后来经过Hinton的《Distilling the Knowledge in a Neural Network》发扬光大。实用价值:可以对大型神经网络进行瘦身以便部署到用户端;理论价值:引发对深度网络的思考:...转载 2020-02-25 06:39:09 · 5908 阅读 · 0 评论 -
2020人工智能顶会-混乱未分级分领域
CVPR 2020: IEEE Conference on Computer Vision and Pattern RecognitionNeurIPS 2020: Neural Information Processing SystemsECCV 2020: European Conference on Computer VisionICML 2020: International Con...转载 2020-02-15 10:57:28 · 1046 阅读 · 0 评论 -
The State of Transfer Learning in NLP [18 AUGUST 2019]
This post expands on theNAACL 2019 tutorial on Transfer Learning in NLP.The tutorial was organized by Matthew Peters, Swabha Swayamdipta, Thomas Wolf, and me. In this post, I highlight key insights...转载 2020-01-27 21:55:24 · 2424 阅读 · 0 评论 -
Latex常用积累
1.latex中把公式中一部分斜体变为直体2.Loss Function的这个符号LaTeX 里怎么打? 实际上,就是手写体的L,Latex中这样引用就行:\mathcal{L}3.常用数学符号的 LaTeX 表示方法 http://mohu.org/info/symbols/symbols.htm4.如何打印出带编号的公式,并且自己来定义...原创 2019-12-30 00:48:33 · 4239 阅读 · 2 评论 -
微软提出 DNN 并行训练新方法 PipeDream,比传统方法快四倍
作者:Amar Phanishayee译者:夏夜发布时间:2019 年 11 月 15 日 10:00本文介绍了微软新提出的 PipeDream,旨在使深度学习网络训练并行化水平更高,进而提高训练效率。深度神经网络(DNNs:Deep Neural Networks)已经在大量应用中取得了巨大进展,这些应用包括图像分类、翻译、语言建模以及视频字幕等。但 DNN 训练极其耗时,需...转载 2019-11-17 09:03:14 · 2637 阅读 · 2 评论 -
IBM 提出基于语言模型的数据增强新方法
作者:张之栋(InfoQ) 2019年11月15日18:45VentureBeat 消息,IBM Research 的研究人员在近期发表的一篇论文中,提出了一种文本分类任务的数据扩充新方法。该方法被研究人员称为基于语言模型的数据增强 (LAMBADA),原理是使用一个预先训练过的机器学习模型来合成文本分类任务所需要的标记数据。IBM 研究人员声称,LAMBADA 可以提高分类器在各种数...转载 2019-11-17 09:20:54 · 860 阅读 · 0 评论 -
百来篇关于机器学习和深度学习的资料
编者按:本文收集了百来篇关于机器学习和深度学习的资料,含各种文档,视频,源码等。而且原文也会不定期的更新,望看到文章的朋友能够学到更多。《Brief History of Machine Learning》介绍:这是一篇介绍机器学习历史的文章,介绍很全面,从感知机、神经网络、决策树、SVM、Adaboost 到随机森林、Deep Learning.《Deep Learnin转载 2015-03-24 22:43:12 · 1157 阅读 · 0 评论 -
数据挖掘算法学习(三)NaiveBayes算法
算法简介NBC是应用最广的分类算法之一。朴素贝叶斯模型发源于古典数学理论,有着坚实的数学基础,以及稳定的分类效率。同时,NBC模型所需估计的参数很少,对缺失数据不太敏感,算法也比较简单。算法假设给定目标值时属性之间互相条件独立。算法输入训练数据 T={(x1,y1),(x2,y2),……,(xn,yn)}待分类数据x0=(x0(1),x0(2),……,x0(n))T转载 2015-03-24 22:56:56 · 982 阅读 · 0 评论 -
北美18名校的数据挖掘,数据分析,人工智能及机器学习课程汇总
http://www.quora.com/What-is-data-science 数据科学是什么?http://www.quora.com/How-do-I-become-a-data-scientist 我怎样才能成为一个数据科学家?http://www.quora.com/Data-Science/How-does-data-science-differ-from-tra转载 2015-03-24 23:06:04 · 784 阅读 · 0 评论 -
机器学习数据挖掘-软件、网站、课程资源知识点汇总
以下文章转载自:http://blog.csdn.net/zouxy09/article/details/8102252 ,感谢原作者!!!机器学习知识点学习zouxy09@qq.comhttp://blog.csdn.net/zouxy09 在学习机器学习的有关知识时,搜索到JerryLead的cnblog中的Machine Le转载 2015-03-24 23:07:45 · 2227 阅读 · 0 评论 -
自然语言处理(nlp)的主要范畴
文本朗读(Text to speech)/语音合成(Speech synthesis)语音识别(Speech recognition)中文自动分词(Chinese word segmentation)词性标注(Part-of-speech tagging)句法分析(Parsing)自然语言生成(Natural language generation)文本分类(Text categorization转载 2015-03-24 01:06:00 · 2539 阅读 · 0 评论 -
自然语言处理(NLP)网上资源整理
最近把一些在网上见到的自然语言处理的资源整理了一下,包括论文列表、软件资源和一些实验室主页、个人主页等,希望能对NLP研究者有所帮助,由于个人视野有限,目前只整理了这些,以后会持续更新。在此也感谢这些资源的提供者和维护者。转载请标明出处(http://blog.csdn.net/xuh5156/article/details/7437475)论文、博客1. Google转载 2015-03-24 01:02:56 · 1177 阅读 · 0 评论 -
中文计算机核心期刊排名及投稿信息
计算机核心期刊排名及投稿信息 文章分类:IT生活 1 计算机学报 北京 中国计算机学会等 2 软件学报 北京 中国科学院软件研究所 3 计算机研究与发展 北京 中国科学院计算技术研究所等 4 自动化学报 北京 中国科学院等 5 计算机科学 重庆 国家科技部西南信息中心 6转载 2015-03-24 22:47:11 · 3942 阅读 · 0 评论 -
淘宝吴雪军:自然语言处理技术在搜索和广告中的应用
编者按:本文为淘宝广告技术部广告算法负责人、淘宝网研究员吴雪军在8月3日CTO俱乐部沙龙演讲实录,全文如下:我今天演讲的题目是自然语言处理技术在搜索和广告中的应用。搜索和广告是技术非常密集两个互联网产品,它们前端都非常简单,但后台系统架构极其复杂。今天主要讲三个方面的内容:第一、主要是介绍一比较典型的互联网应用体系;第二、主要介绍NLP技术在搜索中的应用;第三、介绍NLP技术在物联转载 2015-03-24 22:43:03 · 1089 阅读 · 0 评论 -
Deep Learning(深度学习)学习笔记整理
目录:一、概述二、背景三、人脑视觉机理四、关于特征4.1、特征表示的粒度4.2、初级(浅层)特征表示4.3、结构性特征表示4.4、需要有多少个特征?五、Deep Learning的基本思想六、浅层学习(Shallow Learning)和深度学习(Deep Learning)七、Deep learn转载 2015-03-24 22:46:12 · 1121 阅读 · 0 评论 -
数据挖掘算法学习(一)K-Means算法
博主最近实习开始接触数据挖掘,将学习笔记分享给大家。目前用的软件是weka,下篇文章会着重讲解。转载请附上链接http://blog.csdn.net/iemyxie/article/details/38173495算法简介:K-Means算法是输入聚类个数k,以及包含n个数据对象的数据库,输出满足方差最小标准的k个聚类。并使得所获得的聚类满足:同一聚类中的对象相似度较高;而不同聚转载 2015-03-24 22:54:36 · 804 阅读 · 0 评论 -
数据挖掘算法学习(二)weka简介
weka官方下载地址:http://www.cs.waikato.ac.nz/ml/weka/downloading.htmlweka简介:Weka的全名是怀卡托智能分析环境(Waikato Environment for Knowledge Analysis),是一款免费的,非商业化(与之对应的是SPSS公司商业数据挖掘产品--Clementine )的,基于JAVA环境下开源的机器转载 2015-03-24 22:55:54 · 665 阅读 · 0 评论 -
大数据分析与机器学习领域Python兵器谱
来自 大数据邦 2015年01月27日 08:59的微信文章曾经因为NLTK的缘故开始学习Python,之后渐渐成为我工作中的第一辅助脚本语言,虽然开发语言是C/C++,但平时的很多文本数据处理任务都交给了Python。离开腾讯创业后,第一个作品课程图谱也是选择了Python系的Flask框架,渐渐的将自己的绝大部分工作交给了Python。这些年来,接触和使用了很多Python工具包,特别是在转载 2015-03-24 23:02:14 · 1192 阅读 · 0 评论 -
近200篇机器学习&深度学习资料分享(含各种文档,视频,源码等)
编者按:本文收集了百来篇关于机器学习和深度学习的资料,含各种文档,视频,源码等。而且原文也会不定期的更新,望看到文章的朋友能够学到更多。《Brief History of Machine Learning》介绍:这是一篇介绍机器学习历史的文章,介绍很全面,从感知机、神经网络、决策树、SVM、Adaboost 到随机森林、Deep Learning.《Deep Learnin转载 2015-03-24 22:50:55 · 1553 阅读 · 1 评论 -
人工智能、机器学习和数据挖掘三者之间的关系
人工智能: 人工智能(ArtificialIntelligence),英文缩写为AI。它是关于知识的科学(知识的表示、知识的获取以及知识的应用)。 人工智能(学科)是计算机科学中涉及研究、设计和应用智能机器的一个分支。它的近期主要目标在于研究用机器来模仿和执行人脑的某些智力功能,并开发相关理论和技术。 人工职能(能力)是智能机器所执行的通常与人转载 2015-03-24 23:10:50 · 15875 阅读 · 0 评论 -
机器学习与数据挖掘
机器学习与数据挖掘周志华 南京大学计算机软件新技术国家重点实验室,南京 210093 “机器学习”是人工智能的核心研究领域之一,其最初的研究动机是为了让计算机系统具有人的学习能力以便实转载 2015-03-24 22:52:31 · 1665 阅读 · 0 评论 -
机器学习周刊第一期:Hello World
各种新闻Facebook’s ‘Deep Learning’ Guru Reveals the Future of AI一篇讲Facebook研究院的文章,燕乐存,Yann leCun,神经网络三大牛人之一,NIPS上被Facebook收了当人工智能研究院老大了,用DNN搞,话说DNN研究院还是百度发起的说,拜余凯。Google Hires Brains tha转载 2015-03-24 23:08:42 · 825 阅读 · 0 评论 -
大数据分析:机器学习算法实现的演化
我将会对机器学习算法的不同的实现范式进行讲解,既有来自文献中的,也有来自开源社区里的。首先,这里列出了目前可用的三代机器学习工具。传统的机器学习和数据分析的工具,包括SAS,IBM的SPSS,Weka以及R语言。它们可以在小数据集上进行深度分析——工具所运行的节点的内存可以容纳得下的数据集。第二代机器学习工具,包括Mahout,Pentaho,以及RapidMiner。转载 2015-03-24 23:13:35 · 865 阅读 · 0 评论 -
浅谈我对机器学习的理解
算算时间,从开始到现在,做机器学习算法也将近八个月了。虽然还没有达到融会贯通的地步,但至少在熟悉了算法的流程后,我在算法的选择和创造能力上有了不小的提升。实话说,机器学习很难,非常难,要做到完全了解算法的流程、特点、实现方法,并在正确的数据面前选择正确的方法再进行优化得到最优效果,我觉得没有个八年十年的刻苦钻研是不可能的事情。其实整个人工智能范畴都属于科研难题,包括模式识别、机器学习、搜索、规划等转载 2015-03-24 22:37:10 · 2912 阅读 · 1 评论 -
数据挖掘算法学习(四)PCA算法
转载请附上链接http://blog.csdn.net/iemyxie/article/details/38236647算法简介主成分分析(PrincipalComponentAnalysis,简称PCA)是一种常用的基于变量协方差矩阵对信息进行处理、压缩和抽提的有效方法。主要用于对特征进行降维。算法假设数据的概率分布满足高斯分布或是指数型的概率分布。方差高的向量视为主元。算法转载 2015-03-24 22:58:11 · 1223 阅读 · 0 评论 -
计算机类论文在哪里投稿?
1、【杂志名称】 计算机应用研究【杂志文章包含专业】建模,仿真,网络,人工智能,比较杂。【投稿联系方式】http://www.arocmag.com/ 注册在线投稿审稿【投稿费用】250元/页【杂志级别】国家一级期刊,全国中文核心期刊【稿酬回报】无【投稿感受】录用率始终保持在60%以上,不包括增刊,想上增刊,交钱就行(250元/页)。无审稿费,1~2月就知道结果了!2转载 2015-03-24 23:11:49 · 1904 阅读 · 0 评论 -
数据挖掘工具R软件与Weka的比较分析
作为数据挖掘常用的两个工具软件,R软件和weka软件各有千秋,本文对这两种数据挖掘软件进行了比较与分析。R软件介绍 R是统计领域广泛使用的一款软件,是一个开放的统计分析和图形显示的程序设计环境,它与S编程语言相似。 R 可以看作是贝尔实验室(Bell Laboratories)的Rick Becker,John Chambers和Allan Wilks开发的S语言的一种实现。原创 2015-04-09 15:09:52 · 1447 阅读 · 0 评论 -
初学者如何查阅自然语言处理(NLP)领域学术资料
昨天实验室一位刚进组的同学发邮件来问我如何查找学术论文,这让我想起自己刚读研究生时茫然四顾的情形:看着学长们高谈阔论领域动态,却不知如何入门。经过研究生几年的耳濡目染,现在终于能自信地知道去哪儿了解最新科研动态了。我想这可能是初学者们共通的困惑,与其只告诉一个人知道,不如将这些Folk Knowledge写下来,来减少更多人的麻烦吧。当然,这个总结不过是一家之谈,只盼有人能从中获得一点点益处,受个转载 2015-04-25 08:16:34 · 813 阅读 · 1 评论 -
NLP好文章
最近把一些在网上见到的自然语言处理的资源整理了一下,包括论文列表、软件资源和一些实验室主页、个人主页等,希望能对NLP研究者有所帮助,由于个人视野有限,目前只整理了这些,以后会持续更新。在此也感谢这些资源的提供者和维护者。论文、博客1. Google在研究博客中总结了他们2011年的精彩论文《Excellent Papers for 2011》,包括社会转载 2015-04-25 09:44:41 · 737 阅读 · 0 评论 -
数据挖掘、机器学习、自然语言处理
开始进入正题,我将介绍如何从零基础入门到基本达到NLP前沿:----------NLP零基础入门----------首推资料以及唯一的资料:Columbia University, Micheal Collins教授的自然语言课程链接>> Michael CollinsMichael Collins,绝对的大牛,我心目中的偶像,这门课是我见过讲NLP最最最清原创 2015-04-25 08:24:29 · 2332 阅读 · 3 评论 -
自然语言处理(NLP)网上资源整理
最近把一些在网上见到的自然语言处理的资源整理了一下,包括论文列表、软件资源和一些实验室主页、个人主页等,希望能对NLP研究者有所帮助,由于个人视野有限,目前只整理了这些,以后会持续更新。在此也感谢这些资源的提供者和维护者。论文、博客1. Google在研究博客中总结了他们2011年的精彩论文《Excellent Papers for 2011》,包括社会网络、机器学转载 2015-04-25 09:41:33 · 966 阅读 · 0 评论 -
word2vec学习+使用介绍
word2vec是google的开源工具,很值得学习使用,推荐大家使用!代码已跑通顺利运行。word2vec是一个将单词转换成向量形式的工具。可以把对文本内容的处理简化为向量空间中的向量运算,计算出向量空间上的相似度,来表示文本语义上的相似度。一、理论概述(主要来源于http://licstar.net/archives/328这篇博客)1.词向量是什么自然语言理解的问题要转化转载 2015-08-10 22:53:24 · 2921 阅读 · 0 评论 -
机器学习之实战朴素贝叶斯算法
贝叶斯分类是一类分类算法的总称,这类算法均以贝叶斯定理为基础,故统称为贝叶斯分类,而朴素贝叶斯分类可谓是里面最简单、入门的一种。首先关于贝叶斯定理,感觉简单而伟大,前些天一直在看吴军的数学之美(没看过的极力推荐)系列文章,看到自然语言处理从规则模型到统计模型转变的时候,语言的识别准确率上升好几个等级,以至于今天的语言识别到达很强大的地步,同时对于搜索引擎,网页搜索的准确率,也上升好多。这其中的转载 2015-08-10 22:58:27 · 642 阅读 · 1 评论 -
word2vec实践(一):预备知识
word2vec是google最新发布的深度学习工具,它利用神经网络将单词映射到低维连续实数空间,又称为单词嵌入。词与词之间的语义相似度可以通过两个单词的嵌入向量之间的余弦夹角直接衡量,更不用说使用诸如kmeans、层次聚类这样的算法来挖掘其功能了,同时作者Tomas Mikolov发现了比较有趣的现象,就是单词经过分布式表示后,向量之间依旧保持一定的语法规则,比如简单的加减法规则。目前网络上转载 2015-08-10 22:54:26 · 746 阅读 · 0 评论 -
word2vec代码注释
虽然word2vec火了很久了,但自己一直拖延了没去看,借实验室组会讨论的机会花一天时间阅读了和word2vec相关的一点东西,算是先知后觉。 邓澍军老师的中文教程很不错,顺着里面的文献一路看下去就能了解个差不多,北邮的这位同学总结的也很好。发现网上没有代码的详细注释,就把自己写的注释,看能不能赚个点击量。下面是图片版,还有网页版,代码版。有两个转载 2015-08-10 20:29:09 · 850 阅读 · 0 评论 -
北美18名校的数据挖掘,数据分析,人工智能及机器学习课程汇总
问答http://www.quora.com/What-is-data-science 数据科学是什么?http://www.quora.com/How-do-I-become-a-data-scientist 我怎样才能成为一个数据科学家?http://www.quora.com/Data-Science/How-does-data-science-dif转载 2015-09-04 07:51:18 · 1224 阅读 · 0 评论 -
计算机视觉领域的一些牛人博客,超有实力的研究机构等的网站链接
以下链接是本人整理的关于计算机视觉(ComputerVision, CV)相关领域的网站链接,其中有CV牛人的主页,CV研究小组的主页,CV领域的paper,代码,CV领域的最新动态,国内的应用情况等等。打算从事这个行业或者刚入门的朋友可以多关注这些网站,多了解一些CV的具体应用。搞研究的朋友也可以从中了解到很多牛人的研究动态、招生情况等。总之,我认为,知识只有分享才能产生更大的价值,真诚希望下面转载 2015-09-04 07:54:45 · 2267 阅读 · 0 评论 -
NLP--自然语言处理与机器学习会议
整理至11月中旬在重庆参加的自然语言处理与机器学习会议,第一讲为自然语言处理。由基本理论到实际运用,整理了基本的框架。 1. 自然语言处理基础 词性标注(POS):为句子中的每个词语标注词性,可看做是句法分析的关键任务,也可以看做是句法分析的最低层次.对后续句法分析,语义消歧等任务非常有用.POS集合,也就是基本词性规则:常用的是PennTreeb转载 2015-09-04 08:20:40 · 2377 阅读 · 0 评论