- 博客(345)
- 资源 (35)
- 收藏
- 关注
转载 decaNLP-一个可以同时处理机器翻译、问答、摘要、文本分类、情感分析等十项自然语言任务的通用模型
https://blog.csdn.net/wenyusuran/article/details/80810804https://zhuanlan.zhihu.com/p/38359753https://einstein.ai/static/images/pages/research/decaNLP/decaNLP.pdf引言深度学习已经显著地改善了自然语言处理任务中的最先进...
2019-04-08 11:59:10 2992
原创 NeurIPS | 2018 (2)
PosterWed Dec 5th 05:00 -- 07:00 PM @ Room 210 #88Information-theoretic Limits for Community Detection in Network ModelsInWed Poster Session BChuyang Ke · Jean HonorioPaper »PosterWed...
2019-04-07 00:40:38 3049
原创 NeurIPS | 2018
https://nips.cc/Conferences/2018/Schedule?type=PosterToggle Poster VisibilityPosterTue Dec 4th 10:45 AM -- 12:45 PM @ Room 210 #1Modelling sparsity, heterogeneity, reciprocity and communit...
2019-04-07 00:39:39 11023
转载 What is GloVe?
GloVe stands for global vectors for word representation. It is an unsupervised learning algorithm developed by Stanford for generating word embeddings by aggregating global word-word co-occurrence mat...
2019-04-06 00:12:52 312
原创 Word2vec相似度模型 + Xgboost 在问题匹配上的应用(kaggle Quora Question Pairs)
kaggle Quora Question PairsIn[1]:import pandas as pdimport numpy as npimport gensimfrom fuzzywuzzy import fuzzfrom nltk.corpus import stopwordsfrom tqdm import tqdm_notebookfrom nltk impor...
2019-04-05 13:11:22 2851
转载 FFT(FastFourier Transform,快速傅立叶变换)
FFT(FastFourier Transform,快速傅立叶变换)是离散傅立叶变换的快速算法,也是我们在数字信号处理技术中经常会提到的一个概念。在大学的理工科课程中,在完成高等数学的课程后,数字信号处理一般会作为通信电子类专业的专业基础课程进行学习,原因是其中涉及了大量的高等数学的理论推导,同时又是各类应用技术的理论基础。关于傅立叶变换的经典著作和文章非常多,但是看到满篇的复杂...
2019-04-03 23:21:57 4616 1
转载 卷积神经网络(TextCNN)在句子分类上的实现
本篇博客记录的是论文Convolutional Neural Networks for Sentence Classification中的实验实现过程,一篇介绍使用CNN对句子进行分类的论文。尽管网上有些代码已经实现了使用CNN进行句子分类(TextCNN),但是是基于Theano来实现的,本文将介绍使用TensorFlow来实现整个论文的实验过程,一方面熟悉使用TensorFlow API,另一...
2019-04-03 21:40:46 682
原创 2019数字中国创新大赛西安(分区)、北京(分区) 决赛 观看总结
由于最近工作比较忙,没有参加这个比赛,不过看了决赛视频,记录一下:大赛地址:https://www.datafountain.cn/competitions/336/details/rank?sch=1424&page=1&type=A决赛视频:https://vzan.com/live/tvchat-914206255?ver=636893641813775368...
2019-04-03 15:05:39 151
转载 Python中的yield
通常的for...in...循环中,in后面是一个数组,这个数组就是一个可迭代对象,类似的还有链表,字符串,文件。它可以是mylist = [1, 2, 3],也可以是mylist = [x*x for x in range(3)]。 它的缺陷是所有数据都在内存中,如果有海量数据的话将会非常耗内存。 生成器是可以迭代的,但只可以读取它一次。因为用的时候才生成。比如 mygenerator = ...
2019-04-03 11:37:31 81
转载 AI Challenger 2018:细粒度用户评论情感分类冠军思路总结
https://www.jiqizhixin.com/articles/2019-01-28-162018年8月-12月,由美团点评、创新工场、搜狗、美图联合主办的“AI Challenger 2018全球AI挑战赛”历经三个多月的激烈角逐,冠军团队从来自全球81个国家、1000多所大学和公司的过万支参赛团队中脱颖而出。其中“后厂村静静”团队-由毕业于北京大学的程惠阁(现已入职美团点评)单人组...
2019-04-03 00:50:15 418
原创 序列最小最优化算法(SMO) SVM凸优化求
1998年,由Platt提出的序列最小最优化算法(SMO)可以高效的求解上述SVM问题,它把原始求解N个参数二次规划问题分解成很多个子二次规划问题分别求解,每个子问题只需要求解2个参数,方法类似于坐标上升,节省时间成本和降低了内存需求。每次启发式选择两个变量进行优化,不断循环,直到达到函数最优值。https://blog.csdn.net/m_buddy/article/details/524...
2019-04-02 01:09:58 1977
原创 决策树、随机森林、GBDT、xgboost、lightgbm、CatBoost相关分析
基础 一切树模型的都是基于特征空间划分的条件概率分布,都具有方差大的特性,对量纲无要求,所以我们先介绍几种条件概率公式:一,条件概率二,全概率三,贝叶斯1. 决策树递归树,它将特征空间划分为互不相交的单元。递归划分特征 ,生成多个if-then的规则,每条规则对应一个从根节点到叶子节点的条件概率分布单元,该单元由总的条件概率分布计算得来,表示给定...
2019-03-31 01:30:16 9008
翻译 XGBoost: A Scalable Tree Boosting System原文
XGBoost: A Scalable Tree Boosting System Tianqi Chen University of Washington [email protected] Carlos Guestrin University of Washington [email protected] ...
2019-03-30 23:45:52 3341
转载 GAN综述(2)
GAN在图像到图像的应用图像到图像的转换被定义为将一个场景的可能表示转换成另一个场景的问题,例如图像结构图映射到RGB图像,或者反过来。该问题与风格迁移有关,其采用内容图像和样式图像并输出具有内容图像的内容和样式图像的样式的图像。图像到图像转换可以被视为风格迁移的概括,因为它不仅限于转移图像的风格,还可以操纵对象的属性(如在面部编辑的应用中)。有监督下图像到图像转换Pix2Pix [2...
2019-03-30 19:05:59 7992
转载 GAN综述(1)
生成对抗网络GAN兴起后,随之而来的GAN自身存在的问题也是在各位学者的严谨证明下展露出来。有问题就有改进,大量围绕着GAN的文章也是爆发式的发表 但是其中不乏存在一些质量很高的文章。本文将对目前比较好的GAN模型做一个汇总和简单的比较,篇幅问题就不详细扩展,在以后的文章中将对其中的一部 分GAN模型做详细的解读。github上开源的GAN项目代码很多,我总结了一下,用tensorflow和p...
2019-03-30 18:38:57 2680 1
原创 极大似然估计
https://www.bilibili.com/video/av15944258?from=search&seid=11912212970276160225贝叶斯决策首先来看贝叶斯分类,我们都知道经典的贝叶斯公式:其中:p(w):为先验概率,表示每种类别分布的概率;:类条件概率,表示在某种类别前提下,某事发生的概率;而为后验概率,表示某事发生...
2019-03-30 10:56:21 408
转载 近些年deep learning在推荐系统的应用
深度学习不仅可以用来做推荐系统,而且未来基于机器/深度学习的推荐系统会是大趋势。 深度学习(DL)是推荐系统(RecSys)的下一个大事件一。在过去几年中,深度神经网络在计算机视觉,语音识别和自然语言处理(NLP)方面取得了巨大成功。深度学习技术也正成为解决推荐系统任务(如音乐,新闻,时尚文章和移动应用程序推荐)的强大工具。 推荐系统可以说是无处不在,我们每天直接或间接地...
2019-03-29 23:52:53 526
原创 机器学习资料合计(一)
机器学习资料合计(一)https://zhuanlan.zhihu.com/p/32057026今日头条算法原理(全)http://mp.weixin.qq.com/s/DXPMZN9SwKTxI4roaQmeMw今日头条资深算法架构师曹欢欢:本次分享将主要介绍今日头条推荐系统概览以及内容分析、用户标签、评估分析,内容安全等原理。系统概览推荐系统,如果用形式化的方式...
2019-03-28 13:55:18 2920
转载 AI Challenger 2018:细粒度用户评论情感分类冠军思路总结
https://challenger.ai/competition/fsauor20182018年8月-12月,由美团点评、创新工场、搜狗、美图联合主办的“AI Challenger 2018全球AI挑战赛”历经三个多月的激烈角逐,冠军团队从来自全球81个国家、1000多所大学和公司的过万支参赛团队中脱颖而出。其中“后厂村静静”团队-由毕业于北京大学的程惠阁(现已入职美团点评)单人组队,勇夺“...
2019-03-26 13:57:45 1923
转载 流形学习算法的总结
四. 经典流形学习算法:Isomap:等距映射。前提假设为低维空间中的欧式距离等于高维空间中的侧地线距离,当然该算法具体实施时是高维空间中较近点之间的测地线距离用欧式距离代替,较远点距离用测地线距离用最短路径逼近。LLE:局部线性嵌入。前提假设是数据所在的低维流形在局部是线性的,且每个采样点均可以利用其近邻样本进行线性重构表示。LE:拉普拉斯特征映射。前提假设是在高维中很近的点投影到低...
2019-03-26 13:37:49 789
原创 DBN-RBM TensorFlow实现
简介受限玻尔兹曼机是一种无监督,重构原始数据的一个简单的神经网络。 受限玻尔兹曼机先把输入转为可以表示它们的一系列输出;这些输出可以反向重构这些输入。通过前向和后向训练,训练好的网络能够提取出输入中最重要的特征。为什么RBM很重要?因为它能够自动地从输入中提取重要的特征。RBM有什么用.用于协同过滤(Collaborative Filtering).降维(dimensio...
2019-03-25 23:29:13 2918
原创 DBN原理及实践-TensorFlow
转自Luozm's Blog深度信念网络(Deep Belief Networks,DBN)是一种概率生成模型,是多个受限玻尔兹曼机(Restricted Boltzmann Machines,RBM)的堆叠,其中每个RBM层与其上下两层相连,且任意层内的单元不相互连接。除了第一层和最后一层之外,DBN的每一层都有两个作用:作为前一层的隐藏层,或者作为后一层的输入(可视层)。堆叠的RBM层上可...
2019-03-25 23:18:48 3643 1
翻译 RBM,DBM和DBN之间有什么区别?
Alan Lockett,博士人工智能,德克萨斯大学奥斯汀分校(2012年)2017年5月10日回复RBM和DBM是具有不同但相关的拓扑的图形模型。DBN是基于堆叠RBM的计算模型,但是不对应于任何特定概率模型。更详细地说,玻尔兹曼机器(BMs)是在1980年代基于统计物理学提出的。BM是一种图形模型,具有跨越一组可见节点和一组隐藏节点的无向链接。每个节点都是一个随机变量,并且...
2019-03-24 15:31:06 2932 2
原创 DNN深度神经网络、RBM受限玻尔兹曼机、DBN深度置信网络
DNN前向传播算法和反向传播算法感知机的模型大家都比较熟悉,它是一个有若干输入和一个输出的模型,如下图:输出和输入之间学习到一个线性关系,得到中间输出结果:接着是一个神经元激活函数:从而得到我们想要的输出结果1或者-1。这个模型只能用于二元分类,且无法学习比较复杂的非线性模型,因此在工业界无法使用。而神经网络则在感知机的模型上做了扩展,总结下主要有三点:1)加入了隐...
2019-03-24 00:54:22 2284
转载 第十八章_后端架构选型、离线及实时计算
Markdown Revision 1;Date: 2018/11/11Editor: 梁志成Contact: [email protected] 为什么需要分布式计算? 在这个数据爆炸的时代,产生的数据量不断地在攀升,从GB,TB,PB,ZB.挖掘其中数据的价值也是企业在不断地追求的终极目标。但是要想对海量的数据进行挖掘,首先要考虑的就是海量数据的存储问...
2019-03-23 23:37:07 824
转载 第十七章 模型压缩及移动端部署
Markdown Revision 1;Date: 2018/11/4Editor: 谈继勇Contact: [email protected]:贵州大学硕士张达峰17.1 为什么需要模型压缩和加速?(1)随着AI技术的飞速发展,越来越多的公司希望在自己的移动端产品中注入AI能力(2)对于在线学习和增量学习等实时应用而言,如何减少含有大量层级及结点的大型神经网络...
2019-03-23 23:35:19 7147 1
转载 第十二章 网络搭建及训练
目录常用框架介绍常用框架对比(表格展示) 16个最棒的深度学习框架https://baijiahao.baidu.com/s?id=1599943447101946075&wfr=spider&for=pc基于tensorfolw网络搭建实例CNN训练注意事项训练技巧深度学习模型训练痛点及解决方法https://blog.csdn.net/weixin_405816...
2019-03-23 23:33:58 1549
转载 第五章 卷积神经网络(CNN)
标签(空格分隔): 原创性 深度学习 协作 卷积神经网络负责人:重庆大学研究生-刘畅[email protected];铪星创新科技联合创始人-杨文英;Markdown Revision 1;Date: 2018/11/08Editor: 李骁丹-杜克大学Contact: [email protected] 卷积神经网络的组成层在卷积神经网络中,一般包含5种类...
2019-03-23 22:52:38 11502
原创 jupyter notebook使用
三、主面板(Notebook Dashboard)打开Notebook,可以看到主面板。在菜单栏中有Files、Running、Clusters、Conda四个选项。用到最多的是Files,我们可以在这里完成notebook的新建、重命名、复制等操作。具体功能如下:在Running中,可以看到正在运行的notebook,我们可以选择结束正在运行的程序。至于Clusters、Conda一般...
2019-03-22 21:45:16 398
转载 CNN for Sentence Classification-textcnn阅读笔记
Textcnn 论文全名是《Convolutional Neural Networks for Sentence Classification》发表于2014年 是一个最经典的模型,Yoon Kim将卷积神经网络CNN应用到文本分类任务,利用多个不同size的kernel来提取句子中的关键信息(类似于多窗口大小的ngram),从而能够更好地捕捉局部相关性。论文地址:https://arxiv....
2019-03-22 16:09:17 911
原创 局部线性嵌入(LLE,Locally Linear Embedding)
局部线性嵌入-用户特征降维,相对于PCA,对非线性结构的数据拥有更好的保持原始数据结构的能力,它主要利用了总体非线性分布的数据,在某个局部范围数线性分布的,对这个局部数据进行PCA降维,就好像地球是圆的,但地球上的操场可以是平面的。LLE算法的原理如下:所谓LLE即”local linear embedding”的降维算法,在处理所谓的流形降维的时候,效果比PCA要好很多。下面介绍具体实现方法...
2019-03-22 12:23:41 3298 1
转载 wxPython利用pytesser模块实现图片文字识别
http://blog.csdn.net/hk_jh/article/details/8961449主题wxPythonpytesser是谷歌OCR开源项目的一个模块,在python中导入这个模块即可将图片中的文字转换成文本。pytesser调用了tesseract。在python中调用pytesser模块,pytesser又用tesseract识别图片中的文字。下...
2019-03-22 09:36:22 213
转载 Python验证码识别:利用pytesser识别简单图形验证码
一、探讨识别图形验证码可以说是做爬虫的必修课,涉及到计算机图形学,机器学习,机器视觉,人工智能等等高深领域……简单地说,计算机图形学的主要研究内容就是研究如何在计算机中表示图形、以及利用计算机进行图形的计算、处理和显示的相关原理与算法。图形通常由点、线、面、体等几何元素和灰度、色彩、线型、线宽等非几何属性组成。计算机涉及到的几何图形处理一般有 2维到n维图形处理,边界区分,...
2019-03-22 09:35:51 561
转载 深度学习打造精准推荐系统,细说国美互联网 AI 发展的进击之路
蔡芳芳导语这是一个 AI+ 的时代。作为线上 + 线下的电商零售平台,国美互联网如何将人工智能技术嵌入到实际业务中?机器学习和深度学习技术为国美带来了哪些改变?在这火热的时局中,国美未来在前沿技术方面又将如何布局?且听下文一一分解。正文今年机器学习已然成为炙手可热的技术话题。深度学习与人工智能技术正在改变人们的生活,同时也给企业管理大量数据、为用户提供更精准的服务提供了一些新的思...
2019-03-20 21:59:29 381
转载 关于梯度下降法、牛顿法、高斯-牛顿、LM方法的总结
https://blog.csdn.net/wuaini_1314/article/details/79562400线性最小二乘问题,我们可以通过理论推导可以得到其解析解,但是对于非线性最小二乘问题,则需要依赖迭代优化的方法,。梯度下降主要是从一阶目标函数的一阶导推导而来的,形象点说,就是每次朝着当前梯度最大的方向收敛;二牛顿法是二阶收敛,每次考虑收敛方向的时候,还会考虑下一次的收敛的方向...
2019-03-20 21:37:14 1844
原创 大数据流水线系统PiFlow v0.5
PiFlow是一个基于分布式计算框架Spark开发的大数据流水线系统。该系统将数据的采集、清洗、计算、存储等各个环节封装成组件,以所见即所得方式进行流水线配置。简单易用,功能强大。它具有如下特性:简单易用:可视化配置流水线,实时监控流水线运行状态,查看日志 功能强大:提供100+的数据处理组件,包括Hadoop、Spark、MLlib、Hive、Solr、Redis、MemCache、E...
2019-03-20 14:39:07 1194
转载 Jacobian矩阵和Hessian矩阵,LM最优化方法
1. 前言熟悉机器学习的童鞋都知道,优化方法是其中一个非常重要的话题,最常见的情形就是利用目标函数的导数通过多次迭代来求解无约束最优化问题。实现简单,coding 方便,是训练模型的必备利器之一。这篇博客主要总结一下使用导数的最优化方法的几个基本方法,梳理梳理相关的数学知识,本人也是一边写一边学,如有问题,欢迎指正,共同学习,一起进步。2. 几个数学概念1) 梯度(一阶导数)...
2019-03-20 09:52:14 7463 1
转载 自然语言处理中/英文对比
人工智能时代,让计算机自动化进行文字语义理解非常重要,广泛应用于社会的方方面面,而语言本身的复杂性又给计算机技术带来了很大的挑战,攻克文本语义对实现AI全面应用有至关重要的意义。相应的自然语言处理(Natural Language Processing,NLP)技术因而被称为是“人工智能皇冠上的明珠”。中国和美国作为AI应用的两个世界大国,在各自语言的自动化处理方面有一些独特之处。接下来笔者对...
2019-03-19 21:55:24 5539
转载 激活函数和损失函数
3.1 激活函数关于激活函数,首先要搞清楚的问题是,激活函数是什么,有什么用?不用激活函数可不可以?答案是不可以。激活函数的主要作用是提供网络的非线性建模能力。如果没有激活函数,那么该网络仅能够表达线性映射,此时即便有再多的隐藏层,其整个网络跟单层神经网络也是等价的。因此也可以认为,只有加入了激活函数之后,深度神经网络才具备了分层的非线性映射学习能力。 那么激活函数应该具有什么样的性质呢?可...
2019-03-18 22:41:10 1365
自定自定义音乐播放器项
2014-04-09
Android NDK开发(1)----- Java与C互相调用实例详解
2014-04-09
Android NDK中使用OpenGL
2014-04-09
方立勋《30天轻松掌握JavaWeb视频》笔记+源码
2014-03-11
gephi 教程all-中文版
2018-04-19
基于J2EE的公交查询系统的设计与实现
2016-05-31
Android实现悬浮式顶部和底部标题栏效果仿百度贴吧
2015-12-20
android_AIDL
2015-10-15
Android基于蓝牙的计步器
2015-05-14
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人