Machine Learning
chvalrous
不忘初心,方得始终.
展开
-
视频抽取音频,对阿里 百度 腾讯 科大讯飞的语音识别进行评测
1 视频抽取音频 我手头的视频格式为 mov 或者 mp4格式的,需要首先从视频中抽取音频。 看了下各家对音频数据的格式要求,一般是 pcm/wav/amr/mp3 等,采样率 16k/8k, 位长 16bit,单声道。 用到的视频抽音频工具是 ffmpeg,这个没啥说的了。 针对视频抽取音频: ffmpeg -y -i audio.wav -acodec...原创 2019-06-19 14:34:41 · 2318 阅读 · 0 评论 -
Facebook大规模时序预测『真』神器—Prophet
本文转载自:http://shujuren.org/article/351.html作者:悟乙己概述:作为经统专业看到预测的packages很眼馋。除了之前的forecast包,现在这个prophet功能也很强大。而且! 适合工业界+商业场景的应用。并不喜欢理论分析,能直接上案例的,一般不码字,力求简单粗暴!!同时,本篇内容会同步更新于个人BLOG:http://blog.转载 2017-03-09 11:13:32 · 5504 阅读 · 0 评论 -
xgboost入门与实战(实战调参篇)
本文转载自:http://blog.csdn.net/sb19931201/article/details/52577592xgboost入门与实战(实战调参篇)前言前面几篇博文都在学习原理知识,是时候上数据上模型跑一跑了。本文用的数据来自kaggle,相信搞机器学习的同学们都知道它,kaggle上有几个老题目一直开放,适合给新手练级,上面还有很多老司机的方案共享以转载 2017-01-13 15:55:27 · 2829 阅读 · 1 评论 -
xgboost入门与实战(原理篇)
本文转载自:http://blog.csdn.net/sb19931201/article/details/52557382前言:xgboost是大规模并行boosted tree的工具,它是目前最快最好的开源boosted tree工具包,比常见的工具包快10倍以上。在数据科学方面,有大量kaggle选手选用它进行数据挖掘比赛,其中包括两个以上kaggle比赛的夺冠方案。转载 2017-01-13 15:50:46 · 3683 阅读 · 0 评论 -
Gensim Word2vec简介
本文转载自:http://ju.outofmemory.cn/entry/80023本文主要基于Radim Rehurek的Word2vec Tutorial.准备输入Gensim的word2vec的输入是句子的序列. 每个句子是一个单词列表:>>> # import modules & set up logging>>> import gensim, loggi转载 2017-01-06 14:32:03 · 2279 阅读 · 1 评论 -
TensorFlow安装与测试
本文转载自:http://www.cnblogs.com/mydebug/p/4972276.html官网:http://tensorflow.org/安装步骤:1、sudo apt-get install python-pip python-dev python-virtualenv2、virtualenv --system-site-packages ~/tenso转载 2017-01-04 17:25:17 · 2043 阅读 · 0 评论 -
CentOS6.5+Theano+Keras安装
本文转载自:http://blog.csdn.net/gongshaojie12/article/details/50926342一,安装python2.7.11(编译共享库) 0. Python -V 1. yum -y update 2. yum groupinstall -y development 3. yum ins转载 2017-01-04 17:17:52 · 1084 阅读 · 0 评论 -
深度学习框架Keras安装
本文转载自:http://blog.csdn.net/u012556077/article/details/50364640之前本打算安装Caffe,但是依赖包太多了,大大小小的问题真是头疼,也是因为机器的原因,本来想在自己笔记本上就在实体机上安装Ubuntu然后装caffe等深度学习框架,但是固态硬盘最近出了问题,拿去返修了。无奈在虚拟机上安装(Caffe好像不行,或许不转载 2017-01-04 14:45:07 · 3038 阅读 · 1 评论 -
Ubuntu14.04安装Theano详细教程
本文转载自:http://blog.csdn.net/xuezhisdc/article/details/47065475因为最近需要学习深度学习,因此想要配置Theano,来开发深度学习算法。但是发现Theano安装总是出现问题。于是在这里中总结一下。环境操作系统:ubuntu14.04Python:2.7.6需要联网相关库简介BLAS(Bas转载 2017-01-04 14:30:34 · 1034 阅读 · 0 评论 -
各大机器学习包汇总(python版,持续更新)
本文转载自:http://blog.csdn.net/renyp8799/article/details/51144786随着机器学习的逐日升温,各种相关开源包也是层出不群,面对如此多种类的工具包,该如何选择,有的甚至还知之甚少或者不知呢,本文简单汇总了一下当下使用比较多的Python版本机器学习工具包,供大家参看,还很不全不详尽,会持续更新,也欢迎大家补充,多谢多谢!~~~s转载 2016-12-01 18:37:02 · 2296 阅读 · 0 评论 -
使用 Spark MLlib 做 K-means 聚类分析
本文转载自:https://my.oschina.net/xiaoluobutou/blog/680638摘要: MLlib 是 Spark 生态系统里用来解决大数据机器学习问题的模块。本文将以聚类分析这个典型的机器学习问题为基础,向读者介绍如何使用 MLlib 提供的 K-means 算法对数据做聚类分析,我们还将通过分析源码,进一步加深读者对 MLlib K-means 算法的实现原理转载 2017-05-23 15:10:10 · 15588 阅读 · 1 评论 -
数据挖掘岗面试总结
本文转载自: http://blog.csdn.net/bryan__/article/details/52672912这个岗位叫法很多,算法岗,数据挖掘岗,机器学习岗,基础研究等等……下面总结一下从16年3月开始到9月底这半年的面试情况百度:实习生面试朋友帮我内推了,推了很多岗位,蛋疼,最开始的是个搞分布式平台的岗位,后面的岗位就不再接受简历1面要写代码,转载 2017-05-31 22:13:23 · 6719 阅读 · 3 评论 -
机器学习&数据挖掘笔记_16(常见面试之机器学习算法思想简单梳理)
本文转载自: http://www.cnblogs.com/tornadomeet/p/3395593.html 前言: 找工作时(IT行业),除了常见的软件开发以外,机器学习岗位也可以当作是一个选择,不少计算机方向的研究生都会接触这个,如果你的研究方向是机器学习/数据挖掘之类,且又对其非常感兴趣的话,可以考虑考虑该岗位,毕竟在机器智能没达到人类水平之前,机器学习可以作为一种重要转载 2017-06-01 12:47:43 · 989 阅读 · 0 评论 -
机器学习中 L1 和 L2 正则化的直观解释
机器学习中,如果参数过多,模型过于复杂,容易造成过拟合(overfit)。即模型在训练样本数据上表现的很好,但在实际测试样本上表现的较差,不具备良好的泛化能力。为了避免过拟合,最常用的一种方法是使用使用正则化,例如 L1 和 L2 正则化。但是,正则化项是如何得来的?其背后的数学原理是什么?L1 正则化和 L2 正则化之间有何区别?本文将给出直观的解释。1. L2 正则化直观解释L2 正则化...转载 2019-03-11 17:04:11 · 293 阅读 · 0 评论 -
欧式距离、标准化欧式距离、马氏距离、余弦距离
参考地址:https://blog.csdn.net/Kevin_cc98/article/details/73742037转载 2018-12-29 16:31:39 · 683 阅读 · 0 评论 -
推荐算法之Jaccard相似度与Consine相似度
0-- 前言:对于个性化推荐来说,最核心、重要的算法是相关性度量算法。相关性从网站对象来分,可以针对商品、用户、旺铺、资讯、类目等等,从计算方式看可以分为文本相关性计算和行为相关性计算,具体的实现方法有很多种,最常用的方法有余弦夹角(Cosine)方法、杰卡德(Jaccard)方法等。Google对新闻的相似性计算采用的是余弦夹角,CBU的个性化推荐以往也主要采用此方法。从9月份开始,CBU个性化...转载 2018-05-14 10:34:46 · 8487 阅读 · 0 评论 -
AI及相关领域国际会议级别
本文转载自:http://blog.csdn.net/cpp12341234/article/details/50886540AREA: Artificial Intelligence and Related SubjectsRank 1: AAAI: American Association for AI National Conference CVPR: IEEE Co转载 2017-12-12 11:19:54 · 2535 阅读 · 0 评论 -
scikit-learn Adaboost类库使用小结
本文转载自:http://www.cnblogs.com/pinard/p/6136914.html在集成学习之Adaboost算法原理小结中,我们对Adaboost的算法原理做了一个总结。这里我们就从实用的角度对scikit-learn中Adaboost类库的使用做一个小结,重点对调参的注意事项做一个总结。1. Adaboost类库概述 scikit-learn转载 2017-10-11 16:42:43 · 428 阅读 · 0 评论 -
机器学习中的范数规则化之(一)L0、L1与L2范数
本文转载自: http://blog.csdn.net/zouxy09/article/details/24971995机器学习中的范数规则化之(一)L0、L1与L2范数[email protected]://blog.csdn.net/zouxy09 今天我们聊聊机器学习中出现的非常频繁的问题:过拟合与规则化。我们先简单的来理解下常用的L0、L转载 2017-08-14 17:38:36 · 541 阅读 · 0 评论 -
fastText原理及应用
本文转载自: http://blog.csdn.net/yick_liao/article/details/62222153简介fastText是一种Facebook AI Research在16年开源的一个文本分类器。 其特点就是fast。相对于其它文本分类模型,如SVM,Logistic Regression和neural network等模型,fastText在保转载 2017-07-27 19:50:14 · 4295 阅读 · 0 评论 -
SVM-支持向量机算法概述
本文转载自:http://blog.csdn.net/passball/article/details/7661887/(一)SVM的背景简介支持向量机(Support Vector Machine)是Cortes和Vapnik于1995年首先提出的,它在解决小样本、非线性及高维模式识别中表现出许多特有的优势,并能够推广应用到函数拟合等其他机器学习问题中[10]。支持向量机方法是建转载 2017-06-19 14:27:26 · 488 阅读 · 0 评论 -
25个Java机器学习工具&库
本列表总结了25个Java机器学习工具&库:1. Weka集成了数据挖掘工作的机器学习算法。这些算法可以直接应用于一个数据集上或者你可以自己编写代码来调用。Weka包括一系列的工具,如数据预处理、分类、回归、聚类、关联规则以及可视化。2.Massive Online Analysis(MOA)是一个面向数据流挖掘的流行开源框架,有着非常活跃的成长社区。它包括一系列的机器学习算法(分转载 2016-12-01 17:12:20 · 576 阅读 · 0 评论 -
Deep Learning模型之:CNN卷积神经网络(一)深度解析CNN
本文转载自:http://www.cnblogs.com/nsnow/p/4562363.html本文整理了网上几位大牛的博客,详细地讲解了CNN的基础结构与核心思想,欢迎交流。 [1]Deep learning简介[2]Deep Learning训练过程[3]Deep Learning模型之:CNN卷积神经网络推导和实现[4]Dee转载 2016-11-03 17:23:01 · 2160 阅读 · 0 评论 -
生成模型与判别模型
本文转载自:http://blog.csdn.net/zouxy09/article/details/8195017生成模型与判别模型[email protected]://blog.csdn.net/zouxy09 一直在看论文的过程中遇到这个问题,折腾了不少时间,然后是下面的一点理解,不知道正确否。若有错误,还望各位前辈不吝指正,以免小弟一错再错。转载 2016-07-28 15:49:10 · 618 阅读 · 0 评论 -
数学之美:Xbox评分系统TrueSkill
本文转载自:http://blogread.cn/it/article/5592在电子竞技游戏中,特别是当有多名选手参加比赛的时候需要平衡队伍间的水平,让游戏比赛更加有意思。这样的一个参赛选手能力平衡系统通常包含以下三个模块:一个包含跟踪所有玩家比赛结果,记录玩家能力的模块。一个对比赛成员进行配对的模块。一个公布比赛中各成员能力的模块。 事实上目前已经有的转载 2016-07-05 16:58:24 · 2527 阅读 · 0 评论 -
GitHub上Top20个 Python 语言机器学习项目
1. Scikit-learnwww.github.com/scikit-learn/scikit-learnScikit-learn 是基于Scipy为机器学习建造的的一个Python模块,他的特色就是多样化的分类,回归和聚类的算法包括支持向量机,逻辑回归,朴素贝叶斯分类器,随机森林,Gradient Boosting,聚类算法和DBSCAN。而且也设计出了Python nume转载 2015-12-25 11:44:28 · 4522 阅读 · 0 评论 -
机器学习之用Python从零实现贝叶斯分类器
机器学习之用Python从零实现贝叶斯分类器朴素贝叶斯算法简单高效,在处理分类问题上,是应该首先考虑的方法之一。通过本教程,你将学到朴素贝叶斯算法的原理和Python版本的逐步实现。更新:查看后续的关于朴素贝叶斯使用技巧的文章“Better Naive Bayes: 12 Tips To Get The Most From The Naive Bayes Algorit转载 2015-12-25 10:40:05 · 2507 阅读 · 2 评论 -
中英文维基百科语料上的Word2Vec实验
最近试了一下Word2Vec, GloVe 以及对应的python版本 gensim word2vec 和 python-glove,就有心在一个更大规模的语料上测试一下,自然而然维基百科的语料进入了视线。维基百科官方提供了一个很好的维基百科数据源:https://dumps.wikimedia.org,可以方便的下载多种语言多种格式的维基百科数据。此前通过gensim的玩过英文的维基百科语料转载 2016-01-06 17:36:41 · 3199 阅读 · 0 评论 -
深度学习:使用 word2vec 和 gensim
gensim 官网:http://radimrehurek.com/gensim/index.htmlWord2vec: the good, the bad (and the fast)Google发布了一些无监督深度学习算法,PDF:“Our model can answer the query “give me a word like king, like woman, b转载 2016-01-06 17:23:28 · 5096 阅读 · 0 评论 -
word2vec使用指导
word2vec是一个将单词转换成向量形式的工具。可以把对文本内容的处理简化为向量空间中的向量运算,计算出向量空间上的相似度,来表示文本语义上的相似度。一、理论概述(主要来源于http://licstar.net/archives/328这篇博客)1.词向量是什么自然语言理解的问题要转化为机器学习的问题,第一步肯定是要找一种方法把这些符号数学化。 NLP转载 2015-11-20 15:14:17 · 1272 阅读 · 0 评论 -
常见面试之机器学习算法思想简单梳理
前言: 找工作时(IT行业),除了常见的软件开发以外,机器学习岗位也可以当作是一个选择,不少计算机方向的研究生都会接触这个,如果你的研究方向是机器学习/数据挖掘之类,且又对其非常感兴趣的话,可以考虑考虑该岗位,毕竟在机器智能没达到人类水平之前,机器学习可以作为一种重要手段,而随着科技的不断发展,相信这方面的人才需求也会越来越大。 纵观IT行业的招聘岗位,机器学习之类的岗位还是挺转载 2015-11-18 20:57:59 · 920 阅读 · 0 评论 -
ANSJ调用word2vec model文件
在使用word2vec对文本进行分析时能产生一个bin文件,可以用ANSJ调用该文件得到相近词,等同于替换 ./distance vectors.bin命令。代码如下:import java.io.BufferedInputStream;import java.io.DataInputStream;import java.io.FileInputStream;im转载 2015-11-23 15:46:28 · 1791 阅读 · 0 评论 -
互联网广告综述之点击率特征工程
本文转载自:http://blog.csdn.net/mytestmy/article/details/19088827互联网广告综述之点击率特征工程声明:1)该博文是整理自网上很大牛和专家所无私奉献的资料的。具体引用的资料请看参考文献。具体的版本声明也参考原文献2)本文仅供学术交流,非商用。所以每一部分具体的参考资料并没有详细对应,更有转载 2016-06-23 17:05:55 · 586 阅读 · 0 评论 -
滴滴全球Di-Tech算法大赛落幕 中国选手夺得10万美元大奖
7月20日消息,滴滴出行首届全球Di-Tech算法大赛今日正式落幕,经过数轮激烈角逐后,由三名成员组成的中国团队”inferrrr”以绝对优势夺得冠军并收获10万美元奖金,“一剑风吼”和“blitz”两团队则分获二、三名。滴滴出行CEO程维在算法大赛颁奖现场发表演讲,他表示:“互联网的下半场是人工智能。很庆幸,我们有世界上最难的题目,打造交通的AI。第一天创业的时候没想到我们在算法上这么难转载 2016-08-15 16:36:58 · 1951 阅读 · 2 评论 -
用Python和scikit-learn来介绍机器学习
本文转载自:http://blog.csdn.net/u010046690/article/details/51436484用Python和scikit-learn来介绍机器学习用Python和scikit-learn来介绍机器学习数据加载数据正则化特征选择算法开发LR朴素贝叶斯K最近邻决策树支持向量机怎样优化算法参数转载 2016-09-08 22:26:55 · 1620 阅读 · 0 评论 -
再谈机器学习中的归一化方法(Normalization Method)
本文转载自:http://blog.csdn.net/zbc1090549839/article/details/44103801机器学习、数据挖掘工作中,数据前期准备、数据预处理过程、特征提取等几个步骤几乎要花费数据工程师一半的工作时间。同时,数据预处理的效果也直接影响了后续模型能否有效的工作。然而,目前的大部分学术研究主要集中在模型的构建、优化等方面,对数据预处理的理论研究甚少,可以说转载 2016-09-21 08:44:25 · 2002 阅读 · 0 评论 -
Complete Guide to Parameter Tuning in XGBoost (with codes in Python)
本文转载自:https://www.analyticsvidhya.com/blog/2016/03/complete-guide-parameter-tuning-xgboost-with-codes-python/IntroductionIf things don’t go your way in predictive modeling, use XGboost. X转载 2016-08-31 18:49:58 · 947 阅读 · 0 评论 -
Complete Guide to Parameter Tuning in Gradient Boosting (GBM) in Python
本文转载自:https://www.analyticsvidhya.com/blog/2016/02/complete-guide-parameter-tuning-gradient-boosting-gbm-python/IntroductionIf you have been using GBM as a ‘black box’ till now, may be it’转载 2016-08-31 18:47:51 · 1412 阅读 · 0 评论 -
算法_TrueSkill_Python
本文用到的包import matplotlib.pyplot as pltimport numpy as npimport scipy.statsimport mathTrueSkill算法是Elo排名方法与贝叶斯规则的结合,可用于计算竞赛选手的能力排名。文献1提出了这个方法,文献2创造性地建议使用这方法来计算问答类社区问题的难度。算法给每一个用户分配一个正态分布,均值代表真实能转载 2016-08-09 09:50:30 · 3094 阅读 · 0 评论 -
xgboost原理及应用
1.背景关于xgboost的原理网络上的资源很少,大多数还停留在应用层面,本文通过学习陈天奇博士的PPT地址和xgboost导读和实战 地址,希望对xgboost原理进行深入理解。2.xgboost vs gbdt说到xgboost,不得不说gbdt。了解gbdt可以看我这篇文章 地址,gbdt无论在理论推导还是在应用场景实践都是相当完美的,但有一个问题:第n颗树训练时,需转载 2016-08-18 16:17:11 · 2124 阅读 · 0 评论