数据挖掘与机器学习
一只鸟的天空
一个偏执狂,一个强迫症患者.....
微博地址: http://weibo.com/1765411302
欢迎数据挖掘与机器学习从业者一起交流
展开
-
常见的机器学习&数据挖掘知识点
机器学习数据挖掘分类聚类关联预测神经网络算法云计算原创 2015-08-21 20:44:44 · 18067 阅读 · 3 评论 -
当今世界最NB的25位大数据科学家
在大数据技术飞速发展的今天,谁才是我们大数据科研与工业界中最有威望的科学家呢?下面我们来进行梳理,共罗列了25位当今世界,无论是在学术与工业界都产生巨大影响的数据科学家(Data Scientists)。他(她)们推动了整个领域的发展,毫无疑问,无论是在学术界还是还工业界,他(她)们都是一座座山顶式的人物。他(她)们是我们这些从事大数据产业发展的榜样。翻译 2015-09-20 16:57:14 · 49992 阅读 · 2 评论 -
神经网络Tips 和Tricks
神经网络Tips 和Tricks原创 2015-10-31 22:32:24 · 14029 阅读 · 0 评论 -
机器学习模型评价(Evaluating Machine Learning Models)-主要概念与陷阱
机器学习模型评价(Evaluating Machine Learning Models)-主要概念与陷阱 本文主要解释一些关于机器学习模型评价的主要概念,与评价中可能会遇到的一些陷阱。如训练集-验证集二划分校验(Hold-out validation)、交叉校验(Cross-validation)、超参数调优(hyperparameter tuning)等。这三个术语都是从不同的层翻译 2015-10-31 22:46:59 · 91497 阅读 · 3 评论 -
机器学习中常见的损失函数
机器学习中常见的损失函数 一般来说,我们在进行机器学习任务时,使用的每一个算法都有一个目标函数,算法便是对这个目标函数进行优化,特别是在分类或者回归任务中,便是使用损失函数(Loss Function)作为其目标函数,又称为代价函数(Cost Function)。 损失函数是用来评价模型的预测值Ŷ =f(X)\hat{Y}=f(X)与真实值YY的不一致程度,它是一个非负实值函数。通常使原创 2016-09-07 19:16:56 · 64406 阅读 · 9 评论 -
梯度下降优化算法综述
梯度下降优化算法综述 该文翻译自An overview of gradient descent optimization algorithms。 总所周知,梯度下降算法是机器学习中使用非常广泛的优化算法,也是众多机器学习算法中最常用的优化方法。几乎当前每一个先进的(state-of-the-art)机器学习库或者深度学习库都会包括梯度下降算法的不同变种实现。但是,它们就像一个黑盒优化器,很难翻译 2016-09-09 00:21:27 · 73441 阅读 · 22 评论 -
Network Representation 网络节点嵌入
Network Representation最近看了几篇网络节点embedding的论文,思想很新颖,很有趣,这里分享给大家。Network Representation可以翻译为网络(节点)表征、网络(节点)向量、网络(节点)嵌入等… Aim to learn distributed vector representation for each vertex in a network.原创 2016-08-10 21:21:07 · 17396 阅读 · 3 评论 -
Distributional Vector VS. Distributed Vector
Distributional Vector VS. Distributed Vector原创 2016-08-15 12:03:15 · 9088 阅读 · 0 评论 -
机器学习中防止过拟合的处理方法
在进行数据挖掘或者机器学习模型建立的时候,因为在统计学习中,假设数据满足独立同分布,即当前已产生的数据可以对未来的数据进行推测与模拟,因此都是使用历史数据建立模型,即使用已经产生的数据去训练,然后使用该模型去拟合未来的数据。但是一般独立同分布的假设往往不成立,即数据的分布可能会发生变化,并且可能当前的数据量过少,不足以对整个数据集进行分布估计,因此往往需要防止模型过拟合,提高模型泛化能力。原创 2015-10-26 20:58:12 · 149768 阅读 · 18 评论 -
NLTK的词性
1. CC Coordinating conjunction 连接词2. CD Cardinal number 基数词3. DT Determiner 限定词4. EX Existential there 存在句5. FW Foreign word 外来词6. IN Prep原创 2015-02-11 11:15:17 · 19786 阅读 · 5 评论 -
循环神经网络(RNN, Recurrent Neural Networks)介绍
循环神经网络(RNN, Recurrent Neural Networks)介绍 这篇文章很多内容是参考:http://www.wildml.com/2015/09/recurrent-neural-networks-tutorial-part-1-introduction-to-rnns/,在这篇文章中,加入了一些新的内容与一些自己的理解。 循环神经网络(Recurrent Neural N原创 2015-09-23 13:24:09 · 531719 阅读 · 46 评论 -
在分类中如何处理训练集中不平衡问题
在分类中如何处理训练集中不平衡问题,在很多机器学习任务中,训练集中可能会存在某个或某些类别下的样本数远大于另一些类别下的样本数目。即类别不平衡,为了使得学习达到更好的效果,因此需要解决该类别不平衡问题。原创 2015-10-25 23:09:39 · 135853 阅读 · 14 评论 -
常用的机器学习&数据挖掘知识(点)
常用的机器学习&数据挖掘知识(点) 声明:想做机器学习&数据挖掘的学弟学妹,可以看看,转载请说明出处...常用的机器学习知识(点)Basis(基础):MSE(Mean Square Error 均方误差),LMS(LeastMean Square 最小均方),LSM(Least Square Methods 最小二乘法),MLE(MaximumLikelihoo原创 2014-09-15 22:43:18 · 18711 阅读 · 0 评论 -
推荐算法知识
关于淘宝的推荐算法,我觉得以下几个因素比较重要:人 --用户是一个什么样的人?想法 --用户当前在想什么?物 --用户之前买过什么!这三个事情应该是循序渐进的,他们一起才能决定用户可能想买什么这件事情。用户是一个什么样的人对推荐的影响做一个极端的假设,用户只是填写了一些资料,我们知道他是一个21岁左右的某个二线南方城市男生,之前没有任何历史行为,他可能想买什转载 2014-04-25 13:23:56 · 1594 阅读 · 2 评论 -
大数据之“用户行为分析”
编者按:本文由卢东明为36氪撰写,是大数据系列文章的第2篇。卢东明是SAP公司全球数据库解决方案亚太区技术总监;拥有长达 20 年数据库、数据仓库开发管理经验。这几年,几家电商的价格战打得不亦乐乎,继去年的“双11大促”和“6·18狂欢节”之后,电商之间以价格为主要诉求的大规模促销层出不穷,几乎要把所有能够用来造势的节日都用上了。而消费者们作为这场游戏中的弱者,不断地被这些真假价格战挑逗着和引转载 2014-04-25 13:34:54 · 6878 阅读 · 1 评论 -
主要的推荐算法简介
转自:在推荐系统简介中,我们给出了推荐系统的一般框架。很明显,推荐方法是整个推荐系统中最核心、最关键的部分,很大程度上决定了推荐系统性能的优劣。目前,主要的推荐方法包括:基于内容推荐、协同过滤推荐、基于关联规则推荐、基于效用推荐、基于知识推荐和组合推荐。一、基于内容推荐基于内容的推荐(Content-basedRecommendation)是信息过滤技术的延续与发展,它是建立在项目转载 2014-04-25 13:36:50 · 2221 阅读 · 0 评论 -
个性化推荐技术的十大挑战
个性化推荐经常被人误解为细分市场和精准营销这两个概念。虽然它们之间有一些联系,但实质上却相差甚远。本文不仅清楚地讲述了个性化推荐技术,更列出了其所面临的十大挑战。很多人都知道个性化推荐,却有不少认识上的误区。有的人认为个性化推荐就是细分市场和精准营销,但实际上细分市场和精准营销往往是把潜在的用户分成 很多群体,这与基于全体的统计相比固然有了长足的进步,但距离“为每一个用户量身定做的信息服务”还转载 2014-04-25 14:05:18 · 1685 阅读 · 0 评论 -
机器学习之开源库大总结
机器学习之开源库大总结 研究数据挖掘和机器学习有一段时间了,对数据挖掘来说,商用软件有SAS、Clementine、Oracle数据挖掘组件等等;由于个人学习和版权、算法定制等问题,开源的数据挖掘与机器学习软件(库)目前也十分必需,现在就跟大家介绍下比较流行和常用的机器学习开源库。 以前在学校用过matlab,说实话真方便,通常一个模型只要几十行甚至十几行代码就能搞定,但是正版转载 2014-05-26 15:41:20 · 1889 阅读 · 0 评论 -
Python机器学习库
Python在科学计算领域,有两个重要的扩展模块:Numpy和Scipy。 其中Numpy是一个用python实现的科学计算包。包括:一个强大的N维数组对象Array;比较成熟的(广播)函数库;用于整合C/C++和Fortran代码的工具包;实用的线性代数、傅里叶变换和随机数生成函数。 SciPy是一个开源的Python算法库和数学工具包,SciPy包含转载 2014-08-21 11:23:01 · 2332 阅读 · 0 评论 -
Windows下使用Word2vec继续词向量训练
word2vec是Google在2013年提出的一款开源工具,其是一个Deep Learning(深度学习)模型(实际上该模型层次较浅,严格上还不能算是深层模型,如果word2vec上层再套一层与具体应用相关的输出层,如Softmax,便更像是一个深层模型),它将词表征成实数值向量,采用CBOW(Continuous Bag-Of-Words Model,连续词袋模型)和Skip-Gram(Con原创 2015-02-04 22:05:39 · 69320 阅读 · 23 评论 -
常见的机器学习&数据挖掘知识点之Basis
常见的机器学习&数据挖掘知识点之BasisSSE(Sum of Squared Error, 平方误差和) SSE=∑i=1n(Xi−X⎯⎯⎯)2SSE=\sum_{i=1}^{n}(X_i-\overline{X})^2SAE(Sum of Absolute Error, 绝对误差和) SAE=∑i=1n|Xi−X⎯⎯⎯|SAE=\sum_{i=1}^{n}|X_i-\overline{X原创 2015-08-22 02:20:25 · 13709 阅读 · 4 评论 -
欢迎使用CSDN-markdown编辑器
欢迎使用Markdown编辑器写博客本Markdown编辑器使用StackEdit修改而来,用它写博客,将会带来全新的体验哦:Markdown和扩展Markdown简洁的语法代码块高亮图片链接和图片上传LaTex数学公式UML序列图和流程图离线写博客导入导出Markdown文件丰富的快捷键快捷键加粗 Ctrl + B 斜体 Ctrl + I 引用 Ctrl原创 2015-08-21 19:05:16 · 6013 阅读 · 0 评论 -
前向型神经网络之BPNN(附源码)
神经网络静态神经网络BP算法前向型神经网络BPNN人工神经网络误差反向传播算法Back Propagation数据挖掘机器学习原创 2015-09-04 20:57:10 · 54231 阅读 · 3 评论 -
常见的机器学习与数据挖掘知识点之常见分布
概率分布数学分布常见分布原创 2015-08-25 20:12:31 · 13783 阅读 · 0 评论 -
算法&模型
在行业设备大数据平台建设中,势必要用到大数据技术,而大数据技术中,机器学习与数据挖掘算法是重要的一环,我们通过这些算法与模型对设备的故障进行监控与预测,对设备技改需求进行预测,对设备采购需求进行预测以及创建各种模型与算法设备标签。下面我们对一些常用的算法与模型进行简要介绍。 在进行数据挖掘时,首先要进行商业理解,即我们需要达到什么目的,解决什么问题;其次需要进行数据理解,我们需要哪些数据以及需原创 2015-09-16 15:23:38 · 44311 阅读 · 1 评论