机器学习&算法&大数据
tao_wei162
这个作者很懒,什么都没留下…
展开
-
DTBoost:全新一代企业级大数据应用模式揭秘
DT时代企业不需要按照传统的思路构建数据应用;DTBoost全新一代企业级大数据应用模式,应DT而生,加速企业数据化运营。新一代企业级大数据应用模式三个问题当下是否还需要一个复杂的EDW(企业级数据仓库)?数据系统的目标用户是谁?让数据适应计算能力还是计算跟着数据走?数据仓库这个概念在二十多年前由Bill Inmon提出后,几乎所有的IT厂商都开始介入这个领域,...原创 2017-08-29 10:04:39 · 532 阅读 · 0 评论 -
Madlib库
随着应用数据的增长,在大规模数据集上进行统计分析和机器学习越来越成为一个巨大的挑战。目前,适用于统计分析/机器学习的语言/库有很多,如专为数据分析用途而设计的R语言,Python语言的机器学习库Scikits,支持分布式环境扩展的有基于Map-Reduce实现的Mahout,以及分布式内存计算框架Spark上的机器学习库MLlib等等。目前Spark框架也推出了R语言的接口SprakR。但是,本...原创 2017-01-14 16:19:43 · 773 阅读 · 1 评论 -
libsvm的经典总结(全面至极)
SVM相关资源汇总[matlab-libsvm-class-regress](by faruto)SVM相关资源汇总[matlab-libsvm-class-regress](by faruto) ----关于SVM的那点破事 by faruto 可以了,终于可以完结了!这帖子...原创 2017-01-07 12:07:54 · 243 阅读 · 0 评论 -
算法使用1
有文本挖掘、时间序列建模、逻辑回归、神经网络、贝叶斯、遗传算法、模拟退火、线性规划等算法的使用经验;熟悉回归模型、聚类模型、时间序列模型、决策树模型等...原创 2016-12-23 11:49:48 · 112 阅读 · 0 评论 -
SAS 系统全称为Statistics Analysis System
SAS 系统全称为Statistics Analysis System,最早由北卡罗来纳州立大学的两位生物统计学研究生编制,并于1976年成立了SAS软件研究所,正式推出了SAS软件。SAS是用于决策支持的大型集成信息系统,但该软件系统最早的功能限于统计分析,至今,统计分析功能也仍是它的重要组成部分和核心功能。SAS现在的版本为9.0版,大小约为 1G。经过多年的发展,SAS已被全世界...原创 2016-12-23 11:41:11 · 405 阅读 · 0 评论 -
MATLAB
MATLAB[1] 是美国MathWorks公司出品的商业数学软件,用于算法开发、数据可视化、数据分析以及数值计算的高级技术计算语言和交互式环境,主要包括MATLAB和Simulink两大部分。MATLAB是matrix&laboratory两个词的组合,意为矩阵工厂(矩阵实验室)。是由美国mathworks公司发布的主要面对科学计算、可视化以及交互式程序设计的高科技计算环境。它将...原创 2016-12-23 10:51:11 · 499 阅读 · 0 评论 -
PageRank算法--从原理到实现
本文将介绍PageRank算法的相关内容,具体如下:1.算法来源 2.算法原理 3.算法证明 4.PR值计算方法 4.1 幂迭代法 4.2 特征值法 4.3 代数法 5.算法实现 5.1 基于迭代法的简单实现 5.2 MapReduce实现 6.PageRank算法的缺点 7.写在最后 参考资料1. 算法来源这个要从搜索引擎的发展讲起。最早的搜索引擎采用的是 分类目录[^ref_1...原创 2017-04-17 19:07:19 · 316 阅读 · 0 评论 -
时间序列预测法
什么是时间序列预测法? 一种历史资料延伸预测,也称历史引伸预测法。是以时间数列所能反映的社会经济现象的发展过程和规律性,进行引伸外推,预测其发展趋势的方法。 时间序列,也叫时间数列、历史复数或动态数列。它是将某种统计指标的数值,按时间先后顺序排到所形成的数列。时间序列预测法就是通过编制和分析时间序列,根据时间序列所反映出来的发展过程、方向和趋势,进行类推或延伸,借以预测下一段时间或...原创 2016-12-01 10:43:20 · 950 阅读 · 0 评论 -
随机森林和GBDT的学习
前言提到森林,就不得不联想到树,因为正是一棵棵的树构成了庞大的森林,而在本篇文章中的”树“,指的就是Decision Tree-----决策树。随机森林就是一棵棵决策树的组合,也就是说随机森林=boosting+决策树,这样就好理解多了吧,再来说说GBDT,GBDT全称是Gradient Boosting Decision Tree,就是梯度提升决策树,与随机森林的思想很像,但是比随机森林...原创 2016-11-30 10:47:32 · 114 阅读 · 0 评论 -
隐语义模型
隐语义模型LFM和LSI,LDA,Topic Model其实都属于隐含语义分析技术,是一类概念,他们在本质上是相通的,都是找出潜在的主题或分类。这些技术一开始都是在文本挖掘领域中提出来的,近些年它们也被不断应用到其他领域中,并得到了不错的应用效果。比如,在推荐系统中它能够基于用户的行为对item进行自动聚类,也就是把item划分到不同类别/主题,这些主题/类别可以理解为用户的兴趣。 对于一个用...原创 2016-11-30 10:47:10 · 231 阅读 · 0 评论 -
城市计算与大数据
<div class="iteye-blog-content-contain" style="font-size: 14px;"><p><span style="color: #00b7ef; font-size: 20px;"><strong>城市计算的基本框架及核心问题</strong><原创 2016-11-29 10:15:35 · 525 阅读 · 0 评论 -
检索模型及评价指标小结
经典检索模型 信息检索模型从它诞生到现在经历了几个不同阶段,分别是基于集合论、基于线性代数、基于统计和概率阶段。虽然专家检索不同于传统的信息检索,但两者还是有很大关联,并且本文也将基于对专家描述文档的检索作为Baseline,作为后续优化的基础。因此了解传统检索模型是很有必要的,本文下面将对不同阶段的经典模型进行摘要性介绍。2.1.1.1 布尔模型布尔模型是一个简单但却...原创 2016-11-29 10:11:58 · 779 阅读 · 0 评论 -
学习排序(Learning to Rank)
学习排序(Learning to Rank)LTR(Learning torank)学习排序是一种监督学习(SupervisedLearning)的排序方法。LTR已经被广泛应用到文本挖掘的很多领域,比如IR中排序返回的文档,推荐系统中的候选产品、用户排序,机器翻译中排序候选翻译结果等等。IR领域传统的排序方法一般通过构造相关度函数,然后按照相关度进行排序。影响相关度的因素很多,比如上面...原创 2016-11-29 10:11:45 · 437 阅读 · 0 评论 -
8大经典数据挖掘算法
大概花了将近2个月的时间,自己把18大数据挖掘的经典算法进行了学习并且进行了代码实现,涉及到了决策分类,聚类,链接挖掘,关联挖掘,模式挖掘等等方面。也算是对数据挖掘领域的小小入门了吧。下面就做个小小的总结,后面都是我自己相应算法的博文链接,希望能够帮助大家学习。1.C4.5算法。C4.5算法与ID3算法一样,都是数学分类算法,C4.5算法是ID3算法的一个改进。ID3算法采用信息增益进行决策...原创 2016-11-28 10:48:58 · 142 阅读 · 0 评论 -
机器学习算法一览,应用建议与解决思路
机器学习算法简述1 从机器学习问题角度分类2 从算法的功能角度分类21 回归算法Regression Algorithms22 基于实例的算法Instance-based Algorithms23 决策树类算法Decision Tree Algorithms24 贝叶斯类算法Bayesian Algorithms...原创 2016-09-11 00:54:29 · 258 阅读 · 0 评论 -
FusionInsight企业级大数据平台
FusionInsight是华为面向众多行业客户推出的,基于Apache开源社区软件进行功能增强的企业级大数据存储、查询和分析的统一平台。它以海量数据处理引擎和实时数据处理引擎为核心,并针对金融、运营商等数据密集型行业的运行维护、应用开发等需求,打造了敏捷、智慧、可信的平台软件、建模中间件及OM系统,让企业可以更快、更准、更稳的从各类繁杂无序的海量数据中发现全新价值点和企业商机。 ...原创 2017-01-23 13:48:48 · 476 阅读 · 0 评论