数据挖掘
文章平均质量分 82
RoQuant
一个量化投资爱好者
展开
-
机器学习与人工智能学习资源导引
机器学习与人工智能学习资源导引By刘未鹏– September 11, 2008Posted in:机器学习与人工智能,计算机科学我经常在 TopLanguage 讨论组上推荐一些书籍,也经常问里面的牛人们搜罗一些有关的资料,人工智能、机器学习、自然语言处理、知识发现(特别地,数据挖掘)、信息检索 这些无疑是 CS 领域最好玩的分支了(也是互相紧密联系的),这里转载 2014-10-21 17:27:06 · 759 阅读 · 0 评论 -
What’s the difference between machine learning, statistics, and data mining?
Over the last few blog posts, I’ve discussed some of the basics of what machine learning is and why it’s important:– Why machine learning will reshape software engineering– What is the core task转载 2016-05-10 15:07:48 · 1393 阅读 · 0 评论 -
25个Java机器学习工具&库
本列表总结了25个Java机器学习工具&库:1. Weka集成了数据挖掘工作的机器学习算法。这些算法可以直接应用于一个数据集上或者你可以自己编写代码来调用。Weka包括一系列的工具,如数据预处理、分类、回归、聚类、关联规则以及可视化。2.Massive Online Analysis(MOA)是一个面向数据流挖掘的流行开源框架,有着非常活跃的成长社区。它包括一系列的机器学习转载 2015-12-29 17:40:42 · 524 阅读 · 0 评论 -
Machine Learning in R for beginners
Introducing: Machine Learning in RMachine learning is a branch in computer science that studies the design of algorithms that can learn. Typical machine learning tasks are concept learning, function转载 2015-03-27 09:40:12 · 1314 阅读 · 0 评论 -
支持向量机通俗导论(理解SVM的三层境界)
作者:July ;致谢:pluskid、白石、JerryLead。出处:结构之法算法之道blog。前言 动笔写这个支持向量机(support vector machine)是费了不少劲和困难的,原因很简单,一者这个东西本身就并不好懂,要深入学习和研究下去需花费不少时间和精力,二者这个东西也不好讲清楚,尽管网上已经有朋友写得不错了(见文末参考链接),但在描述数学公式的时候还转载 2015-02-27 10:31:42 · 793 阅读 · 0 评论 -
分类模型的性能评估——以SAS Logistic回归为例(1): 混淆矩阵
跑完分类模型(Logistic回归、决策树、神经网络等),我们经常面对一大堆模型评估的报表和指标,如Confusion Matrix、ROC、Lift、Gini、K-S之类(这个单子可以列很长),往往让很多在业务中需要解释它们的朋友头大:“这个模型的Lift是4,表明模型运作良好。——啊,怎么还要解释ROC,ROC如何如何,表明模型表现良好……”如果不明白这些评估指标的背后的直觉,就很可能陷入这样转载 2014-12-15 11:09:17 · 985 阅读 · 0 评论 -
分类模型的性能评估——以SAS Logistic回归为例(3): Lift和Gain
书接前文。跟ROC类似,Lift(提升)和Gain(增益)也一样能简单地从以前的Confusion Matrix以及Sensitivity、Specificity等信息中推导而来,也有跟一个baseline model的比较,然后也是很容易画出来,很容易解释。以下先修知识,包括所需的数据集:分类模型的性能评估——以SAS Logistic回归为例(1): 混淆矩阵分类模型的性能评估——转载 2014-12-15 11:29:15 · 1706 阅读 · 0 评论 -
分类模型的性能评估——以SAS Logistic回归为例(2): ROC和AUC
ROC上回我们提到,ROC曲线就是不同的阈值下,以下两个变量的组合(如果对Sensitivity和Specificity两个术语没有概念,不妨返回,《分类模型的性能评估——以SAS Logistic回归为例(1): 混淆矩阵》,强烈建议读者对着看):Sensitivity(覆盖率,True Positive Rate)1-Specificity (Specificity, 负例转载 2014-12-15 11:25:30 · 1537 阅读 · 0 评论 -
如何系统地学习数据挖掘?
看数据挖掘方面的算法理论时经常感觉一些公式的推导过程如天书一般,例如看svm的数学证明,EM算法..,感觉知识跳跃比较大,那么数据挖掘系统的学习过程是怎么样?磨刀不误砍柴工。在学习数据挖掘之前应该明白几点:数据挖掘目前在中国的尚未流行开,犹如屠龙之技。数据初期的准备通常占整个数据挖掘项目工作量的70%左右。数据挖掘本身融合了统计学、数据库和机器学习等学科,并不是新的转载 2014-10-28 15:04:14 · 685 阅读 · 0 评论 -
大数据分析的众包平台—Kaggle
众包(Jeff Howe,2006)是一种在互联网蓬勃发展的背景下产生的一种创新的生产组织形式。在这样的商业模式下,企业利用网络将工作分配出去,通过让更合适的人群参与其中来发现创意和解决技术问题。比较成功的众包例子有像wikipedia这样的知识贡献类平台,GitHub这样的IT类平台,也有我们要着重介绍的大数据分析类的众包平台Kaggle。 Figure 1 Kagg转载 2014-11-12 16:37:48 · 1407 阅读 · 0 评论 -
Anomaly Detection for Business Metrics with R
The larger and more complex the business the more metrics and dimensions. One day you understand that it is impossible to track them with only your eyes.The larger and more complex the business the mo...转载 2018-06-20 08:54:13 · 1000 阅读 · 0 评论