博客专栏  >  综合   >  机器学习

机器学习

CS229课程讲义翻译、机器学习相关算法、python的应用实践

关注
2 已关注
35篇博文
  • Xgboost参数调优的完整指南及实战

    引言Xgboost是一种高度复杂的算法可以处理各种各样的数据。相信每个用过Xgboost的人都有过这样的感受:利用Xgboost构建模型十分简单,但是用Xgboost来调参提升模型就很难了。该算法使用...

    2017-11-14 17:09
    275
  • Gini coefficient直观的解释与实现

    引言大家在机器学习中经常会看到基尼系数的词汇,有时候在做比赛的时候,有些赛题的Scoring Metric就是基尼系数。我们去Google或者Baidu,得到的都是些不甚满意的经济学相关的解释。那么在...

    2017-11-14 12:10
    130
  • 在分类及预测任务中对高维类别(category)变量的预处理方法

    引言众所周知,数据挖掘中大约有80%的时间被用来做数据预处理。其中高维类别数据是数据挖掘算法(比如神经网络、线性or逻辑回归、SVM)最具挑战性的数据类型。事实上,在一些像决策树或者一些规则归纳的学习...

    2017-11-12 19:20
    246
  • 特征分析之SVD

    引言前面我们分享降维分析之PCA分析及实现,说PCA除了应用在数据降维上,还可用于特征分析。今天我们就来分享个新的特征分析的方法,叫做奇异值分解(Singular Value Decompositio...

    2017-11-09 11:56
    152
  • 降维分析之PCA分析及实现

    引言不知道大家还记不记得前面我们分享 支持向量机(SVM)的分析及python实现时说过,当数据遇到线性不可分时,我们可以利用kernel技巧将低维数据映射到高维数据上,从而使得数据线性可分,这是个“...

    2017-11-09 10:17
    144
  • FP-growth算法

    demo 代码:传送门引言上次分享Apriori算法时,我们有提到Apriori算法在每次增加频繁项集的大小时,会重新扫描整个数据集。当数据集很大时,这会显著降低频繁项集发现的速度。而本次分享的FP-...

    2017-11-08 21:09
    59
  • 关联分析之Apriori算法

    本文demo源码、实验数据:传送门引言如题,关联分析这个词语对于初学者而言或许比较陌生。但是我若将关联分析换成另一个短语“尿布与啤酒”大家就会很熟悉了。据报道,美国中西部的一家连锁店发现,男人们会在周...

    2017-11-08 14:03
    185
  • K-means聚类算法原理分析与实际应用案例分析(案例分析另起一篇博客)

    引言在数据分析中,我们常常想将看上去相似或者行为形似的数据聚合在一起。例如,对一个营销组织来说,将不同客户根据他们的特点进行分组,从而有针对性地定制营销活动,这很重要。又比如,对学校老师来说,将学生分...

    2017-11-02 16:05
    209
  • CART分类回归树分析与python实现

    引言前面我们分享过一篇决策树算法叫ID3:ID3决策树原理分析及python实现。首先我们来回顾下ID3算法。ID3每次选取最佳特征来分割数据,这个最佳特征的判断原则是通过信息增益来实现的。这种按某种...

    2017-11-01 16:27
    424
  • 线性回归、局部加权线性回归、岭回归、lasso及逐步线性回归

    demo:传送门引言前面几篇博客,我们主要分享了一些分类算法。这一篇文章,我们将首次介绍回归算法即对连续性的数据做出预测。回归一词的来历由来已久。“回归”是由英国著名生物学家兼统计学家高尔顿(Fran...

    2017-10-31 21:01
    312
  • 集成学习之bagging、boosting及AdaBoost的实现

    本文所有代码都是基于python3.6的,数据及源码下载:传送门引言前面博客分享,我们已经讲解了不少分类算法,有knn、决策树、朴素贝叶斯、逻辑回归、svm。我们知道,当坐重要决定时,大家可能都会考虑...

    2017-10-31 10:22
    216
  • 支持向量机(SVM)的分析及python实现

    本文所有代码都是基于python3.6的,数据及源码下载:传送门引言今天我们算是要来分享一个“高级”的机器学习算法了——SVM。大家自学机器学习一般都会看斯坦福的CS229讲义,初学者们大都从回归开始...

    2017-10-29 09:52
    403
  • 基于时间序列的短期数据预测--ARMA模型的设计与实现(每个步骤附实现源码)

    最近实验室师兄的毕设论文需要用到某景区共享交通的租用量预测的算法,我帮忙协助实现了下,其中用到了一种新的时间序列模型,叫做ARMA模型,特总结如下。

    2017-10-24 14:53
    256
  • Logistic Regression及python实现

    本文所有代码都是基于python3.6的,数据及源码下载:传送门引言本次分享,我们将介绍一个经典的二分类算法——逻辑回归。逻辑回归虽然不在十大数据挖掘算法之列,但是这个算法是机器学习从统计学领域借鉴的...

    2017-10-22 12:24
    195
  • 安装MySql+连接数据库+读取数据并存储成dataframe(python3.6)

    环境安装 安装依赖环境 $ sudo apt-get install python-pip python-dev libmysqlclient-dev 安装MySqldb $ pi...

    2017-10-11 20:11
    50
  • 基于概率论的分类方法:朴素贝叶斯及CSDN_RSS源分析

    本文所有代码都是基于python3.6的,数据及源码下载:传送门引言最简单的解决方法通常是最强大的,朴素贝叶斯呢就是一个很好的证明。尽管在过去的几年里机器学习取得了巨大的进步,各种优秀算法层出不穷,但...

    2017-10-14 09:12
    95
  • ID3决策树原理分析及python实现

    本文所有代码都是基于python3.6的,数据及源码下载:传送门引言今天我们来分享下决策树的相关算法,众所周知,树在我们现实生活中,有许多算法应用。对机器学习领域也有着极其广泛影响,主要涉及分类和回归...

    2017-10-08 09:08
    373
  • 基于改进的K-means算法在共享交通行业客户细分中的应用

    此文章已于 14:59:47 2017/10/6 发布到 OraYang的博客 基于改进的K-means算法在共享交通行业客户细分中的应用    摘 要:信息时代的来临使得企业营销焦点从产...

    2017-10-06 15:15
    352
  • LSTM模型分析及对时序数据预测的具体实现(python实现)

    具体代码看代码云:传送门,有问题欢迎随时私信~ 引言这篇博客衔接上一篇博客: Holt-Winters模型原理分析及代码实现(python),我们在三次指数平滑的基础上,来进一步讨论下对时序数据的预测...

    2017-09-30 10:28
    369
  • superset之安装与部署(Ubuntu16.10)

    引言Superset 是Airbnb的数据科学部门开源的一套工具,它是一个自助式数据分析工具,它的主要目标是简化我们的数据探索分析操作,它的强大之处在于整个过程一气呵成,几乎不用片刻的等待。Super...

    2017-09-27 10:10
    336

img博客搬家
img撰写博客
img发布 Chat
img专家申请
img意见反馈
img返回顶部