[置顶] 【机器学习PAI实践一】搭建心脏病预测案例

产品地址:https://data.aliyun.com/product/learn?spm=a21gt.99266.416540.102.OwEfx2一、背景心脏病是人类健康的头号杀手。全世界1/3的人口死亡是因心脏病引起的,而我国,每年有几十万人死于心脏病。 所以,如果可以通过提取人体相关的体侧指标,通过数据挖掘的方式来分析不同特征对于心脏病的影响,对于预测和预防心脏病将起到至关重要的作用。本文...
阅读(2311) 评论(9)

机器学习常见算法分类汇总

机器学习无疑是当前数据分析领域的一个热点内容。很多人在平时的工作中都或多或少会用到机器学习的算法。本文为您总结一下常见的机器学习算法,以供您在工作和学习中参考。机器学习的算法很多。很多时候困惑人们都是,很多算法是一类算法,而有些算法又是从其他算法中延伸出来的。这里,我们从两个方面来给大家介绍,第一个方面是学习的方式,第二个方面是算法的类似性。学习方式根据数据类型的不同,对一个问题的建模有不同的方式...
阅读(1589) 评论(0)

Kmeans、Kmeans++和KNN算法比较

K-Means介绍       K-means算法是聚类分析中使用最广泛的算法之一。它把n个对象根据他们的属性分为k个聚类以便使得所获得的聚类满足:同一聚类中的对象相似度较高;而不同聚类中的对象相似度较小。其聚类过程可以用下图表示:        如图所示,数据样本用圆点表示,每个簇的中心点用叉叉表示。(a)刚开始时是原始数据,杂乱无章,没有label,看起来都一样,都是绿色的。(b)假设数据集可...
阅读(939) 评论(0)

Todd.log - a place to keep my thoughts on programming TF-IDF模型的概率解释

转自:http://www.cnblogs.com/weidagang2046/archive/2012/10/22/tf-idf-from-probabilistic-view.html信息检索概述信息检索是当前应用十分广泛的一种技术,论文检索、搜索引擎都属于信息检索的范畴。通常,人们把信息检索问题抽象为:在文档集合D上,对于由关键词w[1] ... w[k]组成的查询串q,返回一个按查询q和文...
阅读(1268) 评论(0)

新闻个性化推荐系统(python)-(附源码 数据集)

1.背景       最近参加了一个评测,是关于新闻个性化推荐。说白了就是给你一个人的浏览记录,预测他下一次的浏览记录。花了一周时间写了一个集成系统,可以一键推荐新闻,但是准确率比较不理想,所以发到这里希望大家给与一些建议。用到的分词部分的代码借用的jieba分词。数据集和代码在下面会给出。2.数据集一共五个字段,以tab隔开。分别是user编号,news编号,时间编号,新闻标题,对应当前月份的日...
阅读(8863) 评论(20)

【问底】严澜:数据挖掘入门——分词

谷歌4亿英镑收购人工智能公司DeepMind,百度目前正推进“百度大脑”项目,腾讯、阿里等各大巨头也在积极布局深度学习。随着社会化数据大量产生,硬件速度上升、成本降低,大数据技术的落地实现,让冷冰冰的数据具有智慧逐渐成为新的热点。要从数据中发现有用的信息就要用到数据挖掘技术,不过买来的数据挖掘书籍一打开全是大量的数学公式,而课本知识早已还给老师了,着实难以下手、非常头大!我们不妨先跳过数学公式,看...
阅读(1885) 评论(1)

【机器学习算法-python实现】最大似然估计(Maximum Likelihood)

1.背景           最大似然估计是概率论中常常涉及到的一种统计方法。大体的思想是,在知道概率密度f的前提下,我们进行一次采样,就可以根据f来计算这个采样实现的可能性。当然最大似然可以有很多变化,这里实现一种简单的,实际项目需要的时候可以再更改。       博主是参照wiki来学习的,地址请点击我           这里实现的是特别简单的例子如下(摘自wiki的最大似然)离散分布,离散...
阅读(5236) 评论(1)

csdn开源夏令营-ospaf中期报告

1.背景        随着将中期的代码托管到CSDN的平台上,ospaf(开源项目成熟度分析工具)已经有了小小的雏形,当然还远远不够。      首先还是要感谢这次活动组织方CSDN,感觉挺有Google Summer Code 中国版的味道。还有就是我的夏令营导师David,给了我很多指导和帮助,线下的交流也很让我长见识。     接着来说ospaf这个项目(有兴趣的tx可以去看题案,地址)。...
阅读(1743) 评论(1)

【云端大数据实战】大数据误区、大数据处理步骤分析

1.背景       本文思路的依据来源于本次...
阅读(5179) 评论(8)

【机器学习算法-python实现】PCA 主成分分析、降维

1.背景        PCA...
阅读(6867) 评论(4)

【机器学习算法-python实现】采样算法的简单实现

1.背景    采样算法是机器学习中比较常用,也比较容易实现的(出去分层采样)。常用的采样算法有以下几种(来自百度知道):   一、单纯随机抽样(simple random sampling) 将调查总体全部观察单位编号,再用抽签法或随机数字表随机抽取部分观察单位组成样本。 优点:操作简单,均数、率及相应的标准误计算简单。 缺点:总体较大时,难以一一编号。 二、系统抽样(systemat...
阅读(5076) 评论(1)

【机器学习算法-python实现】K-means无监督学习实现分类

1.背景        无监督学习的定义就不多说了,不懂得可以google。因为项目需要,需要进行无监督的分类学习。        K-means里面的K指的是将数据分成的份数,基本上用的就是算距离的方法。        大致的思路就是给定一个矩阵,假设K的值是2,也就是分成两个部分,那么我们首先确定两个质心。一开始是找矩阵每一列的最大值max,最小值min,算出range=max-min,然后设...
阅读(3349) 评论(3)

【机器学习算法-python实现】矩阵去噪以及归一化

/********************************* 本文来自博客  “李博Garvin“* 转载请标明出处:http://blog.csdn.net/buptgshengod******************************************/...
阅读(5146) 评论(2)

云端大数据实战记录-大数据推荐

(转载请注明出处:http://blog.csdn.net/buptgshengod)1.背景    这是博主第一次大数据实战的经历,之前都是自己写一些算法然后测试很小的数量级。这次是真正接触到TB集的数据,而且完全是在云端处理。下面就把这次的经历简单分享一下。首先简单介绍一下这次比赛的环境吧:1.云:采用的是阿里云2.数据:从四月十五号到八月十五号期间,用户两千多万的购买行为(包括时间,购买、收...
阅读(3972) 评论(6)

斯坦福机器学习公开课学习笔记(3)—拟合问题以及局部权重回归、逻辑回归

(转载请注明出处:http://blog.csdn.net/buptgshengod)...
阅读(2118) 评论(0)

斯坦福机器学习公开课学习笔记(2)—监督学习 梯度下降

(转载请注明出处:http://blog.csdn.net/buptgshengod)1...
阅读(1562) 评论(0)

斯坦福机器学习公开课学习笔记(1)—机器学习的动机与应用

(转载请注明出处:http://blog.csdn.net/buptgshengod)1.北京...
阅读(2430) 评论(0)

【机器学习算法-python实现】协同过滤(cf)的三种方法实现

(转载请注明出处:http://blog.csdn.net/buptgshengod)...
阅读(4363) 评论(0)

【机器学习算法-python实现】Adaboost的实现(1)-单层决策树(decision stump)

(转载请注明出处:http://blog.csdn.net/buptgshengod) 1.背景      上一节学习支持向量机,感觉公式都太难理解了,弄得我有点头大。不过这一章的Adaboost线比较起来就容易得多。Adaboost是用元算法的思想进行分类的。什么事元算法的思想呢?就是根据数据集的不同的特征在决定结果时所占的比重来划分数据集。就是要对每个特征值都构建决策树,并且赋予他们不同的...
阅读(4893) 评论(1)

【机器学习算法-python实现】svm支持向量机(3)—核函数

(转载请注明出处:http://blog.csdn.net/buptgshengod) 1.背景知识     前面我们提到的数据集都是线性可分的,这样我们可以用SMO等方法找到支持向量的集合。然而当我们遇到线性不可分的数据集时候,是不是svm就不起作用了呢?这里用到了一种方法叫做核函数,它将低维度的数据转换成高纬度的从而实现线性可分。      可能有的人不明白为什么低维度的数据集转换成高...
阅读(3371) 评论(0)
28条 共2页1 2 下一页 尾页
    我的微信公众号

    作者公众号:凡人机器学习

    凡人机器学习

    作者新书《机器学习实践应用》

    主要讲述算法和业务的结合,适合初学者

    机器学习实践应用

    京东地址

    个人资料
    • 访问:718743次
    • 积分:9933
    • 等级:
    • 排名:第1872名
    • 原创:219篇
    • 转载:39篇
    • 译文:0篇
    • 评论:443条
    博客专栏
    统计