回归分析之理论篇

2015年的机器学习博客其实都是看《机器学习实战》这本书时学到的,说实话当时也是知其然,不知其所以然,以至于对其理解不深刻,好多细节和理论知识都搞的是乱七八糟,自从工作之后再去看一个算法,思考的比之前多了点,查看资料也比之前多了点,生怕理解错误,影响其他人,当然在理解的程度上还是不够深刻,这也是一个学习的过程吧,记录一下,欢迎指正。...
阅读(82) 评论(0)

K-means 聚类算法的理解与案例实战

工作之后,发现对算法和技术的理解和上学时学习是不一样的,当时也整理了几篇关于k-means聚类的文章,但是现在看起来比较苍白和空洞,于是打算带着重新学习的态度对以往学习过或者见过的一些机器学习算法进行温习和总结,写的不足之处还望路过大神指点一二。...
阅读(2246) 评论(16)

MachingLearning中的距离和相似性计算以及python实现

在机器学习中,经常要用到距离和相似性的计算公式,我么要常计算个体之间的差异大小,继而评价个人之间的差异性和相似性,最常见的就是数据分析中的相关分析,数据挖掘中的分类和聚类算法。如利用k-means进行聚类时,判断个体所属的类别,要利用距离计算公式计算个体到簇心的距离,如利用KNN进行分类时,计算个体与已知类别之间的相似性,从而判断个体所属的类别等。...
阅读(2007) 评论(3)

推荐算法的回顾总结

之前看过一段时间协同过滤的推荐算法,当时理解并不深刻,对于其浅显的理解是从海量数据中挖掘出小部分与你品味相同的用户,协同过滤分为基于用户的和基于物品的。...
阅读(2977) 评论(4)

《推荐系统》基于图的推荐算法

1:概述 2:原理简介 3:代码实现 一:概述         基于图的模型(graph-based model)是推荐系统中的重要内容。其实,很多研究人员把基于邻域的模型也称为基于图的模型,因为可以把基于邻域的模型看做基于图的模型的简单形式         在研究基于图的模型之前,首先需要将用户的行为数据,表示成图的形式,下面我们讨论的用户行为数据是用二元数组组成的,其中每个二元组...
阅读(6568) 评论(1)

[置顶] 《推荐系统》基于标签的用户推荐系统

1:联系用户兴趣和物品的方式 2:标签系统的典型代表 3:用户如何打标签 4:基于标签的推荐系统 5:算法的改进 源代码查看地址:github查看 一:联系用户兴趣和物品的方式     推荐系统的目的是联系用户的兴趣和物品,这种联系方式需要依赖不同的媒介。目前流行的推荐系统基本上是通过三种方式联系用户兴趣和物品。                                           1:利用用户喜欢过的物品,给用户推荐与他喜欢过的物品...
阅读(13323) 评论(7)

[置顶] 《推荐系统》基于用户和Item的协同过滤算法的分析与实现(Python)

1:协同过滤算法简介 2:协同过滤算法的核心 3:协同过滤算法的应用方式 4:基于用户的协同过滤算法实现 5:基于物品的协同过滤算法实现 一:协同过滤算法简介     关于协同过滤的一个最经典的例子就是看电影,有时候不知道哪一部电影是我们喜欢的或者评分比较高的,那么通常的做法就是问问周围的朋友,看看最近有什么好的电影推荐。在问的时...
阅读(18299) 评论(25)

《机器学习实战》利用PCA来简化数据

=====================================================================   《机器学习实战》系列博客是博主阅读《机器学习实战》这本书的笔记也包含一些其他python实现的机器学习算法     github 源码同步:https://github.com/Thinkgamer/Machine-Learning-Wit...
阅读(2113) 评论(0)

《机器学习实战》预测数值型数据-回归(Regression)

回归的一般方法: (1)收集数据:采用任意方法收集数据 (2)准备数据:回归需要数值型数据,标称型数据将被转化成二值型数据 (3)分析数据:绘出数据的可视化二维图将有助于对数据做出理解和分析,在采用缩减法求得新回归系数之后,可以将新拟合线在图上作为对比 (4)训练算法:求得回归系数 (5)测试算法:使用R2或者预测值和数据的拟合度,来分析模型的效果 (6)使用算法:使用回归,可以在给定输入的时候预测出一个数值,这是对分类方法的提升,因为这样可以预测连续性数据而不仅仅是离散的类别标签 github...
阅读(5941) 评论(5)

《机器学习实战》AdaBoost算法的分析与实现

=====================================================================   《机器学习实战》系列博客是博主阅读《机器学习实战》这本书的笔记也包含一些其他python实现的机器学习算法     github 源码同步:https://github.com/Thinkgamer/Machine-Learning-With-Py...
阅读(4669) 评论(0)

《机器学习实战》使用Apriori算法和FP-growth算法进行关联分析(Python版)

1:关联分析 2:Apriori算法和FP-growth算法原理 3:使用Apriori算法发现频繁项集 4:使用FP-growth高效发现频繁项集 5:实例:从新闻站点点击流中挖掘新闻报道 以下程序用到的源代码下载地址:GitHub 一:关联分析 1:相关概念 关联分析(association analysis):从大规模数据集中寻找商品的隐含关系 项集 (itemse...
阅读(9510) 评论(4)

《机器学习实战》基于信息论的三种决策树算法(ID3,C4.5,CART)

决策树是通过一系列规则对数据进行分类的过程,他提供一种在什么条件下会得到什么值的类似规则方法,决策树分为分类树和回归树,分类树对离散变量最决策树,回归树对连续变量做决策树如果不考虑效率等,那么样本所有特征的判断级联起来终会将某一个样本分到一个类终止块上。实际上,样本所有特征中有一些特征在分类时起到决定性作用,决策树的构造过程就是找到这些具有决定性作用的特征,根据其决定性程度来构造一个倒立的树–决定性作用最大的那个特征作为根节点,然后递归找到各分支下子数据集中次大的决定性特征,直至子数据集中所有数据都属于同一...
阅读(5274) 评论(2)

《机器学习实战》Logisic回归算法(2)之从疝气病症预测病马的死亡率

============================================================================================ 《机器学习实战》系列博客是博主阅读《机器学习实战》这本书的笔记,包含对其中算法的理解和算法的Python代码实现 另外博主这里有机器学习实战这本书的所有算法源代码和算法所用到的源文件,有需要的留言 =...
阅读(2506) 评论(0)

[置顶] 《机器学习实战》Logistic回归算法(1)

============================================================================================ 《机器学习实战》系列博客是博主阅读《机器学习实战》这本书的笔记,包含对其中算法的理解和算法的Python代码实现 另外博主这里有机器学习实战这本书的所有算法源代码和算法所用到的源文件,有需要的留言 =...
阅读(9955) 评论(1)

《推荐系统学习》之推荐系统那点事

转载自:http://www.admin10000.com/document/4995.html 推荐系统的误区   回想起来,我也算是国内接触推荐系统较早的人之一了,最近和人聊天,觉得不少人对推荐系统有所误解,以为需要多么高大上的算法才能搭建起来的,我只想说我经常说的那句话【不是这样的】,所以有了这篇文章。   第一次接触【推荐系统】是在两年前在某高校的互联网信息处...
阅读(1990) 评论(1)

《机器学习实战》kMeans算法(K均值聚类算法)

机器学习中有两类的大问题,一个是分类,一个是聚类。分类是根据一些给定的已知类别标号的样本,训练某种学习机器,使它能够对未知类别的样本进行分类。这属于supervised learning(监督学习)。而聚类指事先并不知道任何样本的类别标号,希望通过某种算法来把一组未知类别的样本划分成若干类别,这在机器学习中被称作 unsupervised learning (无监督学习)。在本文中,我们关注其中一...
阅读(3814) 评论(4)

《机器学习实战》二分-kMeans算法(二分K均值聚类)

首先二分-K均值是为了解决k-均值的用户自定义输入簇值k所延伸出来的自己判断k数目,其基本思路是: 为了得到k个簇,将所有点的集合分裂成两个簇,从这些簇中选取一个继续分裂,如此下去,直到产生k个簇。 伪代码: 初始化簇表,使之包含由所有的点组成的簇。 repeat 从簇表中取出一个簇。 {对选定的簇进行多次二分试验} for i=1 to 试验次数 do...
阅读(4336) 评论(2)

搜索引擎:文本分类——TF/IDF算法

TF-IDF(Term frequency-inverse document frequency ) 是文本挖掘中一种广泛使用的特征向量化方法。TF-IDF反映了语料中单词对文档的重要程度。假设单词用t表示,文档用d表示,语料用D表示,那么文档频度DF(t, D)是包含单词t的文档数。如果我们只是使用词频度量重要性,就会很容易过分强调重负次数多但携带信息少的单词,例如:”a”, “the”以及...
阅读(2591) 评论(0)

《机器学习实战》基于朴素贝叶斯分类算法构建文本分类器的Python实现

关于朴素贝叶斯分类算法的理解请参考:http://blog.csdn.net/gamer_gyt/article/details/47205371 Python代码实现: {CSDN:CODE:961286} 调用方式: 进入该文件所在目录,输入python,执行 >>>import bayes >>>bayes.testingNB()...
阅读(3331) 评论(1)

《机器学习实战》决策树(ID3算法)的分析与实现

一、简介         决策树是一个预测模型;他代表的是对象属性与对象值之间的一种映射关系。树中每个节点表示某个对象,而每个分叉路径则代表的某个可能的属性值,而每个叶结点则对应从根节点到该叶节点所经历的路径所表示的对象的值。决策树仅有单一输出,若欲有复数输出,可以建立独立的决策树以处理不同输出。 数据挖掘中决策树是一种经常要用到的技术,可以用于分析数据,同样也可以用来作预测 二、基本思想...
阅读(2574) 评论(0)
22条 共2页1 2 下一页 尾页
    Thinkgamer微博
    个人微信,一起交流!

     扫一扫,关注我




    个人资料
    • 访问:758178次
    • 积分:9476
    • 等级:
    • 排名:第1976名
    • 原创:212篇
    • 转载:22篇
    • 译文:2篇
    • 评论:273条
    个人简介
    姓名:Thinkgamer

    Github:https://github.com/thinkgamer

    主攻:云计算/python/数据分析

    程度:熟悉/熟悉/熟悉

    微信:gyt13342445911

    Email:thinkgamer@163.com

    工作状态:在职ing

    心灵鸡汤:只要努力,你就是下一个大牛...

    hadoop/spark/机器学习群:279807394(大神建的群,蹭个管理员)

    欢迎骚扰........
    博客专栏
    最新评论