机器学习
象在舞
谁说大象不能跳舞!
展开
-
Python实现Label Propagation社区划分算法
声明:代码的运行环境为Python3。Python3与Python2在一些细节上会有所不同,希望广大读者注意。本博客以代码为主,代码中会有详细的注释。相关文章将会发布在我的个人博客专栏《Python从入门到深度学习》,欢迎大家关注。 开篇之前先来一段很老套的开场白吧~随着经济的日益发展,人们可以在社交网站上进行交流,在这些交流的背后,不仅存在着用户之间的社交关系,还...原创 2020-01-07 21:48:33 · 2762 阅读 · 1 评论 -
Python两种方式加载文件内容
声明:代码的运行环境为Python3。Python3与Python2在一些细节上会有所不同,希望广大读者注意。本博客以代码为主,代码中会有详细的注释。相关文章将会发布在我的个人博客专栏《Python从入门到机器学习》,欢迎大家关注。目录一、Python机器学习基础之Python的基本语法(一)二、Python机器学习基础之Python的基本语法(二)三、Pyt...原创 2018-08-23 14:57:12 · 10629 阅读 · 3 评论 -
Python实现K-Means聚类算法
声明:代码的运行环境为Python3。Python3与Python2在一些细节上会有所不同,希望广大读者注意。本博客以代码为主,代码中会有详细的注释。相关文章将会发布在我的个人博客专栏《Python从入门到深度学习》,欢迎大家关注~ 根据训练样本是否包含标签信息,机器学习可以分为监督学习和无监督学习(这里我们不考虑半监督学习)。聚类算法是典型的无监督学习算法,它是对事...原创 2018-12-20 20:47:59 · 16057 阅读 · 12 评论 -
Python实现K-Means++聚类算法
声明:代码的运行环境为Python3。Python3与Python2在一些细节上会有所不同,希望广大读者注意。本博客以代码为主,代码中会有详细的注释。相关文章将会发布在我的个人博客专栏《Python从入门到深度学习》,欢迎大家关注~ 之前我写过一篇文章叫《Python实现K-Means聚类算法》,这篇文章主要是在之前的基础上介绍K-Means算法的改进版——K-Mea...原创 2019-03-10 17:41:49 · 18661 阅读 · 13 评论 -
Spark ML Pipelines(ML管道)
声明:代码主要以Scala为主,希望广大读者注意。本博客以代码为主,代码中会有详细的注释。相关文章将会发布在我的个人博客专栏《Spark 2.0机器学习》,欢迎大家关注。一、Pipelines的主要概念 ML可以应用于各种各样的数据类型,比如向量、文本、图形和结构化数据、API采用Spark SQL的DataFrame就是为了支持各种各样的数据类型。1、T...原创 2019-04-25 20:12:05 · 1987 阅读 · 0 评论 -
Spark ML数学基础
声明:代码主要以Scala为主,希望广大读者注意。本博客以代码为主,代码中会有详细的注释。相关文章将会发布在我的个人博客专栏《Spark 2.0机器学习》,欢迎大家关注。一、矩阵向量计算 Spark MLlib底层的向量、矩阵运算使用了Breeze库,Breeze库提供了Vector/Matrix的实现以及相应计算的接口(Linalg)。但是在MLlib里面同...原创 2019-04-26 10:07:02 · 688 阅读 · 0 评论 -
Spark ML特征的提取、转换和选择
声明:代码主要以Scala为主,希望广大读者注意。本博客以代码为主,代码中会有详细的注释。相关文章将会发布在我的个人博客专栏《Spark 2.0机器学习》,欢迎大家关注。一、特征的提取1、TF-IDF(词频-逆向文档频率) TF(词频):HashingTF与CountVectorizer用于生成词频TF向量。HashingTF是一个特征词集的转换器(Tra...原创 2019-04-28 11:20:50 · 3852 阅读 · 5 评论 -
Spark DataSet介绍
声明:代码主要以Scala为主,希望广大读者注意。本博客以代码为主,代码中会有详细的注释。相关文章将会发布在我的个人博客专栏《Spark 2.0机器学习》,欢迎大家关注。 Spark的发展史可以简单概括为三个阶段,分别为:RDD、DataFrame和DataSet。在Spark 2.0之前,使用Spark必须先创建SparkConf和SparkContext,不过...原创 2019-04-25 14:45:39 · 7902 阅读 · 2 评论 -
Spark ML K-Means聚类算法
声明:代码主要以Scala为主,希望广大读者注意。本博客以代码为主,代码中会有详细的注释。相关文章将会发布在我的个人博客专栏《Spark 2.0机器学习》,欢迎大家关注。 在我的专栏《Python从入门到深度学习》中,已经介绍了两篇关于K-Means聚类的文章,分别是:《Python实现K-Means聚类算法》和《Python实现K-Means++聚类算法》。在此...原创 2019-05-13 15:32:11 · 4808 阅读 · 2 评论 -
Python实现Mean Shift算法
声明:代码的运行环境为Python3。Python3与Python2在一些细节上会有所不同,希望广大读者注意。本博客以代码为主,代码中会有详细的注释。相关文章将会发布在我的个人博客专栏《Python从入门到深度学习》,欢迎大家关注~ 在K-Means算法中,聚类的类别个数需要提前指定,对于类别个数未知的数据集,K-Means算法和K-Means++算法将很难对其进行求...原创 2019-07-13 15:06:59 · 5103 阅读 · 14 评论 -
Python实现DBSCAN算法
声明:代码的运行环境为Python3。Python3与Python2在一些细节上会有所不同,希望广大读者注意。本博客以代码为主,代码中会有详细的注释。相关文章将会发布在我的个人博客专栏《Python从入门到深度学习》,欢迎大家关注~ K-Means算法、K-Means++算法以及Mean Shift算法都是基于距离的聚类算法,一般此类聚类的聚类结果都是球状的簇,但当聚...原创 2019-07-14 16:06:47 · 4408 阅读 · 6 评论 -
Python实现Logistic Regression(逻辑回归模型)算法
声明:代码的运行环境为Python3。Python3与Python2在一些细节上会有所不同,希望广大读者注意。本博客以代码为主,代码中会有详细的注释。相关文章将会发布在我的个人博客专栏《Python从入门到深度学习》,欢迎大家关注~ Logistic Regression算法是一个分类算法,分类算法是一种监督学习算法,它是指根据样本的特征,将样本划分到指定的类别中。L...原创 2019-07-27 12:21:29 · 12951 阅读 · 6 评论 -
Sklearn库和TensorFlow框架
声明:代码的运行环境为Python3。Python3与Python2在一些细节上会有所不同,希望广大读者注意。本博客以代码为主,代码中会有详细的注释。相关文章将会发布在我的个人博客专栏《Python从入门到机器学习》,欢迎大家关注。下面开始我们的第六讲:Sklearn库和TensorFlow框架。 目录一、Python机器学习基础之Python的基本语法(一)二、P...原创 2018-07-22 19:00:14 · 7393 阅读 · 0 评论 -
Python机器学习基础之Numpy库的使用
声明:代码的运行环境为Python3。Python3与Python2在一些细节上会有所不同,希望广大读者注意。本博客以代码为主,代码中会有详细的注释。相关文章将会发布在我的个人博客专栏《Python从入门到深度学习》,欢迎大家关注。 目录一、Python机器学习基础之Python的基本语法(一)二、Python机器学习基础之Python的基本语法(二)三、Pyth...原创 2018-05-08 12:21:19 · 1742 阅读 · 0 评论 -
Python机器学习基础之Python的基本语法(二)
声明:代码的运行环境为Python3。Python3与Python2在一些细节上会有所不同,希望广大读者注意。本博客以代码为主,代码中会有详细的注释。相关文章将会发布在我的个人博客专栏《Python从入门到深度学习》,欢迎大家关注。 目录一、Python机器学习基础之Python的基本语法(一)二、Python机器学习基础之Python的基本语法(二)三、Pytho...原创 2018-05-07 19:58:41 · 1492 阅读 · 0 评论 -
分类算法分析
主要分类方法介绍解决分类问题的方法很多,单一的分类方法主要包括:决策树、贝叶斯、人工神经网络、K-近邻、支持向量机和基于关联规则的分类等;另外还有用于组合单一分类方法的集成学习算法,如Bagging和Boosting等。 (1)决策树 决策树是用于分类和预测的主要技术之一,决策树学习是以实例为基础的归纳学习算法,它着眼于从一组无次序、无规则的实例中推理出以决策树表示的分类规则。构造决策原创 2017-10-27 14:12:00 · 1194 阅读 · 0 评论 -
常用的推荐算法解析
1. 前言随着互联网技术和社会化网络的发展,每天有大量包括博客,图片,视频,微博等等的信息发布到网上。传统的搜索技术已经不能满足用户对信息发现的需求,原因有多种,可能是用户很难用合适的关键词来描述自己的需求,也可能用户需要更加符合他们兴趣和喜好的结果,又或是用户无法对自己未知而又可能感兴趣的信息做出描述。推荐引擎的出现,可以帮用户获取更丰富,更符合个人口味和更加有意义的信息。个转载 2017-10-30 15:00:06 · 1308 阅读 · 0 评论 -
推荐算法
推荐算法是计算机专业中的一种算法,通过一些数学算法,推测出用户可能喜欢的东西,目前应用推荐算法比较好的地方主要是网络,其中淘宝做的比较好。所谓推荐算法就是利用用户的一些行为,通过一些数学算法,推测出用户可能喜欢的东西。推荐算法主要分为6种。基于内容的信息推荐方法的理论依据主要来自于信息检索和信息过滤,所谓的基于内容的推荐方法就是根据用户过去的浏览记录来向用户推荐用户没有接触过的推荐项。主要是从原创 2017-11-22 17:18:03 · 1086 阅读 · 0 评论 -
Linux下使用anaconda安装Keras
目录一、Linux下安装Python二、Linux下Python安装完成后如何使用pip命令三、Linux下Python安装完成后如何使用yum命令四、Linux下安装Anaconda五、Linux下使用anaconda安装Keras 上一篇博客中介绍了Linux下如何安装anaconda,这篇博客介绍一下如何在Linux下使用anaconda安装Keras。安装Keras其实很简单,...原创 2018-03-07 09:44:09 · 12537 阅读 · 11 评论 -
Linux下安装Anaconda
目录一、Linux安装Python二、Linux下Python安装完成后如何使用pip命令三、Linux下Python安装完成后如何使用yum命令四、Linux下安装Anaconda五、Linux下使用anaconda安装Keras 本文主要讲解Linux下如何安装Anaconda,还是以Python3.6.3为例,废话不多说,直接进入安装讲解。一、首先下载Anacond...原创 2018-03-06 22:00:43 · 22375 阅读 · 7 评论 -
[Python] RuntimeError: Invalid DISPLAY variable
一、问题描述:Python版本是3.6.3的,在Windows下使用matplotlib绘图可以,但是在ssh远程绘图的时候报错了,错误是:RuntimeError: Invalid DISPLAY variable。二、原因:matplotlib的默认backend是TkAgg,而FltAgg、GTK、GTKCairo、TkAgg、Wx和WxAgg这几个backend都要求有GUI图形...原创 2018-03-16 19:37:17 · 15486 阅读 · 2 评论 -
[Python] IndentationError:unindent does not match any outer indentation level
今天在Linux上执行.py文件的时候出现了如下的错误: 其实,要解决这个错误其实是很简单的,这个错误说明在上图中的位置出现了没有缩进相同长度的错误,只需要在自己的代码中缩进相同的长度即可。这里值得注意的是:有时候看起来是缩进的相同的长度,但是是Tab键和空格键混合缩进的,这样运行也会出现问题。...原创 2018-03-16 19:45:39 · 363 阅读 · 0 评论 -
NLP中常用的分词器
众所周知,NLP即自然语言处理,那么在NLP中常用的分词器都有哪些呢?本文主要介绍NLP中常用的分词器。一、Mmseg4j:基于正向最大匹配(https://code.google.com/p/mmseg4j/) mmseg4j用Chih-HaoTsai的MMSeg算法实现的中文分词器,并实现lucene的analyzer和solr的TokenizerFactory以方便在...原创 2018-04-17 19:34:08 · 1943 阅读 · 0 评论 -
Python机器学习基础之Pandas库的使用
声明:代码的运行环境为Python3。Python3与Python2在一些细节上会有所不同,希望广大读者注意。本博客以代码为主,代码中会有详细的注释。相关文章将会发布在我的个人博客专栏《Python从入门到深度学习》,欢迎大家关注。 目录一、Python机器学习基础之Python的基本语法(一)二、Python机器学习基础之Python的基本语法(二)三、Pyth...原创 2018-05-12 13:43:52 · 1360 阅读 · 0 评论 -
Python机器学习基础之Matplotlib库的使用
声明:代码的运行环境为Python3。Python3与Python2在一些细节上会有所不同,希望广大读者注意。本博客以代码为主,代码中会有详细的注释。相关文章将会发布在我的个人博客专栏《Python从入门到深度学习》,欢迎大家关注。 目录一、Python机器学习基础之Python的基本语法(一)二、Python机器学习基础之Python的基本语法(二)三、Pyth...原创 2018-05-12 19:40:38 · 2769 阅读 · 0 评论 -
Python机器学习基础之Python的基本语法(一)
当今世界已经进入了大数据的时代。随着信息化的不断发展,人工智能、机器学习等词语越来越被人们所熟知,而他们也渐渐地成了这个时代的弄潮儿,走在了信息时代的前端。从本篇博客开始,小编将带领大家一起走进人工智能之机器学习部分,让深度学习不再成为困难。同时,相关的文章将会发布在我的博客专栏《Python从入门到深度学习》,欢迎大家关注~ 《Python从入门到深度学习》这一系列的...原创 2018-05-07 19:47:25 · 3067 阅读 · 4 评论 -
聚类算法分析
1 聚类算法的分类 目前,有大量的聚类算法。而对于具体应用,聚类算法的选择取决于数据的类型、聚类的目的。如果聚类分析被用作描述或探查的工具,可以对同样的数据尝试多种算法,以发现数据可能揭示的结果。 主要的聚类算法可以划分为如下几类:划分方法、层次方法、基于密度的方法、基于网格的方法以及基于模型的方法。 每一类中都存在着得到广泛应用的算法,例如:划分方法中的k-means聚类算法、层次方原创 2017-10-27 13:26:48 · 1675 阅读 · 0 评论