![](https://img-blog.csdnimg.cn/20201014180756757.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习
文章平均质量分 50
ALWAYS_FANG
python 机器学习小白
展开
-
超级逆天的几个在线网站,看完直接起飞
在线工具网 这是一个在线工具大全,他是完全利用浏览器的js执行功能,去处理需求。不会把数据传到后端。由于现在js的强大功能,可以在线实现很多的功能,包括在线图片压缩,视频压缩,裁剪,合并等等当然还包括音频,下面给出截屏大家自己斟酌。除了上面的工具还有一些文本处理工具,包括PDF文档转换,合并,word,表格处理等2.一键生成小论文 输入你想要写作的文章的关键字,就能生成原创 2021-09-02 15:53:37 · 662 阅读 · 4 评论 -
8款逆天的在线实用工具
1.在线录屏工具 这款工具是一款轻量级的在线工具,响应十分迅速,操作简单。没有广告,更重要的是录制完的视频没有万恶的水印。非常良心。2.在线一键抠图 这款在线工具算得上是神器了,利用人工智能算法,自动抠图,解放双手,如果对得到的结果不满意,还可以对结果进行手动修补,以达到完美效果。而且扣完图后还可以在线填充背景,非常实用。原创 2021-07-12 15:23:17 · 204 阅读 · 1 评论 -
谱聚类原理
谱聚类是基于图论的一种聚类方法。把n个样本点构成邻接矩阵。他们样本点之间的距离越大那么他们的权重越小,反之越大。那么我们如何来映射这种关系呢?这里用到高斯函数 其中 表示点i,j之间的权重。用W表示邻接矩阵(n*n的矩阵)我们用 表示点 i 的度。D表示点的度矩阵。(D只有对角线上有元素,其他都为零。也是n*n的矩阵)下面来看看图论里面的一个重要工具。拉普拉斯矩阵 这个...原创 2018-10-03 22:55:11 · 769 阅读 · 0 评论 -
k-means python实践
#coding=utf-8import numpy as npimport matplotlib.pyplot as pltfrom sklearn.cluster import KMeansimport sklearn.datasets as dsimport matplotlibfrom sklearn.metrics import calinski_harabaz_score...原创 2018-10-05 16:48:10 · 161 阅读 · 0 评论 -
EM 算法理论推导
在介绍EM算法之前,我们先来介绍一下高斯混合模型(GMM)。GMM是多个高斯分布的叠加。表达式如下 其中有i个高斯分布,表示第i个高斯分布所占的权重()。 表示第i个高斯分布的数学表达式。 表示第i个高斯分布的参数。高斯混合模型的概率密度图像如下所示.现在有如下实例。从一个高校中随机抽取200个人的身高数据。但是我们不知道这两200个身高数据中的每一个是属于男性,还是女性,并且不知道...原创 2018-10-12 15:32:19 · 185 阅读 · 0 评论 -
DBSCAN python实践
#coding=utf-8import matplotlib.colors as mcimport numpy as npfrom sklearn.cluster import DBSCANimport matplotlib.pyplot as pltimport sklearn.datasets as dsimport matplotlibfrom sklearn.neighbo...原创 2018-10-06 13:23:31 · 465 阅读 · 0 评论 -
谱聚类python实践
#coding=utf-8import numpy as npfrom sklearn.cluster import SpectralClusteringimport matplotlib.pyplot as pltimport sklearn.datasets as dsimport matplotlibfrom sklearn.metrics import calinski_h...原创 2018-10-06 17:36:45 · 1349 阅读 · 0 评论 -
决策树python实践
#coding=utf-8import numpy as npimport matplotlib as mplimport matplotlib.pyplot as pltfrom sklearn.datasets import load_irisfrom sklearn.model_selection import train_test_splitfrom sklearn.pip...原创 2018-09-29 21:32:18 · 504 阅读 · 0 评论 -
GuassianNB 对鸢尾花数据分类 python
#coding=utf-8import numpy as npimport matplotlib.pyplot as pltimport matplotlib as mplfrom sklearn.naive_bayes import GaussianNBfrom sklearn.datasets import load_irisfrom sklearn.model_selectio...原创 2018-10-22 11:03:49 · 755 阅读 · 0 评论 -
GMM参数估计python实践
# !/usr/bin/python# -*- coding:utf-8 -*-import numpy as npfrom sklearn.mixture import GaussianMixtureimport matplotlib as mplimport matplotlib.colorsimport matplotlib.pyplot as pltmpl.rcPara...原创 2018-10-20 20:56:34 · 2471 阅读 · 0 评论 -
多项式朴素贝叶斯实现文本分类
#coding=utf-8import numpy as npimport matplotlib.pyplot as pltimport matplotlib as mplfrom sklearn.naive_bayes import GaussianNB,MultinomialNBfrom sklearn.datasets import fetch_20newsgroupsfrom...原创 2018-10-22 22:55:31 · 2522 阅读 · 0 评论 -
决策树理论
在谈决策树之前我们需要先理解信息熵这个概念。信息熵是信息的不确定性的一个纯数字度量。信息熵越大这说明事件的不确定性越大。什么叫事件的不确定性呢?事件不确定也就是这个事件的结果有很多种可能。比如我们掷骰子。我们会有六种等概率的结果。对于掷骰子的结果我们是不确定的。但是如果我们的骰子6个面都是1。那么我们掷骰子的结果就是确定的。这时候事件的不确定性就为0.也就是确定的。这个不确定性也叫做这个事件的信息...原创 2018-09-27 01:29:26 · 2461 阅读 · 1 评论 -
常用聚类算法
k均值算法算法步骤:这个算法需要事先知道数据有几类。假设我们的数据一共有k类。然后从数据样本点中任取k个点。作为每一个类的中心点。然后计算每一个样本点到每一个中心点的距离。对于每一个样本点,找到与他距离最近的中心点。然后把他归于这个中心点所在的类。最后计算每一个类别的均值。把这个均值作为新的中心点。递归前面的操作。直到中心点不在变动。这个算法是对初始值敏感的。取不同的中心点,可能将会有不同...原创 2018-10-02 16:46:18 · 272 阅读 · 0 评论 -
线性回归数学推导
线性回归的目标是确定一条直线,让所有样本点到这一条直线的距离之和最小。通过这一句话我们就可以自然而然地根据样本点列出目标函数现在我们有一组高维样本点 (其中每一个x都是m维列向量)。我们设目标直线方程为 y = (这个等式里面全是单个数字没有向量)把这个方程写作向量的形式 y = (其中X是m+1维的列向量,W也是) (对于是在每一个n维样本点的首位补充了一个...原创 2018-08-26 15:32:39 · 1080 阅读 · 0 评论 -
机器学习中的数学之梯度下降法
首先从一个简单的二次曲线 求极小值开始 先任意取一个A点,对应一个横轴 但是这不是最低点。所以我们要想办法慢慢降低点的位置,让他去接近最低点。如何才能保证改变 的值得到新的 。然后 对应的函数值是小于 对应的函数值呢?第一个问题是 改变x的值让y值变小。但是我们不知道x是该增大还是变小。所以我们考虑斜率。如果当前x点的斜率为正值那么自变量与函数值是同等方向变化,即y...原创 2018-08-27 19:10:22 · 422 阅读 · 0 评论 -
机器学习中的数学之拉格朗日乘子法
首先需要明确的是拉格朗日乘子法是一种凸优化算法,所以目标函数是一个凸函数,约束条件也是一个凸函数。1.带有等式约束的最小值问题 (这是约束条件)求 的极小值.目标函数在三维空间中是一个倒立的圆锥。约束条件是一个双曲线在z轴上无限拉伸形成的一个面。为了方便我们把两个图像投影到二维平面上形成一个等高先图。如下很容易想到极小值点是在两个面的交点集合之中。 约束面...原创 2018-08-28 20:28:47 · 901 阅读 · 0 评论 -
岭回归交叉验证确定最佳惩罚因子
#!/usr/bin/python# -*- coding:utf-8 -*-import numpy as npimport matplotlib.pyplot as pltimport pandas as pdfrom sklearn.model_selection import train_test_splitfrom sklearn.linear_model import ...原创 2018-09-04 17:07:50 · 4320 阅读 · 4 评论 -
逻辑回归原理
现在我们有n个样本点 其中X为向量,表示样本的特征,y表示类别,取值只为0,1代表两个类别。我们现在需要通过训练样本点去拟合一个函数 f(x)。我们取定一个阀值 m 。然后把一个样本的特征X带入f(x)中,如果f(x)>m,那么这个样本就是1类,反之就是0类。这样我们就能够实现对新样本的分类。那么如何通过样本去拟合这样的一个函数呢?我们先来看一看这个函数 他的函数图像如下...原创 2018-09-04 22:41:10 · 217 阅读 · 0 评论 -
逻辑回归python实践
#coding=utf-8import numpy as npimport matplotlib.pyplot as pltfrom sklearn.linear_model import LogisticRegressionfrom sklearn.metrics import classification_report#逻辑回归结果评估from sklearn.preprocess...原创 2018-09-07 23:17:22 · 343 阅读 · 0 评论 -
线性回归正则化
前面我们对线性回归已经有了一个基本认识,接下来我们探讨正则化。首先对于只有一个特征的n个样本。。我们用直线去拟合效果如下。发现拟合效果不好。如果我们用二次曲线去拟合发现效果很好这里有一个问题,我们明明做的是线性回归这里怎么是曲线?其实很简单,在这里我们只是把一个特征变成了两个特征。把低维映射到了高维就是线性的。(但是这里的特征并不是独立的)。下面我们看看更高维的情...原创 2018-09-02 22:48:33 · 3476 阅读 · 0 评论 -
线性回归python实践
#coding=utf-8import numpy as npfrom sklearn.linear_model import LinearRegressionfrom sklearn.metrics import mean_squared_errorfrom sklearn.preprocessing import PolynomialFeaturesimport matplotli...原创 2018-09-03 22:43:31 · 475 阅读 · 0 评论 -
svm理论推导
1.硬间隔支持向量机支持向量机(SVM)是在特征空间上找到最佳的分离超平面使得训练集上正负样本间隔最大。以此超平面作为分类间隔。实现分类如何找到这个超平面呢?以二维平面为例图中红线就是我们要找的超平面。也就是有很多的待选超平面,是最优超平面。最优的超平面满足条件:两个类别中的样本到的最小距离是样本到其他待选超平面()的最小距离的最大值。这样就能满足间隔最大,分类器的泛化能力就强。...原创 2018-09-09 23:06:36 · 306 阅读 · 0 评论 -
svm python实践
#coding=utf-8import numpy as npimport matplotlib as mplimport matplotlib.pyplot as pltfrom sklearn.datasets import load_irisfrom sklearn.model_selection import train_test_splitfrom sklearn.pipe...原创 2018-09-24 21:19:45 · 296 阅读 · 0 评论 -
python 读取数据库并绘图
1.安装相应的库文件sudo apt-get install python-mysqldb 2.数据库操作import MySQLdb db = MySQLdb.connect(“localhost”, “root”, “pwd”, “dbname”, charset=’utf8’ )数据库的查询#加入参数表示查询返回的是一个键值数组而不是默认的元组 cursor = d...原创 2018-08-09 10:18:43 · 3946 阅读 · 1 评论