自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

机器学习、数据挖掘

机器学习、数据挖掘

  • 博客(9)
  • 收藏
  • 关注

原创 回归分析---线性回归原理和Python实现学习笔记

为什么要学习回归?机器学习实战作者说‘回归可以任何事情’。1 线性回归原理假设有如下方程,就是一个回归方程,系数wi为回归系数,求回归系数的过程被称为回归线性回归意味着可以将输入项分别乘以一些常量,再将结果加起来得到输出,那么怎样求回归系数呢?至此线性回归推到已完成,接下来介绍线性回归的实现步骤2 线性回归Python实现————————————————...

2017-04-28 17:06:30 20375

原创 聚类算法-------K-均值(KMeans)算法原理和Python实现学习笔记

聚类是一种无监督学习,他将相似对象归到统一族中,将不同对象归到不同族中,相似概念取决于所选择的相似度计算方法。K-均值算法是最常用的一种聚类算法之一,一下主要介绍K-均值算法的原理和Python实现,参考机器学习实战1 K-均值算法的计算步骤计算一下计算距离的公式为欧式距离2 K-均值算法实现from numpy import *import matplotlib.py...

2017-04-28 16:04:57 1111

原创 矩阵分解----奇异值分解(SVD)原理和应用

1矩阵分解背景在很多情况下,数据中的一小段携带了数据集中的大部分信息,其他信息要么是噪声,要么是毫不相关的信息。矩阵分析可以将原始矩阵表示成新的易于处理的形式,这种新形式是两个或多个矩阵的乘积。我们可以将这种分解过程想象成代数中的因子分析,不同的矩阵分解技术具有不同的性质,其中有些更适合于某个应用,有些则更适合于其他应用,最常见的一种分解技术是SVD2 SVD计算原理奇异值计算方法...

2017-04-25 22:37:52 1625

原创 分类算法----逻辑回归特征选择

备注:以下均参考Python数据分析和数据挖掘实战在利用Scikit-Learn对数据进行逻辑回归之前。首先进行特征筛选。特征筛选的方法很多,主要包含在Scikit-Learn的feature-selection库中,比较简单的有通过F检验(f_regression)来给出各个特征的F值个P值,从而可以筛选变量(选在F值达回执P值小的特征)。一下为利用稳定性选择方法中的随机逻辑回归进行特征筛选...

2017-04-24 22:35:13 14809

原创 oracle正则表达式----利用正则表达式解析商品名称

1.oracle 正则统配符号'^'     匹配开始位置,注:方括号内表示否的意思。'$'    匹配结尾位置'.'    匹配除换行符 \n之外的任何单字符。'?'   匹配前面的子表达式零次或一次。'*'    匹配前面的子表达式零次或多次。'+'   匹配前面的子表达式一次或多次。'( )'  标记一个子表达式的开始和结束位置。'[]'   标记一个中括号表达式。'{m...

2017-04-21 13:58:37 775

原创 分类算法----逻辑回归Logistic原理和Python实现学习笔记

1 什么是逻辑回归Logistic属于概率型非线性回归,分为二分类和多分类的回归模型。对于二分类的逻辑回归只有是和否两个取值,记为1和0,在自变量xi(i从1到n),y取是的概率为P,y取否的概率为1-P,研究的是当y取是发生的概率p与xi的关系逻辑回归优点:1)预测结果是介于0和1之间的概率;2)可以适用于连续性和类别性自变量;3)容易使用和解释;缺点:1)对模型中自变量多重共...

2017-04-14 22:17:53 3419

原创 数据降维--------主成分分析(PCA)算法原理和实现学习笔记

1 主成分分析背景'''PCA计算步骤(思想是把数据投影到方向向量使数据集的特征向量到方向向量的垂线长度最短)1.去平均2.计算协方差矩阵3.计算协方差矩阵的特征向量和特征值4.将特征值从小到大排列5.保留最上面的n个特征向量6.将数据转换到上述n个特征向量构建新的空间'''备注:降维过的方向向量就是新的数据集、特征向量就是数据集维度个数,通过特征向量个数限制降维的维数在...

2017-04-13 23:31:04 15611 2

原创 分类算法-----KNN思想和python实现学习笔记

1.1K近邻算法的简介K近邻算法用于测量不同特征值之间的距离,根据最近的前N个样本的标签给数据进行分类优点:精度高、对异常值不敏感、无数据输入假设缺点:计算复杂度高、空间复杂度高1.2K近邻算计算流程1.3 K近邻算法例子下图个K近邻算法的计算步骤流程,由于K=4,Top4有3个为flag1则A的类别为flag1,下图选用最常用的计算距离的公式两点之间距离(欧式距离)...

2017-04-05 23:39:52 584

原创 数据挖掘---分类评估指标和回归问题

1分类问题1.1 什么是分类在监督学习中,当输出变量Y取有限个离散值时,预测问题就是分类问题,这时输入变量X可以是离散的也可以是连续的1.2 什么是分类器监督学习中从数据中学习一个分类模型或分类决策树,称为分类器,分类器对新输入的数据进行输出的预测称为分类,当分类类别有多个时,称为多分类问题1.3 分类的评价指标如下图所示为实际分类和预测分类1.3.1 准确率准...

2017-04-05 21:54:51 3612

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除