自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 收藏
  • 关注

原创 K-means实现中文短文本聚类

一、具体流程1.读入文本,并进行分词2.对分词后的文本进行去除停用词3.使用TF-IDF进行求出权重4.通过K-means进行聚类(由于笔者水平较低,只能用自己好理解的方法写,所以看起来很麻烦,见谅)二、读入文本并分词1.读入文本(1)文本来源于搜狗新闻语料库(链接:)(2)读入文本(代码如下)def read_from_file(file_name): with op...

2018-12-20 01:24:08 8229 3

原创 Logistic回归

一、 logistic回归概念logistic回归是一种广义线性回归分析模型,常用于数据挖掘。Logistic回归是一种分类算法,在某些时刻,存在一些预测结果超出(0,1)范围的问题,但是对于概率问题又要求结果在(0,1)范围内,通过设置上,下限来去除超过1或小于0的可能,但是你会发现,线性回归的方法会使得大于1的部分会变成一样的,所有小于0的也会变成一样的,所以线性回归不适用于这种情况,由此...

2018-10-28 15:57:19 2237 2

原创 多元线性回归

一、 多元线性回归含义现实生活中的一种现象常常是与多种因素想联系的,由自变量的最优组合共同来预测或估计因变量的,假定一个变量Y与多个变量 , ,… 之间具有线性关系,是关于变量Y的多元线性函数,称为多元线性回归模型。即:Y为被解释变量, 为k个解释变量, 为k+1个未知参数, 为随机误差项。二、 多元线性回归计算对于n组观测数值有以下的公式:化为矩阵形式为:= + 其中...

2018-10-21 18:03:18 2936

原创 SVD奇异值分解

一、 SVD的含义奇异值分解(Singular Value Decomposition)是线性代数中一种重要的矩阵分解,奇异值分解则是特征分解在任意矩阵上的推广,其目的是为了提取一个矩阵最重要的特征。奇异值分解的公式为:其中U为m×m的酉矩阵,也是左奇异矩阵; 为V的共轭转置矩阵为n×n的酉矩阵,也是右奇异矩阵。(酉矩阵是正交矩阵往复数域上的推广);Σ是这n个特征值为主对角线的n×n维矩阵...

2018-10-15 01:49:04 457

原创 最大似然估计

一、 最大似然估计的概念最大似然估计(Maximum likehood):似然指的是可能性,从简单的理解来看就是,最大可能性估计,就是用来找出与样本的分布最接近的概率分布模型。二、 最大似然估计的推导伯努利分布(两点分布)的最大似然估计例:天气晴雨的求法,10天的天气为晴晴晴晴雨雨晴雨晴雨,求下雨概率晴天用1表示,雨用0表示则可得天气 0 0 0 0 1 1 0 1 0 1则晴天和雨...

2018-10-06 17:21:39 2151

原创 均方误差

均方误差一、均方误差的含义及公式均方误差是衡量“平均误差”的一种较方便的方法,可以评价数据的变化程度。从类别来看属于预测评价与预测组合;从字面上看来,“均”指的是平均,即求其平均值,“方差”即是在概率论中用来衡量随机变量和其估计值(其平均值)之间的偏离程度的度量值,“误”可以理解为测定值与真实值之间的误差。均方误差的公式:MSE =。二、均方误差的推导均方误差可以通过平均误差来推导:平...

2018-09-24 17:27:55 44251 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除