自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(15)
  • 收藏
  • 关注

原创 R实现分词和词云绘制

实现分词用的是library("rJava")library("Rwordseg")resultnatureWhether to recognise the nature of the words.绘制词云用的是library(wordcloud2)塞进wordcloud2中的数据data是:词云  频数然后调用wordcloud2(data)

2018-06-08 11:23:12 930

原创 K-means算法

Kmeans算法是聚类算法中最简单的一种算法,可以说学习聚类算法的第一种算法就是kmeans算法什么是聚类?什么是分类?他们之间有什么区别?聚类是对大量未知标注的数据集,按照数据内部存在的数据特征将数据集划分为多个不同的类别,是类别内的数据比较相似,类别之间的数据相似度比较大分类指对已有标注的数据集进行划分。聚类是无监督学习,分类是有监督学习选择初始化的k个类别中心a1,a2,a3....ak;对...

2018-03-04 21:58:53 215

原创 梯度下降法、牛顿法、拟牛顿法

梯度下降法梯度下降法的优化思想是用当前负梯度方向作为搜索方向,因为该方向为当前位置的最快下降方向,所以也被称为“最速下降法”。最速下降法越接近目标值,步长越小,前进越慢。批量梯度下降法得到的是全局最优解,但是每迭代一步,都要用到训练集所有的数据,如果训练集的数据很大,那么可想而知这种方法的迭代速度会相当的慢。于是出现了随机梯度下降法随机梯度下降通过每个样本来迭代更新一次,如果样本量很大的情况(例如...

2018-03-04 19:54:22 354

原创 Apriori算法整理

首先两个基本概念支持度:A事件和B事件同时发生的概率置信度:在A发生的事件中同时发生B的概率,P(B|A)=P(AB)/P(A)。例子:[支持度:3%,置信度:40%]支持度3%:意味着3%顾客同时购买牛奶和面包置信度40%:意味着购买牛奶的顾客40%也购买面包智慧商场模型:目标是找到经常一起购买的物品集合,从而优化商场货物的摆放,提高销售额。计算一个集合(商品所有可能组合)的支持度指多少比例的交...

2018-03-04 15:19:05 741

原创 基尼系数与熵

在分类问题中,假设有K个类,样本点属于第k类的概率是Pk,则概率分布的基尼系数定义为:基尼指数从公式看就是被分对的概率乘以被分错的概率,然后整个的和就是基尼系数。例如 一个随机事件X ,P(X=0) = 0.5 ,P(X=1)=0.5      那么基尼不纯度就为   P(X=0)*(1 - P(X=0)) +   P(X=1)*(1 - P(X=1))  = 0.5      一个随机事件Y ,

2018-01-18 22:28:00 4404

转载 XGBoost原理

说到xgboost,不得不说gbdt。了解gbdt可以看我这篇文章 地址,gbdt无论在理论推导还是在应用场景实践都是相当完美的,但有一个问题:第n颗树训练时,需要用到第n-1颗树的(近似)残差。从这个角度来看,gbdt比较难以实现分布式(ps:虽然难,依然是可以的,换个角度思考就行),而xgboost从下面这个角度着手 注:红色箭头指向的l即为损失函数;红色方框为正则项,包括L1、L2;红色圆圈

2018-01-18 20:35:27 168

原创 recharts绘制雷达图

用recharts绘制雷达图时,主要是首先要将数据转成长型数据,具体见官网例子点击打开链接

2018-01-18 19:45:26 1297

原创 梯度下降

什么是梯度下降法?梯度:  是表示模型或者函数在某个点的位置法向量,所以它的方向表示下降最快或者上升最快损失函数              说明一下这个式子的含义: J表示给定的函数预测值和实际值Y的均方差,它反映的是预测值与实际值的一个偏离的程度. 我们是否可以用梯度下降算法来快速的无限逼近,使得J达到最小,当J达到最小的时候,那么我们这个时候的,不就是无

2018-01-17 17:14:22 208

原创 安装recharts2

recharts2官方参考资料点击打开链接安装方法简单if (!require(devtools)) library(devtools)install_github("madlogos/recharts")

2018-01-17 12:17:53 524

原创 R绘制雷达图

首先需要包fmsblibrary(fsmb)需要函数radarchart()有这样的数据Usageradarchart(df, axistype, seg, pty, pcol, plty, plwd, pdensity, pangle, pfcol,  cglty, cglwd, cglcol, axislabcol, title, maxmin, na.itp,

2018-01-16 20:22:31 5579

原创 用R绘制箱线图

ggplot2是一个具有强大绘图功能的包,只识别数据框绘制箱线图首先数据如果是宽型数据,要先转成长型数据用到的包有reshape2,而主要用到的函数就是melt和cast两个函数,通常用melt函数将宽型数据转成长型数据就可以melt函数怎么用?melt(data=yourdata,id="分类变量")绘制箱线图记录一下可视化作业之绘制箱线图数据:df_like

2018-01-16 14:14:32 12599

原创 泛化和过拟合

泛化能力泛化能力用来表征学习模型对于未知数据的预测能力。很显然,我们没有办法对所有的数据进行预测然后判断来计算一个模型的模型的泛华能力,所以在实际应用当中,我们一般还是用的测试集中的数据来近似泛化能力。过拟合当某个模型过度的学习训练数据中的细节和噪音,以至于模型在新的数据上表现很差,我们称过拟合发生了。这意味着训练数据中的噪音或者随机波动也被当做概念被模型学习了。而问题就在于这些概

2018-01-16 09:58:24 3263

原创 R语言中删除重复的数据行

duplicatedDescription(描述)    duplicated() determines which elements of a vector or data frame are duplicates of elements with smaller subscripts, and returns a logical vector indicating wh

2018-01-12 14:33:17 53283

原创 安装recharts(outdate)

recharts基于Echarts2,outdate!So……开始使用Echarts3.在R的命令行窗口输入安装recharts的命令,如下:  require(devtools)install_github('ramnathv/htmlwidgets')install_github('rstudio/htmltools')install_github('taiyun/rec

2018-01-12 14:09:13 1039

转载 朴素贝叶斯

模型概述朴素贝叶斯方法,是指朴素:特征条件独立贝叶斯:基于贝叶斯定理根据贝叶斯定理,对一个分类问题,给定样本特征x,样本属于类别y的概率是 p(y|x)=p(x|y)p(y)p(x)。。。。。。(1)在这里,x是一个特征向量,将设x维度为M。因为朴素的假设,即特征条件独立,根据全概率公式展开,公式(1)可以表达为 p(y=ck|x)=∏Mi=

2018-01-09 17:41:14 148

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除