自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(8)
  • 收藏
  • 关注

原创 分类算法3:决策树及R语言实现

决策树是一种基本的分类与回归方法,这里只介绍用于分类的决策树。前面已经说过,只要是分类,它的本质就是出发于特征,结束于类别。决策树主要3步骤:step1:特征选择;step2:决策树的生成;step3:决策树的修剪。决策树思想主要来源于由Quinlan在1986年提出的ID3算法和1993年提出的C4.5算法,以及有Breiman等人在1984年提出的CART算法。决策树定义:分类决...

2019-04-20 21:29:18 9010

原创 分类算法1:朴素贝叶斯法及R语言实现

想想还是从理论到应用说起来比较清晰。基于:(1)贝叶斯定理(2)特征条件独立的假设先介绍贝叶斯定理,想必大家是既熟悉又陌生了。首先从随机变量形式的贝叶斯定理入手。设X1,...XnX_1,...X_nX1​,...Xn​是来自总体XXX的样本,x1,...,xnx_1,...,x_nx1​,...,xn​是它的观察值,那么我们就可以得到X1,...XnX_1,...X_nX1​,...X...

2019-04-12 18:10:46 2350

原创 R语言豆瓣图书Top250爬虫之新手教程

本人完全是第一次接触爬虫,所以程序较为笨拙,请见谅!Ok,开始新手爬虫之旅吧!step1:加载所需要的包library(rvest) #用于抓取数据library(xml2) #rvest的依赖包library(stringr) #用于数据清洗step2:解析网页每页有25本图书的信息,每个图书的书名都带有url属性,点击进去是该图书的主要介绍内容,也是我们要获取的信息。其u...

2019-04-10 12:01:46 4287 7

原创 R语言绘制词云图(中文&英文)

词云图是非常有趣的一种图形,可以很直观的展示出数据频率的关系,下面将分别介绍基于R语言的中文词云图及英文词云图的绘制。但是不论是中文词云图还是英文词云图,都是基于R中的wordcloud包和wordcloud2包,其实总的来说,绘制词云图的思路很清晰,主要就是两步:step1:计算词向量和词频向量;step2:生成词云图.所以如果说难,主要是因为计算词向量和词频向量这里会存在一些问题,函数...

2019-04-19 20:21:24 11909 6

原创 分类算法2:k近邻法及R语言实现

kkk近邻法是一种基本的分类与回归方法,这里主要讲述在分类问题中的k近邻算法。kkk近邻法的三个基本要素:(1):kkk值的选择;(2):距离的度量;(3):分类决策的规则。kkk近邻法的基本思想:step1:给定一个训练集;step2:输入一个新的数据,在训练集中找到与该数据最邻近的kkk个数据;step3:决策,如果这k个数据的多数属于某个类,就把输入的新数据归于这个类。所以...

2019-04-19 09:58:25 2487

原创 基于R语言的字符串拼接技术

最近开始学习一些关于R爬虫的知识,遇到各种各样的问题是正常的,用心解决是最重要的,下面我用一个实际栗子来说说关于用R如何将一个长度为n的字符串拼接成一个长度为1的字符串,以豆瓣电影top250神剧《肖申克的救赎》的简介部分为例(悄悄说一句,真的好看,已4刷,那天有空再来一遍~~)。网页url:https://movie.douban.com/subject/1292052/其实这个拼接技术应该...

2019-04-13 16:20:14 1323

原创 基于R语言的表格数据抓取

R中有非常多的包可以用来抓取网络数据,之前总结过用rvest包抓取数据的步骤及方法,用rvest包轻松抓取网络数据,这里主要说一说关于表格数据抓取的方法和一些注意的点。如果之前对R爬虫有一点点了解,那么抓取表格数据将会非常轻松,废话少说,先上一个栗子。上图就是我们这次需要爬取的表格,其url为:http://match.sports.sina.com.cn/football/csl/opta...

2019-04-13 10:12:37 5115 4

原创 非参数与半参数统计之核函数

非参数与半参数统计之核函数核函数的本质是什么核函数的产生过程常见的核函数核函数的本质是什么核函数的产生过程众所周知,分布函数的导数是密度函数,即:f(x)=F′(x)=lim⁡h→0F(x+h)−F(x−h)2hf(x)=F'(x)=\lim_{h\rightarrow0}\frac{F(x+h)-F(x-h)}{2h}f(x)=F′(x)=limh→0​2hF(x+h)...

2019-04-06 19:20:17 2806 2

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除