自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(13)
  • 收藏
  • 关注

原创 统计学专业同学需要掌握的数据库基本用法

统计学专业同学需要掌握的数据库基本用法摘要:大数据时代,数据库已经成了统计学专业学生不得不掌握的一项基本技术。不论是对于基础理论知识薄弱的本科学生,或者是有一定理论基础的硕士,都要对数据库有所了解。然而,我们没必要全面的掌握数据库的所有知识,即便是常说的增删改查也没必要全部掌握。原因在于,数据分析、数据挖掘、机器学习是我们最日常的工作,我们需要的,仅仅是有能力从数据库中拿出想要的数据,因此,对于数据库,需要深刻理解和掌握的,通常就是一个查字。本文,将围绕查这一主题,结合大量的实际例子,相对深入浅出的讲述

2020-10-09 15:33:57 1996

原创 分类算法3:决策树及R语言实现

决策树是一种基本的分类与回归方法,这里只介绍用于分类的决策树。前面已经说过,只要是分类,它的本质就是出发于特征,结束于类别。决策树主要3步骤:step1:特征选择;step2:决策树的生成;step3:决策树的修剪。决策树思想主要来源于由Quinlan在1986年提出的ID3算法和1993年提出的C4.5算法,以及有Breiman等人在1984年提出的CART算法。决策树定义:分类决...

2019-04-20 21:29:18 8827

原创 分类算法1:朴素贝叶斯法及R语言实现

想想还是从理论到应用说起来比较清晰。基于:(1)贝叶斯定理(2)特征条件独立的假设先介绍贝叶斯定理,想必大家是既熟悉又陌生了。首先从随机变量形式的贝叶斯定理入手。设X1,...XnX_1,...X_nX1​,...Xn​是来自总体XXX的样本,x1,...,xnx_1,...,x_nx1​,...,xn​是它的观察值,那么我们就可以得到X1,...XnX_1,...X_nX1​,...X...

2019-04-12 18:10:46 2337

原创 R语言豆瓣图书Top250爬虫之新手教程

本人完全是第一次接触爬虫,所以程序较为笨拙,请见谅!Ok,开始新手爬虫之旅吧!step1:加载所需要的包library(rvest) #用于抓取数据library(xml2) #rvest的依赖包library(stringr) #用于数据清洗step2:解析网页每页有25本图书的信息,每个图书的书名都带有url属性,点击进去是该图书的主要介绍内容,也是我们要获取的信息。其u...

2019-04-10 12:01:46 4240 7

原创 随机实验与自然实验--双重差分法和三重差分法

**注记:**山东大学陈强教授《高级计量经济学及Stata应用》(第二版)第18章学习笔记!双重差分法在做随机实验或自然实验时,实验的效果往往需要一段时间才能显现出来,而我们关心的恰恰是被解释变量试验前后的变化。为此,考虑两期面板数据:(注:面板数据是一个m*n的数据矩阵,记录的是n个时间节点上m个对象的某一数据指标)yit+α+γDt+βxit+ui+εity_{it}+\alpha+...

2019-11-07 22:22:44 6001

原创 数据的中心化与标准化

标准化数据标准化处理是数据挖掘的的一项基础工作。不同的评价指标往往具有不同的量纲,数值间的差别可能很大,不进行处理可能会影响到数据分析的结果。为了消除标准之间的量纲和和取值范围差异的影响,需要进行标准化处理,将数据按照比例进行放缩,使之落入一个特定的区域,便于进行综合分析。注:数据标准化对于基于距离的挖掘算法尤为重要。对于统计专业的学生,最常见的标准化方法为:零—均值标准化,如下:xnew...

2019-06-03 21:05:06 1808

原创 基于R语言绘制地图的一个小案例

这里分享一个课堂小作业:要求:将自己感兴趣的数据在地图上显示出来。这是我第一次使用R语言绘制地图,该案例非常简单,希望可以帮助到一些人.step1:数据我是从统计年鉴上找了2017年全国各省市的年末人口,如下所示工具使用了如下7个包和一个地图数据文件,如下R包:library(“REmap”)library(“devtools”)library(“Rcpp”)library...

2019-05-22 21:52:42 3483 5

原创 基于R语言的判别分析

本文主要介绍了基于R语言实现距离判别、Bayes判别、Fisher判别的基本思路以及给出了具体的操作过程。1.数据这里总共有个20个电视品牌的数据,销售状态G1中的1表示畅销,2表示滞销;销售状态G2中的1表示畅销,2表示平销,3表示滞销。接下来只对销售状态G1做判别分析,也就是两总体的判别分析,对于多总体判别分析,思路完全一样,有兴趣的同学可以自己尝试。2.描述性统计分析code:#...

2019-05-19 17:18:58 3672

原创 R语言绘制词云图(中文&英文)

词云图是非常有趣的一种图形,可以很直观的展示出数据频率的关系,下面将分别介绍基于R语言的中文词云图及英文词云图的绘制。但是不论是中文词云图还是英文词云图,都是基于R中的wordcloud包和wordcloud2包,其实总的来说,绘制词云图的思路很清晰,主要就是两步:step1:计算词向量和词频向量;step2:生成词云图.所以如果说难,主要是因为计算词向量和词频向量这里会存在一些问题,函数...

2019-04-19 20:21:24 11680 6

原创 分类算法2:k近邻法及R语言实现

kkk近邻法是一种基本的分类与回归方法,这里主要讲述在分类问题中的k近邻算法。kkk近邻法的三个基本要素:(1):kkk值的选择;(2):距离的度量;(3):分类决策的规则。kkk近邻法的基本思想:step1:给定一个训练集;step2:输入一个新的数据,在训练集中找到与该数据最邻近的kkk个数据;step3:决策,如果这k个数据的多数属于某个类,就把输入的新数据归于这个类。所以...

2019-04-19 09:58:25 2448

原创 基于R语言的字符串拼接技术

最近开始学习一些关于R爬虫的知识,遇到各种各样的问题是正常的,用心解决是最重要的,下面我用一个实际栗子来说说关于用R如何将一个长度为n的字符串拼接成一个长度为1的字符串,以豆瓣电影top250神剧《肖申克的救赎》的简介部分为例(悄悄说一句,真的好看,已4刷,那天有空再来一遍~~)。网页url:https://movie.douban.com/subject/1292052/其实这个拼接技术应该...

2019-04-13 16:20:14 1291

原创 基于R语言的表格数据抓取

R中有非常多的包可以用来抓取网络数据,之前总结过用rvest包抓取数据的步骤及方法,用rvest包轻松抓取网络数据,这里主要说一说关于表格数据抓取的方法和一些注意的点。如果之前对R爬虫有一点点了解,那么抓取表格数据将会非常轻松,废话少说,先上一个栗子。上图就是我们这次需要爬取的表格,其url为:http://match.sports.sina.com.cn/football/csl/opta...

2019-04-13 10:12:37 5039 4

原创 非参数与半参数统计之核函数

非参数与半参数统计之核函数核函数的本质是什么核函数的产生过程常见的核函数核函数的本质是什么核函数的产生过程众所周知,分布函数的导数是密度函数,即:f(x)=F′(x)=lim⁡h→0F(x+h)−F(x−h)2hf(x)=F'(x)=\lim_{h\rightarrow0}\frac{F(x+h)-F(x-h)}{2h}f(x)=F′(x)=limh→0​2hF(x+h)...

2019-04-06 19:20:17 2664 2

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除