Gavin姓陈
码龄12年
关注
提问 私信
  • 博客:1,169,021
    1,169,021
    总访问量
  • 43
    原创
  • 2,058,065
    排名
  • 605
    粉丝
  • 0
    铁粉

个人简介:管理科学、数据科学、计算机科学。

IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:北京市
  • 加入CSDN时间: 2012-07-26
博客简介:

Gavin Chen的专栏

博客描述:
计算机技术、数据科学、管理科学
查看详细资料
个人成就
  • 获得582次点赞
  • 内容获得79次评论
  • 获得3,668次收藏
  • 代码片获得223次分享
创作历程
  • 1篇
    2019年
  • 36篇
    2018年
  • 24篇
    2017年
成就勋章
TA的专栏
  • R语言与数据挖掘
    13篇
  • 数据分析-数学
    13篇
  • 数据分析-算法 模型
    17篇
  • 数据分析-R
    27篇
  • 数据分析-SPSS
    3篇
  • 数据分析-Python
    9篇
  • 数据分析-Mysql
  • 数据分析-可视化
    1篇
  • 数据分析-案例
    3篇
  • 商业分析-方法 知识 案例
    4篇
  • 商业观察
  • 微信小程序
  • 个人管理
    1篇
兴趣领域 设置
  • 人工智能
    opencv语音识别计算机视觉机器学习神经网络tensorflow图像处理nlp数据分析
创作活动更多

如何做好一份技术文档?

无论你是技术大神还是初涉此领域的新手,都欢迎分享你的宝贵经验、独到见解与创新方法,为技术传播之路点亮明灯!

352人参与 去创作
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

【转】十大数据挖掘算法

数据挖掘十大经典算法转自:https://www.cnblogs.com/lcchuguo/p/4874288.html 一、 C4.5 C4.5算法是机器学习算法中的一种分类决策树算法,其核心算法是ID3 算法.   C4.5算法继承了ID3算法的长处。并在下面几方面对ID3算法进行了改进: 1) 用信息增益率来选择属性,克服了用信息增益选择属性时偏向选择取值多的属性的不足。 2)...
转载
发布博客 2019.02.20 ·
891 阅读 ·
2 点赞 ·
0 评论 ·
4 收藏

相关性分析步骤

简单相关分析的基本步骤如下:下面以腰围、体重、脂肪比重为例,来说明应该怎样进行相关分析。第1步:绘制散点图在SPSS中,绘制散点图非常简单。操作步骤如下:1)点击图形à图表构建程序。2)在库中选择散点图,双击简单散点图。3)分别将腰围和体重,拖入X轴和Y轴,确定即可。观察散点图,可知:腰围与体重应该是存在线性相关性的,或者说,腰围对体重是有影响的。不过,这相关...
转载
发布博客 2018.12.04 ·
89636 阅读 ·
45 点赞 ·
1 评论 ·
350 收藏

R语言中时间序列日期设置

时间序列的不同时间分段设置1. 普通的时间序列:年、月、季 1 myserises<-ts(data,start=,end=,frequency=)#其中frequency=1代表年;frequency=12代表月;frequency=4代表季度数据 2. 如果以天为单位的时间序列1 t<-ts(1:365,frequency=1,start=as.Date("201...
转载
发布博客 2018.11.23 ·
31810 阅读 ·
18 点赞 ·
3 评论 ·
114 收藏

【转】python数据分析(分析文本数据和社交媒体)

1、安装NLTK[html] view plain copypip install nltk  至此,我们的安装还未完成,还需要下载NLTK语料库,下载量非常大,大约有1.8GB。可以直接运行代码下载、代码如下:[html] view plain copyimport nltk  nltk.download()  这样可以直接下载NLTK语料库了。2、滤除停用词、姓名和数字进行文本分析时,我们经常...
转载
发布博客 2018.06.26 ·
1667 阅读 ·
0 点赞 ·
0 评论 ·
6 收藏

Spss 使用合集

11
原创
发布博客 2018.06.06 ·
1336 阅读 ·
0 点赞 ·
0 评论 ·
4 收藏

Python语法与建模合集

Python 多元回归实现与检验
原创
发布博客 2018.06.06 ·
735 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

Python 多元回归实现与检验

python 实现案例1、选取数据 执行代码#!usr/bin/env python#_*_ coding:utf-8 _*_import pandas as pdimport seaborn as snsimport matplotlib.pyplot as pltimport matplotlib as mpl #显示中文def mul_lr(): pd_data=pd...
转载
发布博客 2018.06.06 ·
18284 阅读 ·
19 点赞 ·
3 评论 ·
81 收藏

【转载】机器学习实战:模型评估和优化

原文:Real-World Machine Learning: Model Evaluation and Optimization 作者:Henrik Brink, Joseph W. Richards, Mark Fetherolf 监督学习的主要任务就是用模型实现精准的预测。我们希望自己的机器学习模型在新数据(未被标注过的)上取得尽可能高的准确率。换句话说,也就是我们希望用训练数据训练得到的模...
转载
发布博客 2018.06.05 ·
643 阅读 ·
0 点赞 ·
0 评论 ·
3 收藏

SPSS 做数据预测方法

在做logistics回归之前,我们要先对你要做预测的变量做个相关分析,找出和你因变量相关的自变量。我这里就不做了,直接用我处理之后的数据。打开我们要分析的数据,单击“分析”,选择“回归”,然后选择“二元Logistics回归”,弹出下面的界面,如图:     把是否购买移到因变量框里面去,把消费金额和消费数量移动到协变量框里面去,然后单击“保存”按钮,弹出“Logistics回归:保存”界面,选...
转载
发布博客 2018.05.21 ·
86620 阅读 ·
10 点赞 ·
2 评论 ·
103 收藏

数据挖掘算法学习及应用场景

                                                                   ------------------------------------------------------------------------------------                                                 ...
转载
发布博客 2018.05.21 ·
4565 阅读 ·
3 点赞 ·
0 评论 ·
25 收藏

数据分析师职业规划

最近有不少同学向大讲台老师咨询有关数据分析职业发展的问题,由此可见,随着大数据的飞速发展,数据分析职业也成为很多同学关注的目标。不要急,大讲台老师这就给大家介绍数据分析的职业发展。入门和职业规划应该从两个角度考虑:领域和路线。领域是不少新人常忽略的要素,其实数据分析不会脱离业务存在。你进入哪个行业,很大程度会决定你初期的技能树和技能点。譬如金融领域的风控模型、营销领域的生命周期、广告领域的点击率预...
转载
发布博客 2018.05.13 ·
4127 阅读 ·
4 点赞 ·
0 评论 ·
20 收藏

R语言中的控制流函数

文本包含ifelse、while、switch、repeat函数的使用#条件语句 if else x<-c(1,2,3,-5)#如果x中存在负数,那么x赋值为y,否则将x+1 赋值给yif(any(x<0)) y<-x else y<-x+1y# [1] 1 2 3 -5#这两者的语句是类似的y<-if(any(x<0)) x else...
原创
发布博客 2018.04.11 ·
1820 阅读 ·
0 点赞 ·
1 评论 ·
4 收藏

R语言中的列表和数据框

一、列表# --列表#列表是一种特殊的对象集合,跟数组一样,他的元素也有序号确定,但是不同点在于可以存在不同类型的元素。Lst<-list(name="Fred",no.children=3,wife="Lucy",children.ages=c(4,7,9))# $name# [1] "Fred"# # $no.children# [1] 3# # $wife# [1...
原创
发布博客 2018.04.10 ·
10537 阅读 ·
5 点赞 ·
0 评论 ·
19 收藏

R语言中的多维数组、矩阵、列表、数据框

在R中,数组(Arrary)可以看做是带多个下标的相同类型的元素集合,常用的是数值型的数组如矩阵,也可以是别的类型的数组,比如字符型,逻辑型等。Dim属性是数组中很重要的属性,也叫维数向量,当维数向量有两个值时代表为矩阵,有一个值时代表为一维数组。#使用向量生成数组或者矩阵c<-1:12c# [1] 1 2 3 4 5 6 7 8 9 10 11 12dim(c)&...
原创
发布博客 2018.04.10 ·
9510 阅读 ·
2 点赞 ·
1 评论 ·
10 收藏

R语言中的因子类型

一、Factor函数#函数factor可以把一个向量编码为一个因子,其一般形式为:#factor(x,levels=sort(unique(x),na.last=TRUE),labels,exculde=NA,order=FALSE)#其中x是向量,levels是水平,可以自行指定各离散的取值,不指定时由x的不同值来表示,labels可以用来指定各水平的标签#不指定时用各离散取值的对应字符串...
原创
发布博客 2018.04.10 ·
10690 阅读 ·
5 点赞 ·
1 评论 ·
20 收藏

R语言中的对象以及它的模式与属性

#R中的对象与他的模式和属性#--------固有属性mode和length#mode 即向量的类型,可以分为数值型、逻辑型、复数型、字符型mode(c(1,2,3))# [1] "numeric"mode(c(1,2,3)<3)# [1] "logical"#使用is.character可以判断某个对象的类型is.character(c("1","2")) #另外有is...
原创
发布博客 2018.04.10 ·
3842 阅读 ·
1 点赞 ·
1 评论 ·
7 收藏

R语言中的向量使用合集

#---r中向量相关的操作#----数字型向量#赋值x<-c(1,2,3)assign("x",c(1,2,3))y<-c(x,2,x)# > y# [1] 1 2 3 2 1 2 3#向量的运算x<-c(1,2,3);y<-c(2,3,4)v1<-2*x+x*y+1# > v1# [1] 5 11 19v2<-2...
原创
发布博客 2018.04.10 ·
11532 阅读 ·
3 点赞 ·
0 评论 ·
27 收藏

【数据挖掘】使用R语言进行聚类分析

本文主要介绍在R语言中使用k-means和K-Medoids进行聚类分析的方法。一、首先介绍下聚类分析中主要的算法:lK-均值聚类(K-Means)十大经典算法l K-中心点聚类(K-Medoids)l 密度聚类(DBSCAN)l 系谱聚类(HC)l期望最大化聚类(EM)十大经典算法聚类算法软件包主要函数K-meansstatskmeans()K-Medoidsclust...
原创
发布博客 2018.04.09 ·
91862 阅读 ·
62 点赞 ·
1 评论 ·
461 收藏

使用R语言进行时间序列分析

一、时间序列的定义时间序列是将统一统计值按照时间发生的先后顺序来进行排列,时间序列分析的主要目的是根据已有数据对未来进行预测。一个稳定的时间序列中常常包含两个部分,那么就是:有规律的时间序列+噪声。所以,在以下的方法中,主要的目的就是去过滤噪声值,让我们的时间序列更加的有分析意义。二、时间序列的预处理1、平稳性检验:拿到一个时间序列之后,我们首先要对其稳定性进行判断,只有非白噪声的稳定性时间序列...
原创
发布博客 2018.04.08 ·
118654 阅读 ·
76 点赞 ·
2 评论 ·
762 收藏

R语言中的离群点检测方法

本文中将介绍单变量离群点检测、通过聚类检测离群点的例子最后演示从时间序列中检测离群点。一、单变量和多变量的离群点检验。set.seed(123)data<-rnorm(100)#随机生成100个符合正态分布的随机数summary(data)plot(density(data)) #打印出data的概率密度函数#打印出data箱线图,从箱线图中可以看到地步有一个离群值boxplot(...
原创
发布博客 2018.04.07 ·
18893 阅读 ·
8 点赞 ·
1 评论 ·
83 收藏
加载更多