自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(41)
  • 收藏
  • 关注

原创 【ggplot】复杂柱状图:自定义颜色、标签、位置、坐标轴和主题

一直想有机会好好梳理下ggplot的图形,但是一般情况下ggplot常用的图形还是一些线图和柱状图,但是使用ggplot的好处(对比excel)就是R在处理大数据可以不用切换软件直接截取,但是坏处就是相对excel的某些时刻略有复杂,但是如果ggplot连excel的基本画图效率都比不过的话,也就失去了存在的意义。简单的图形当然ggplot官方文档中就有,主要呈现以下复杂的ggplot的柱状图。首先

2017-08-17 15:52:49 65778 1

原创 【python】Scrapy安装

最近准备入scrapy的坑,因为还是相对比下py和R的爬虫机制,但是安装scrapy包简直让我费劲死了,在上stackflow查了好多因素后,终于成功安装了 ;我的环境是pycharm,在setting里直接搜索是会出现问题,提示C++14.0 required也就是需要安装C++,这时候去网站上下载visual studio2017,官网,下载的是一个小的安装程序。 https://www.v

2017-07-22 10:28:22 626

原创 【R和Python对比】matplotlib和ggplot(三)

不得不说,matplot感觉就是R中的plot,简单上手,但是扩展不足,而且偶然发现了python也有ggplot包,但是由于C++的问题无法安装,后续再研究下。先看下高级的散点图,类似R的:geom_point(aex(x,y),color=z)也就是说针对不同的种类进行颜色填充,依靠之前的说法,因为matplot图形做的事情很少,需要借助数据整形。而这个时候应用到了python的map函数,ma

2017-07-18 17:28:06 2819

原创 【R和Python对比】matplotlib和ggplot(二)

首先py的画图都是 xx.plot(kind=’xx’)的形式这个和R的ggplot后面的geom_xxx比较类似。但是py弱在图形的整合,例如ggplot里面有个stat,可以直接很方便的进行count,identity等操作,而py的数据集需要喂好了给matplot,不过这样也倒是省时,因为py的groupby本来就不算很麻烦(和R的datatable差不多)。下面进行柱状图的绘制:iris.

2017-07-17 12:18:50 4819

原创 【R和Python对比】matplotlib和ggplot(一)

接下来几天对比下R和py的作图功能。R的ggplot可以说是各方面都很优秀的作图包,具有优雅的语法结构、多参数可变的调整和丰富的作图模式,然而ggplot学习起来较为复杂,而且在画图之前需要做一些繁琐的数据整形和处理工作,因为ggplot只接受长格式的数据,所以意味着需要把宽格式变长。同样的,python的画图工具也有这个问题,不过更多的是把长数据变成宽数据,这两个画图还真的是配呢。py的主要工具就

2017-07-13 11:47:29 6331 1

原创 【R和Python对比】数据整形

在数据清洗层面,一般存在以下几个数据整形的需求: 1. 新建一个列,这个列是另外列的运算结果 2. 按照列进行分组统计结果 3. 选择符合条件的行/列下面一一看看py和R的区别1、进行新列的变换这个R中很轻松,可以直接从数据框中导入数据进行处理,并且可以直接进行向量计算,比如想要iris的某一列求平方:iris$Sepal.Length^2就是一个新向量,当然可以把这个向量加到iris数据集中

2017-07-12 11:54:17 678

原创 【R和Python对比】数据导入和初步整理

现在为止,大概用半年的时间了解R,包括基础的数据清洗和处理、统计分布、ggplot的画图、机器学习建模以及R的爬虫。可以说到现在为止,R已经成了数据分析不可或缺的工具,并且确实提高了效率和扩展了数据分析的广度。然而正如从小白的excel到excel函数到vba到R的进化一样,尽管电脑的12G内存可以处理千万级数据,正如excel和R的比较:excel只能处理统计性数据,但是R除了可以直接处理数据以外

2017-07-11 11:03:09 2509

原创 【R的机器学习】Apriori算法

首先关联规则很简单,但是数据的转化具有一定的复杂。先说关联规则,举个通俗的例子,也就是看很多东西之间的关联度,而这个关联度和数值层面的相关性类似,但是通常处理的是因子型或文本型数据。比如购物车的关联购买。比如很多人买了啤酒,然后又买了烟,从业务层面,我们希望卖酒的旁边就是卖烟的,这样能刺激相同用户购买。说到这,可以看到,关联规则是一个特殊的聚类,也就是探究人群购物的本质;但是这种聚类是纯粹的从商品层

2017-07-10 11:52:48 923

原创 【R的机器学习】聚类

现阶段,针对iris数据集,我们应用了决策树、随机森林、朴素贝叶斯、神经网络和SVM这些模型来拟合数据,虽然结果略有差异,但是可以说差异不大,效果也还是很理想,主要原因因为这个数据集的特征值比较显著;接下来,我们利用几类无监督学习的方式进行原始数据集的分类,也就是常说的聚类算法。1、kmeans聚类kmeans聚类是最简单的一类聚类方式,聚类方法是,先随机确认中心点,然后找和他距离最近的几个点,重

2017-07-07 11:14:18 1708

原创 【R的机器学习】模型性能提升探索:支持向量机

这一章简单理解下大名鼎鼎的支持向量机,SVM;还是先举个栗子:有一条路把一片森林分开两块,左边是杨树,右边是松树,那么如果我们找一个分界线的话,当然就是这条路,这个是个很简单的分类方式;下一个场景: 我们坐直升飞机在山顶飞过,这时候山对我们来说就是个平面,看到下面有两种树:松树和杨树,假设我们往下看的时候,发现杨树都在最外面一圈,而松树都在里面那一圈,我们用什么方法把他们分隔开呢?当然可以说我们画

2017-07-06 10:24:29 695

原创 【R的机器学习】模型性能提升探索:R的其他神经网络包-neuralnet

上一节简单说明了神经网络,这里对R中进行神经网络算法的其他函数做下具体说明。之前说到RSNNS包的神经网络,但是这个函数比较复杂,这里介绍下neuralnet包的神经网络。这个包中的神经网络建模有个缺陷,只能对数值型的变量进行回归。也就是默认是无法进行分类变量的建模的,比如我们的iris数据集:head(iris) Sepal.Length Sepal.Width Petal.Length Pe

2017-07-05 16:11:09 4934

原创 【R的机器学习】模型性能提升探索:神经网络

网上有很多介绍神经网络原理的文章,本质上机器学习就是一个分类器;而神经网络是一个模拟神经元学习的高级分类器,当然,神经网络也是个黑箱模型。本章使用神经网络对之前的iris数据集再次进行预测。在学习神经网络的时候,常常在回想人类的学习过程;这是个比较有思辨意义的过程。人类从出生的时候,往往就是一张白纸,可以理解成什么都不懂。然后在小时候受到周围环境的影响和教育,比如父母告诉孩子,水如果冒烟了(沸腾),

2017-07-04 11:16:34 891

原创 【R的机器学习】模型性能提升探索:朴素贝叶斯

本章强行带入朴素贝叶斯的算法进行分类。为什么说是强行,因为NB(朴素贝叶斯)算法其实不算是一个好的对于数值型分类的方法,一般应用的部分的特征值通常是因子型;举个例子,对于我们的iris数据集:head(iris_train) Sepal.Length Sepal.Width Petal.Length Petal.Width75 6.4 2.9

2017-07-03 09:46:12 902

原创 【python学习笔记】Dataframe和类SQL的merge函数(二)

上一篇文章中提到的merge函数,也就是类似于SQL的join方法中,主要的参数是on参数;除了on参数,还有专门针对index join的参数:index;可以理解成是左边的一列和右边的索引进行连接,想了想,R中应该是data.table有这种便利的函数,其实我更喜欢直接用SQLDF包;书中的例子是:left1=DataFrame({'key':['a','b','a','a','b','c'],

2017-07-01 10:54:15 1041

原创 【R的机器学习】模型性能提升探索:随机森林

基于上一节探索了调整决策树的参数进行优化,看到我们训练的模型具备更强的预测性:http://blog.csdn.net/yunru_yang/article/details/73873667但是迄今为止,我们仍然是在决策树这个模型中进行优化,正如如果我们想跳的更高,更改了很多训练方式,可是我们的弹跳力仍然属于人的范畴;而我们想要有更大的飞跃,则需要做一个螳螂,在黑客帝国中,Neo被训练的就是在母体中

2017-06-30 10:06:23 7859

原创 【python学习笔记】Dataframe和类SQL的merge函数(一)

因为公司的服务器没有R,所以R现在只能是单机玩家;为了处理更大体量的数据,开始看看python。据说python有SQL相关的包,还有之前随便看的beautifulsoup的爬虫,可以说python可以做的事情太多了。但是首先focus on数据分析,这块和R可以对比着看,看看两种语言的逻辑和差异。最近在看《利用python进行数据分析》,据说是pandas的创始人写的,实话实说,这本书的可读性较《

2017-06-29 17:58:08 1889

原创 【R的机器学习】决策树性能提升

上一章用iris数据集进行了决策树分析,理论上来说,Kappa值是0.8991,已经非常高了,我们下面研究下方法,看看有没有什么优化空间。首先看C5.0的函数参数C5.0(x, y, trials = 1, rules= FALSE, weights = NULL, control = C5.0Control(), costs = NULL, ...)C5.0(y

2017-06-29 10:38:34 3589

原创 【R的机器学习】机器学习概述和决策树

在CSDN开通博客将近四个月,深深的感觉到了自己四个月的进化,从基本的代码操作,到数据整合,到统计画图,再到网络提取和机器学习,有一种浅浅的成就感。推荐两本书,第一本书偏向于通俗讲解,第二本书偏向于实例,分别是《机器学习与R语言》和《R语言与数据挖掘最佳实践和经典案例》,第一本书通俗易懂,适合没有基础的同学,比如我,第二本适合有了基础去进行案例分析的,可以先看第一本,然后在研究第二本。机器学习这个概

2017-06-28 11:45:47 1403

原创 【R的网络提取】什么值得买批量提取商品信息和价格等数据

由于电商行业经常需要对价格进行监控,而什么值得买本身就是一个比价网站,那么这个网站对很多电商具有一定的参考性;本文用R进行什么值得买的相关信息提取,针对这个信息,可以对商品走势进行详细分析;当然,另一个先分析这个网站的原因是该网站比较简单,逻辑相对清楚(尽管也不是很清楚)。下面开始;首先先观察这个网站的结构和源码,比如我搜索个空调,那么网址变成:http://search.smzdm.com/?c=

2017-05-25 11:43:22 1081

原创 【R的网络提取】用R进行CSDN任意博主的信息提取

基于上一篇文章的结论,稍作修改,进行CSDN博客中,各位博主的博客标题和url的提取,本质上只是对之前的特定提取做个广义化,但是有一点确实也在困惑我,因为在XML转换过程中,有很多的list套list,然而apply族函数现阶段看到很多用法都是在大的list中,举个例子:a<-list(list(1,2),3) a[[1]][[1]][[1]][1] 1[[1]][[2]][1] 2[[

2017-05-18 18:18:06 786

原创 【R的网络提取】CSDN博客列表和url的提取

最近在读《基于R语言的自动数据收集》,在连续看了几天之后,手痒开始进行实践,这本书总体来说不错,推荐入坑。但是对于一个没有HTML/XML等网页基础的数据狗来说,理解这个原理有点复杂,好在书中和网上信息丰富,得以管中窥豹。、个人理解,初级的网络内容爬取,主要的原理和步骤很简单: 1. 理解网页的编写逻辑 2. 找到批量提取的机械路径 3. 根据提取目的编写提取函数先说第一点,这一点我觉得是非常

2017-05-18 11:37:35 4245 1

原创 【R语言学习笔记】若干排序问题

在处理数据的时候,经常遇到关于数字和因子排序的问题,下面分享几个排序的函数。Order函数是简单的一个排序函数,先看第一种很简单的情况先看一个数据集a<-data.frame(a=c(1:5),b=as.factor(c(1,0,1,1,0)),c=c(15:11))a b c1 1 1 152 2 0 143 3 1 134 4 1 125 5 0 11如果新加一列,把原本的C按照a来

2017-04-26 14:58:01 1863

原创 【分析方法论】属性对行为的影响分析

一直感觉之所以学习R语言,是因为其代码编译属性可以复用,那么在对R语言有初步认识后,需要更有效率的对工作有些帮助,现阶段在进行用户分析过程中,有些共性的方法,记录之。本文的题目很让人头疼,一来这块只是一个经验,所以谈不上是从大方法下挖出来的一个部分,所以暂且定位属性对行为的影响分析吧。顾名思义,属性对行为影响的分析,主要的因是属性,而行为是果,换句话说,因为在两类中有了比较显著的属性划分,造成二者的

2017-04-19 14:16:59 660

原创 【R语言学习笔记】关于提取各类模型值的意外发现

之前在做各类回归方程和检验的时候,针对模型里面的值的提取总是有一种碰运气的成本,比如在做t检验的时候想提取里面的自由度,随便举个例子,基于mtcars这个数据集a<-t.test(mtcars$vs,mtcars$cyl)结果为Welch Two Sample t-testdata: mtcars$vs and mtcars$cylt = -17.528, df = 35.907, p-valu

2017-04-15 11:49:30 7431

原创 【R语言学习笔记】文档读取和类型修改

今天偶然看到一个方法可以稍微提高下数据读取和更改,在这里把之前的笨方法和新方法一同记录下。首先,如果需要读取文档,一般使用read.csv命令,而为了更好定位到文档位置,一般用choose.files(),比如我有一个CO2文档choose.files()显示:[1] "C:\\Users\\yangyunru\\Documents\\CO2.csv"然后直接读取read.csv("C:\\User

2017-04-11 14:26:09 2360 1

原创 【R语言学习笔记】探索ggplot的排列组合:线图(一)

上一节探索了散点图,但是散点图好像可以编辑的点不多,排列组合也不太多;下面进行线图的探索1、 最简单的线图 还是借用mtcars的数据集:p<-ggplot(data=mtcars)p+geom_line(aes(x=wt,y=mpg))结果如图: 也就是横轴为wt,纵轴为mpg的一个折线图。这个折线图和之前的散点图非常相似,不过是把点用线之间连了起来。下面进行上色,上色有两个区别,第一个代码

2017-04-05 17:20:41 2929

原创 【R语言学习笔记】探索ggplot的排列组合(一)

R里面最出名的就是ggplot作图包了,虽然现在如果利用R画图一般用自带包就可以,甚至很多图形可以直接拿excel做(为了匹配PPT),但是R中的plot类图形不是很美观,并且最大的问题是很多数据、图形和匹配无法分离,这样的话,如果针对一个数据做多张图,或多个数据做一张图会有些费劲。在学习了一段时间的ggplot之后,对ggplot作图思想有点心得,遂记录。关于ggplot的作图,网上很多文章中都有

2017-03-31 15:02:02 2469

原创 【通俗向】方差分析--几种常见的方差分析

上一篇文章说了方差和t检验的差异,这篇说说几种实用的方差分析方法和R语言实现。一般情况下,基本的方差分析模型包含以下三类,三类下面会根据具体情况再进行细分,主要的三类为一元方差分析,协方差分析,多元方差分析。1、一元方差分析 一元方差分为单因素、多因素两类(协方差单独分类),既然方差是检验各组差异的,那么从一个最简单的例子入手,探寻各类方差分析的适用条件和特点。OK,正题开始,鉴于自己也算是酷爱篮

2017-03-29 14:48:57 16940 3

原创 【通俗向】方差分析--T检验和F检验的异同

最近在图书馆借了本《R和ASReml-R统计分析教程》,林元震和陈晓阳主编的关于R的书籍,当时看上这本书的原因在于里面以统计学知识为主,作为R语言实战的良好补充,虽然R语言实战是一本相当详实的介绍R语言的书,但是其中的统计学原理往往一笔带过(虽然本书也不是很详尽),但是作为一个数据分析从业人员,我感觉对于很多统计理论,达到可以讲明白原理和逻辑就可以,具体的计算过程和推导反而在其次,而最重要的是在什么

2017-03-29 11:59:37 33472

原创 【R语言学习笔记】初识(六)

终于到了R语言绘图的一个章节,之前扫过R in action的绘图,没想到这里的绘图讲的更加直观,点赞。【84】在一个画面中画很多图很好用的layout函数,layout有个矩阵,矩阵把整个画面分成横纵两个坐标,相同的数字面积合并;如x把整体画布分成了9分,上面的1占了1/3,下面占了两行三列同理,我要是

2017-03-29 11:30:24 440

原创 【R语言学习笔记】初识(五)

R-FAQ

2017-03-29 11:29:11 400

原创 【R语言学习笔记】初识(四)

R-FAQ

2017-03-29 11:22:53 639

原创 【R语言学习笔记】初识(三)

R-FAQ

2017-03-29 11:19:42 3186

原创 【R语言学习笔记】初识(二)

今天继续上次的R-FAQ【23】R的工作目录默认R的目录在我的文档, 比如用getwd()进行目录确认,但是文中说用setwd()是会报错;网上查了一下,如果要更改需要使用全部的目录,如setwd('C:/Users/yangyunru/Documents/R')这个语句,但是尝试了一下,这个目录必须是已经存在的目录,否则R一样会报错;也就是说,需要先手动在WINDOW某个

2017-03-29 11:17:43 27620

原创 【R语言学习笔记】初识(一)

针对R语言,网上很多书和教程都在学,也正在在这种背景下,每天记录一点点对于R的知识,一方面是记录,另一方面如果可以帮助到其他人那就更好了。当然现在的水平很低,基本上从幼儿园开始学起,但是还好今后有很多时间,每天学一点,说不定哪天就有了质的飞跃。之前看了《R in action》但是觉得还是稍微有点难懂,或者说没找到方法;对于一种语言,R和英语应该有相似的属性,学习的路径可能也类似;而作为一个工具,R

2017-03-29 11:16:18 907

原创 【通俗向】非参数检验(一)游程检验(Runs test)

游程检验个人感觉是在日常分析过程中很有用的一个检验。游程检验主要检验一件事情发生的概率是否为随机的。游程检验的原理其实很简单:引入一个参数看看整个数列的分布,还是从最简单的抛硬币开始。比如抛硬币,正面是1,反面是0。抛两次,出现一次1,出现一次0。计这个数列为(1,0)游程就是连续1的个数和连续0的个数,在这里游程就是两个;但是正反面只抛两次判定随机是没有意义的。那么我们再做点实验,比如抛了10次,

2017-03-14 11:52:34 25707 2

原创 【通俗向】假设检验(四):概率、随机、t检验

【一】t检验的应用 上面一章部分说明了t检验和卡方检验的异同,下面举几个栗子来详细说明下几类t检验。首先t检验的前提是总体分布已知且为正态分布在此补一个对正态分布本质的探讨。现实过程中的离散分布,如果是随机二项分布的话,都会近似正态分布,举几个栗子: 1. 抛10次硬币,出现2次正面朝上的分布(要么朝上,要么朝下) 2. 找100个男人,假设平均身高180,身高的分布(每个人身高和均值的变化都

2017-03-13 14:35:36 1817

原创 【通俗向】假设检验(三):卡方检验和t检验

国际惯例,先看几个例子:假设抛硬币,抛了12次,出现正面为1,反面为0,如果出现正面的次数为10次,问这个硬币是否均匀?假设有一个正四面体,出现四个面的分别记为1,2,3,4;抛了120次,如果出现这四个面的次数为30,30,40,20的话,问这个四面体是否均匀?假设有一个灌铅的正四面体(赌博用),厂商声称其中出现4的概率为70%,其他三个面为10%,那么抛了120次,四个面的概率为(1,2,

2017-03-09 11:05:39 16798 2

原创 【通俗向】假设检验(二):μ检验

还是看一个栗子:小明想了想在企业里上班没啥意思,还是出来报效祖国当兵吧,于是告别了心爱的小花,去了某陆军学校准备深造。但是看到当兵要求,发现非常严格的指明体重只要90kg以下,上下不能超过2kg,小明看了看自己的体重,95kg感觉没戏了,但是天无绝人之路,对于当兵的体重只是抽查,因为也实在没有那么多精力进行一个一个排查。小明准备滥竽充数一下。毕竟整体新入学的人有1000人,小明想了想,抽到自己的概率

2017-03-08 11:57:23 2514

原创 【通俗向】假设检验(一)

先来看个例子:小明是一个穷屌丝,喜欢公司的一个同事小美;同时,小明的上上上级小强是个高富帅,在没事的时候也经常亲自指导小美写代码。小明决定在情人节那天发动攻势,鼓起勇气约小美出去玩,小美当时说自己有事,下次吧。后续小明又陆陆续续约了小美10次,小美除了有2次和小明出去,其他时间都说自己有事。那么问题来了,小美是真的有事还是不想和小明出去?现实过程中,小美除了这段时间加班或者生病等特殊情况,假设小美出

2017-03-07 11:41:21 1338 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除