![](https://img-blog.csdnimg.cn/20201014180756922.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
R语言实践
文章平均质量分 83
一个统计学小生的数据分析梦
这个作者很懒,什么都没留下…
展开
-
R言rvest包爬取南京二手房信息
R语言的理论学习也已经有一段时间了,数据分析的基础就是要获取数据,在如今的互联网时代,获取网络数据成为了数据分析师必不可少的随身技能,本篇就模仿R语言爬虫利器:rvest包+SelectorGadget抓取链家杭州二手房数据用rvest包爬取链家南京二手房的信息。 先上此次爬虫的源代码:library(xml2)library(rvest)library(stringr)...原创 2018-05-15 11:16:09 · 1012 阅读 · 0 评论 -
基于rvest包爬取BOSS直聘-上海里有关“数据分析”的职位信息
目前一心想入门数据分析岗位的我,很好奇目前数据分析岗位的现状,故而准备爬取Boss直聘里上海目前数据分析岗位的情况。 上源代码:library(xml2)library(rvest)library(stringr)library(dplyr)i <- 1:10job_inf <- data.frame()for (i in 1:10){ webpa...原创 2018-05-16 10:26:18 · 915 阅读 · 9 评论 -
利用R进行脏数据清洗
在进行正式的数据分析之前,必须要保证数据的质量,故而我们要处理缺失值、异常值这些脏数据。本篇博客参照了如何使用R语言解决可恶的脏数据一文,进行了模拟脏数据清洗。 一、缺失值 缺失值的处理要依据数据的类型和其内容进行相应处理,常用的方法有行删除、众数替代、均值替代以及多重插补法等等。 以下举个例子:#生成1000条无缺失值数据> set.seed(1234)...原创 2018-05-29 21:40:26 · 5551 阅读 · 0 评论 -
利用R制作词云图
制作词云图本不是难事,利用R或者tableau可以轻松制作出花式词云图,但是词源的获取就不是那么容易了,今天我们就利用R语言中的jiebaR包来对北大校长林建华在北大120周年校庆的致辞做分词,并制作词云图。 致辞内容保存在‘beida120.txt'中,分词以及绘制词云图代码如下:> library(jiebaRD)> library(jiebaR)>...原创 2018-05-30 14:52:40 · 8425 阅读 · 2 评论