![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
r语言
数据挖掘运爷
数据挖掘爱好者,R语言爱好者,有理论基础和编程经验,寻求志同道合的朋友
展开
-
利用R语言如何进行文本比较算法——LD算法
在日常应用中,文本比较是一个比较常见的问题。文本比较算法也是一个老生常谈的话题。 文本比较的核心就是比较两个给定的文本(可以是字节流等)之间的差异。目前,主流的比较文本之间的差异主要有两大类。一类是基于编辑距离(Edit Distance)的,例如LD算法。一类是基于最长公共子串的(Longest Common Subsequence),例如Needleman/Wunsch算法等。原创 2015-05-03 01:01:12 · 3188 阅读 · 0 评论 -
【翻译】(R语言)如何为图片添加文字说明
工作中做图时时常要用到为画出的图添加文字说明,无意中看到有个外国的高级投资策略师写的博客提出了一种方法,所以分享给大家,尊重原创,博客原文:http://datascienceplus.com/adding-text-to-r-plot/翻译 2015-11-10 23:29:03 · 23105 阅读 · 2 评论 -
如何将R与SQL Server连接起来
win7下R语言与SQL Server数据库连接的方法,亲测完全可以用,希望可以帮到需要的大家。1、配置 ODBC 数据源点击Windows 下搜索“ ODBC”,打开“数据源(ODBC)”图中的数据源名称“local_server”是我已经添加了的,,一般第一次是没有这个的。如果驱动程序列没有 SQL Server,则需要点击“添加”。原创 2015-05-06 12:22:07 · 10130 阅读 · 0 评论 -
利用R语言如何聚类
这篇文章主要介绍几种聚类方法并将其优劣对比,参考《R语言与数据挖掘,最佳实践和经典案例》原创 2015-05-03 02:20:09 · 8688 阅读 · 0 评论 -
如何利用R语言画出三维动画图
rgl包提供了OpenGL图形库的3D绘图接口,我们可以利用play3d()函数画出三维散点图,之后利用surface3d()在三维图上添加预测曲面,然后再用movie3d()函数让三维图动起来。 注:以上程序参考《R数据可视化手册》翻译 2015-05-04 17:03:02 · 15281 阅读 · 0 评论 -
利用R语言预测银行客户信用的优劣(随机森林方法)
我们选取的数据时1994年德国的一家银行在平定客户信用风险好坏的时候用到的一组变量,共有1000组数据。由于年代久远可能和实际有些出入。数据可以在下面的网址下载。原创 2015-05-03 13:18:22 · 11406 阅读 · 0 评论 -
利用R语言如何去除字符串中成对的括号
近日,遇到一个问题,编写程序,删除任意字符串中包含的所有成对的括号及括号里面的字符,如字符“AB(CD)EFG(I)JK”处理成“ABEFJK”我们来利用R语言中的正则化表达式实现,由于楼主对R语言也在积极学习当中,所以将解决问题时遇到的困难和错误的程序也贴出来,希望能帮到大家,若有人有更好的方法,欢迎积极留言。原创 2015-05-03 00:39:27 · 15345 阅读 · 0 评论 -
如何利用R语言计数
最近在工作中遇到统计数据的问题,简单来说就是统计对象的频数,当然大部分人都会选择用table(),但其实还有很多简单实用的方法,根据网上的资源,现在收集整理如下原创 2015-05-03 13:13:25 · 65046 阅读 · 0 评论 -
如何利用R语言怎样处理百分数
楼主在工作时,遇到一个问题,网上析取的资料中有很多百分数,但是R读取的时候把它默认为是因子类型了,用as.numeric()函数也没有用。经过查找资料发现几个将百分数化成小数的小技巧,和大家分享一下。 其基本思想就是把百分数按照字符处理,首先将“%”与数字分离,然后再将数除以100,就可以化成小数了。下面两种方法的区别一个是将%替换成空格,一个是提取除百分号的数字。原创 2015-05-03 13:23:14 · 16224 阅读 · 0 评论 -
我读过的专业书(持续更新、排名不分先后)
这是博主阅读过的专业书以及对这些书的简单书评 初读这本书已经是看过N本R语言的书以后的事了,由于之前读的都是导师推荐的英文书或者国外的书翻译过来的,看到国人写的书感觉很新鲜,这本书写的很“详细”,就因为太详细了反而显得有些臃肿,书的前几章写的很好,后面几章写的显得有些仓促,内容不深。书的最后一章讲了Rattle这样一个R中的用于数据挖掘的图形交互界面(GUI),可以快捷的处理常见的数据挖掘问题原创 2015-05-03 17:59:52 · 634 阅读 · 0 评论 -
如何在R语言中使用SQL
R中还有一个有趣的sqldf包,它可以让你用SQL来操作dataframe,这种功能能让会R的人能练习SQL,会SQL的人能练习R,不得不感叹R语言的强大技能和神奇魅力。 当然也可以将R与外部数据库连接,直接在R中操作数据库,并生成最终结果,这也是一种可行的方法。在R中连接数据库需要安装其它的扩展包,根据连接方式不同我们有两种选择:一种是ODBC方式,需要安装RODBC包并安装ODBC驱原创 2015-05-03 02:08:19 · 2852 阅读 · 0 评论 -
利用R语言如何判别和分类
楼主在学习数据挖掘期间,老师讲了很多的判别和分类方法,只是没有平时时间整理,这次利用周末的时间特地整理自己以前的知识点,这篇文章会引用大量网上的图片和文字,若有侵权,及时告知,本人会马上修改。这篇文章中的案例统一使用著名的鸢尾花数据。若有错误,也请及时指出,大家相互学习,共同进步 判别分析(discriminant analysis)是一种分类技术。它通过一个已知类别的“训练样本”来建立原创 2015-05-03 01:59:38 · 8000 阅读 · 0 评论 -
利用R语言如何画出广州房价地图
R软件的ggplot包升级以后有绘制地图的新功能,其图形元素主要是通过geom_map来实现。由于系统内maps包所自带的地图数据没有广州市的数据。其它图家地图数据则要从外部导入,本文则尝试从外部导入广州数据,然后用ggplot2包进行绘图。 本例的目的是结合地理数据和房价数据,以说明广州市房价的行政区分布情况。基本步骤是先导入地理信息数据,将其转为ggplot2可以处理的数据框格式,将房价数据整原创 2015-05-03 01:37:39 · 2407 阅读 · 0 评论 -
利用R语言如何计算出回归分析中的t值和P值
利用R语言计算回归分析中的t值和p值原创 2015-05-03 01:16:00 · 50240 阅读 · 0 评论 -
利用R语言计算国内两个地点的距离
转发http://www.cnblogs.com/fanyongbin/p/5000791.html############################################# 输入国内两个地点# 根据经纬度计算两个经纬度之间的距离############################################# 计算距离函数add_dist <- function(a转载 2015-12-02 22:16:25 · 9081 阅读 · 3 评论