R语言
文章平均质量分 75
goskiller
咨询公司出身,投身互联网金融,主抓数据分析和挖掘建模,在工作和带领团队中偶有所得
展开
-
R语言函数报错继续执行方法
在上一篇文章中,我们使用了基于Usercf的推荐方法帮助互联网金融企业针对他们的投资者做投资品推荐,在文章末尾我提出了几点问题。今天我把这些问题的细节做了一些改善,重新做了模型,发觉模型结果比我预想中的要棒!!主要修改如下:1、将邻居矩阵从2维扩充为35维;(据我测算,一般为整个数据集中用户数的5%最佳,50维出现了一些空值)2、将欧氏距离上限标准化去掉,这样能更有效的原创 2016-07-22 21:00:49 · 9599 阅读 · 0 评论 -
如何用R连接mysql数据库
在百度上找了一下,大概有两种连接方法(RMySQL和sqldf),目前两种都试了一下,其中一种可以(RMySQL),另外一种暂时没有找到方法(sqldf),可以了我再奉上。 首先我们要下载RMySQL和DBI包,这个在网络上都可以找到,前段时间升级Rstudio后,还出现了连接不上清华的R镜像站问题,以及下载包默认使用国外站的问题,此处一并说明一下。原创 2017-11-13 13:37:38 · 658 阅读 · 0 评论 -
如何用R发送简单易懂的邮件
这些天在通过预测模型跑出了不少天的数据,但是跑出来的数据如何汇报给领导呢,当然是通过邮件了,我这个人比较懒,当然不想自己每天都做这个事情了,不如写几段代码解决这个事情吧?好,就这样定下来了。 那么用R怎么解决这个难题?我赶紧搜索了一下,发觉有两个包可以帮助我解决这个问题,我选择了其中一个字符比较短的mailR包(人比较懒,下载包的时候可以少敲键盘),开始了研究。原创 2017-10-24 17:46:27 · 1919 阅读 · 1 评论 -
使用R的prophet包做一个简单的时序预测
上一篇博客针对prophet包上传了自己的代码,今天这篇博客我跟大家讲述一下prophet包工作原理,以及我对该模型做的一些优化。 上次使用prophet包做项目主要分为了四个部分,分别是读取数据,设定节假日(奇异点),训练模型,输出自定义结果这四部分,现在我就上个项目做分别讲解。 一、初始化:装载模型包并读取数据 library(prophet原创 2017-10-23 13:48:31 · 1057 阅读 · 0 评论 -
用R中prophet包做时序预测
最近又接到一个预测项目需求,主要是预测每天投资用户会投资不同产品多少金额,属于每天即时预测,需要拿最近一年的数据做测试集,来预测每天不同期限产品分别被投资多少金额,然后通过这些金额每天找借款端匹配借款需求,借款端运营通过资金端需求来动态调整营销活动,通过资金需求多少来有效运营借款需求,形成与资金端的良性互动,节约闲置资金成本。 就这样一个需求,如何实现?我首先想到通过业务经验原创 2017-09-20 13:37:23 · 2047 阅读 · 0 评论 -
用R做一个完整的数据挖掘项目
最近运营部门希望我们帮助他们找出合适的短信营销对象,通过短信营销能够提高他们的投资者再次投资转化率,那么如何找到这个精准人群就是我们部门必须出手做的事情了?但是从几百万投资者中找出最近要复投的用户,这数据挖掘工作究竟该如何入手呢?不着急,我先上结果给大家先看看。 (这是我5月9日给出的一波预测会复投的新用户ID,当日下午做营销,5月11日晚20:00的结果)(这是业务部门5月8原创 2017-05-26 13:36:37 · 9025 阅读 · 6 评论 -
用R语言实现简单的Kmeans聚类
最近主要在做针对投资者的统计及聚类分析,希望能找出投资者的一些特征,方便做投资者的精准营销。首先使用的是SPSS的modeler,毕竟操作可视化,比较简单,就是运行大量数据比较慢,挺费时间。后来又想用R验证一下聚类的准确性,直接登陆Rstudio,找了kmeans的包,也计算了,发现了SPSS聚类除了没有R计算的效率快,分类也没有R精准,彻底断了我继续使用SPSS的想法,现将R聚类分析过程原创 2016-09-30 16:24:05 · 11297 阅读 · 0 评论 -
基于pearson(皮尔逊)相似度的用户推荐算法
最近因为写一些数据分析报告,把写博客的进度耽误了一点,不过不要紧,我最近优化了一下做出的推荐算法,用pearson相似度替换了欧氏距离相似度,优化了推荐算法代码,另外将700多个用户的推荐投资品循环计算了。先说一下pearson相似度:pearson相似度与欧式距离相似度的最大区别在于它比欧式距离更重视数据集的整体性;因为pearson相似度计算的是相对距离,欧式距离计算的是绝对距原创 2016-08-11 11:04:48 · 20306 阅读 · 4 评论 -
用R语言呈现人拉人模式的关系网数据
最近公司正在做一个基于熟人关系网络的投顾系统,数据库里面有一个基础的拉人注册表,描述了注册者和他的上级的从属关系,是一级关系。但是公司基于业务需要,需要对每一个人的上下线关系进行梳理这样就必须要有一个表,我的第一反应是这个表太简单了,不就是上下级关系吗?结果,我被打脸了,实际情况没那么简单,因为邀请表里面是一张表,包含了所有的邀请关系,如果邀请级别有20级,数量有十万,那跑一次循环就是十万的平原创 2016-09-10 18:52:47 · 1157 阅读 · 0 评论 -
R语言使用协同过滤算法(usercf)解决投资推荐问题
针对投资者智能推荐金融产品是不是一个好主意?实际上许多互联网金融公司已经开始了这方面的尝试,陆金所的用户中心界面下方的‘为您推荐’栏目就是这方面的尝试,具体如下图:这个就是典型的基于用户相似度做智能推荐的产品,现在我们就来揭开一种基于用户相似度做推荐算法的神秘面纱吧!!本博客主要参考文献张丹在这篇博客http://blog.fens.me/r-mahout-user原创 2016-07-21 19:03:03 · 4898 阅读 · 1 评论 -
R语言关于时间格式转化为数值的解决方案
好了,在前一篇文章中,我们将数据集转化为numeric格式,以便于在实际工作中预测投资者是否再次投资。不过上次的数据集转化,将时间格式全部转化为了NA,导致预测准确率下降了约5%(因为失去了时间早晚这个维度),我们今天就来讲一下如何将数据集中的时间变量转化为numeric格式。首先我们先回忆一下将时间变量转化为numeric格式的难点:因为读入数据集的时候,所有数据都是以fac原创 2016-07-19 14:15:36 · 31678 阅读 · 2 评论 -
关于R语言字符型数据清洗问题
最近做一个预测关于投资者是否再次投资的项目,需要针对客户导出的数据进行清洗后建模分析,我目前选择的模型是xgboost,貌似数据必须全是numeric。数据结构如下:在这个里面,我们需要做的是将第一列里面的‘是’替换为1,第四列、第七列、第八列的字符也替换为数字。具体需求如下:平台标签替换:0、NA;1、PC;2、WAP;3、IOS;4、andriod;原创 2016-07-16 17:28:36 · 1847 阅读 · 1 评论 -
使用R创建多个有重复字符的系列变量
最近一段时间需要对公司投资人群多个时间点是否流失进行预测,需要针对未来20天该用户群是否流失进行预测,于是需要至少建立20个数据集,做20个模型,进行20个预测,这要我重复写20遍代码,这种重复敲代码的感觉可不好(关键是一个模型可不是十行代码能解决问题的,有N多参数),好歹我自诩为人工智能人才,怎么能被重复性的代码难倒呢? 在网上百度了一下相关文章,发现有论坛已经解决了这个问题原创 2018-01-17 11:26:56 · 3963 阅读 · 0 评论