wa2003-CSDN博客

原创 leafletR的几个注意

1、toGeoJSON挑字符格式乱码一定要清除掉，否则出差，尤其是互联网爬的数据，要用正则去处理。常用的清理方法如下：hp.df$loupanmingcheng<-gsub("[^a-zA-Z0-9\u4e00-\u9fa5]","",hp.df$loupanmingcheng); #替换乱码;# [\u4e00-\u9fa5] 匹配汉字-汉字的正则表达式； [\a-zA-Z0

2015-06-23 11:11:03 1613

原创用R语言的RCurl和正则表达式爬团购网的旅游团购数据

用R里的包Rcurl,代码如下url='http://beijing.lashou.com/travel/menpiao' # web=readLines(url,encoding='UTF-8'); #逐行读取网页源文件head(web,10);goods_namehead(goods_name,1)[1] "【马驹桥】皕富园农场"goods_name",go

2015-04-28 21:53:05 1223

转载深度学习进行时间序列模式识别

思路：将时间序列转化为图像类似的格式，然后进行CNN识别。http://danielnouri.org/notes/2014/01/10/using-deep-learning-to-listen-for-whales/Using deep learning to listen for whalesJanuary 10, 2014 | categorie

2016-03-13 19:56:55 12293 1

原创 logistic回归和logic回归

logistic回归，正确的译法应该是对数回归，其实就是对线性回归公式去对数之后进行。适合因变量是0/1的二值分布，推导是以误差的极大似然法来推导的，不是最小二乘法。logic回归，正确的译法应该是逻辑回归，对于大多数变量是二项分布的情况。Logic regression is a (generalized) regression methodology that is

2016-02-15 17:41:04 6595

转载机器学习实践中的7种常见错误

统计建模非常像工程学。在工程学中，有多种构建键-值存储系统的方式，每个设计都会构造一组不同的关于使用模式的假设集合。在统计建模中，有很多分类器构建算法，每个算法构造一组不同的关于数据的假设集合。当处理少量数据时，尝试尽可能多的算法，然后挑选最好的一个的做法是比较合理的，因为此时实验成本很低。但当遇到“大数据”时，提前分析数据，然后设计相应“管道”模型（预处理，建模，优化算法，评价，

2016-02-15 16:13:08 1125

转载利用Python进行机器学习和数据挖掘概述

前言：本文主要描述了使用Python进行数据挖掘业务的优势并介绍了相关的数据处理工具包pandas和机器学习算法库scikit-learn。为什么使用python进行数据分析？对很多人来说，Python是一种很容易让人喜爱的语言，自从1991年Python创始以来， Python已经是最受欢迎的动态编程语言之一，其他的类似语言还有Perl,Ruby等等，Python和Ruby变

2016-01-03 22:48:46 2646

原创【学习】kudu、Impala、交互式查询

1、KuduHadoop生态系统发展到现在，存储层主要由HDFS和HBase两个系统把持着，一直没有太大突破。在追求高吞吐的批处理场景下，我们选用HDFS，在追求低延迟，有随机读写需求的场景下，我们选用HBase，那么是否存在一种系统，能结合两个系统优点，同时支持高吞吐率和低延迟呢？有人尝试修改HBase内核构造这样的系统，即保留HBase的数据模型，而将其底层存储部分改为纯列式存储（目前HB

2015-12-15 13:59:47 9887

转载 4步教你开发风控评分模型

2015-08-12 刘时斌数信互融作者：刘时斌（数信互融研发负责人、联合创始人）企业公众号：数信互融“你的模型准么？”“你的模型真的有用么？”“你的模型对风控有价值么？”在为P2P公司建立风控评分模型过程中，这是最常见的问题。为了回答这一问题，我们想先讨论下如何从实际业务出发，以怎样的开发流程才能建立一个有效、有用

2015-11-10 08:14:18 4308

原创 Spark 1.5中数据科学的进展

还没来得及去跑，先记下来。spark 1.3 出来dataframespark 1.4 出来sparkRspark 1.5 出来机器学习的pipeline数据科学API之扩展在2015年，Spark研究的主要致力于加强大规模数据科学研究。其中主要包括这三大方面：DataFrame、机器学习流水线、R语言支持。这三个部分所新增的API均有效的

2015-10-08 08:46:23 631

原创【D2】Python一周入门

Python中的4种基本类型：元组（Tuple）、列表（list）、集合（set）和字典（dict）。1、元组Python中的元组(Tuple)类似于Java中的数组，一旦创建了一个 tuple，就不能以任何方式改变它。这点与Python中的字符串类似，所以我们说元组和字符串都是不可变的序列。元组也支持索引和分片操作。定义一个元组使用一对小（圆）括号” ( ) “.>>> t1=(1,

2015-09-16 16:59:41 973

转载用python写spark代码

How To Write Spark Applications in Pythonby Shahid AshrafMapReduce is a programming model and an associated implementation tool for processing and generating large data sets. Users specify

2015-09-14 11:13:07 3168

原创 RFM模型及R语言实现

一、基本概念根据美国数据库营销研究所Arthur Hughes的研究，客户数据库中有三个神奇的要素，这三个要素构成了数据分析最好的指标：最近一次消费(Recency)、消费频率(Frequency)、消费金额(Monetary)。 RFM模型：R(Recency)表示客户最近一次购买的时间有多远，F(Frequency)表示客户在最近一段时间内购买的次数，M (Monetary)表示客户

2015-09-09 10:53:31 10811

原创【学习】R语言中的并行计算：foreach,iterators, doParallel包

我个人的理解，这些包进行并行计算，有点类似控制编译器的并行开关，将数据、循环变量直接的依赖性进行开关设置。一、foreach包foreach包是revolutionanalytics公司贡献给R开源社区的一个包，它能使R中的并行计算更为方便。与sapply函数类似，foreach函数中的第一个参数是输入参数，%do%后面的对象表示运算函数，而.combine则表示运算结果的整合

2015-09-06 10:09:19 15608

原创【学习】Hadoop、爬虫和Elasticsearch的企业级应用

一、Hadoop生态系统Hadoop利用大量廉价的计算机，提供了一个可扩展强，可靠性高的机制；并利用廉价的方式来存储大量数据。Hadoop把任务分成任务片，分布在数千台计算机上，从而进行快速分析，并分布式存储大量的数据。Hadoop还提供了新的和改进的分析技术，从而使大量结构化数据的复杂分析变为可能。Hadoop的数据进行分布式存储；在集群上备份多份数据，从而来提高可靠性和实用性；数据在哪

2015-08-18 09:58:49 2894

原创 excel文件，用read.xlsx别用read.csv了

read.csv，坑爹，老报错> a1=read.csv("communitty_add2.csv",sep=',',header=T,fileEncoding="UTF-8",encoding="UTF-8")Warning messages:1: In read.table(file = file, header = header, sep = sep, quote = quote

2015-08-07 09:00:11 14632 1

原创【读书笔记】互联网广告综述之点击率特征工程

互联网广告综述之点击率特征工程 http://blog.csdn.net/mytestmy/article/details/19088827读书笔记：1、对特征的处理，无论是离散的（如性别，年龄），还是连续的（如点击率ctr），都采用虚拟化因子的思路，先把特征属性因子化，然后扩充为新的维度。2、缺失值的处理，也可以用虚拟化因子的方式来处理，如性别属性，采用3个因子：男、女、不详。

2015-07-30 09:38:31 1366

原创 R的启动顺序及执行文件

R的启动顺序R启动时的一系列过程（使用help(Startup)命令查看详细信息）：如果没有在命令行中执行（--no-environ），R会搜索并执行站点文件（Rprofile.site）和用户文件（.Rprofile）。1.R执行Rprofile.site中的脚本。这个脚本文件是系统级的脚本，它允许系统管理员对默认选项进行自定义修改。该代码文件的完整路径为R_HOME

2015-07-14 12:02:38 2455

原创 SparkR后台进程的bug

【问题描述】当改动SparkR相关的配置文件（如./conf/hive-site.xml），或者使用sparkR.stop()之后，再使用SparkR，则报错如下：> head(a)Error in readTypedObject(con, type) : Unsupported type for deserialization 【原因】：有改动，需要重启SparkR, 但

2015-07-14 09:28:54 687

原创 R语言的告警”条件的长度大于一，因此只能用其第一元素“的解决办法

告警：”条件的长度大于一，因此只能用其第一元素“原因：向量和标量的问题举例：> x<-seq(-2,2)； # x是个长度为5的向量> x[1] -2 -1 0 1 2> if(x>0) 1 else 0 [1] 0Warning message: 如果x的长度>1，只使用x的第一个元素，x的第一个元素是-2，所以输出是0In if (x > 0) 1 els

2015-07-09 14:34:52 55281 3

原创 sapply与自定义函数配合使用

> a a.df> a.df X1 X2 X3 X41 1 4 7 102 2 5 8 113 3 6 9 12> sapply(a.df, function(x,y) x+y+3, y=10) #按列对第一个参数进行function计算，第一个参数a.df是4列，所以结果是4个结果，而且计算结果的列名用原来的列名 X1 X2

2015-07-09 09:54:14 4215

转载体质评价常用的方法

一、离差法离差法，是依据正态分布的原理，以大数量横剖面调查资料的平均数为基准值，以标准差为离散距，对某一体质指标进行分等评价的方法。离差法只适用于测试数据呈正态分布时。（一）离差法划分评价等级的标准传统的离差法划分评价等级的标准，一般以平均数加减1至3倍标准差划分五级，但存在着中等范围偏大（68.3%），与百分位数法制定评价等级的理论百分数不吻合等缺陷。为了克服

2015-07-08 11:30:12 6332

原创 SparkR跑通的函数（持续更新中...）

> a> head(a)> columns(a) # 列出全部的列[1] "city" "housingname" "ori_traffic_score" "ori_traffic_score_normal"[5] "metro_station" "metro

2015-07-06 17:40:39 2089

原创 SparkR 1.4.0 的安装及使用

1、./sparkR打开R shell之后，使用不了SparkR的函数[root@master sparkR]#./bin/sparkR能进入R，和没装SparkR的一样，无报错> library(SparkR)报错：Error in library.dynam(lib, package, package.lib) : shared object ?.par

2015-06-25 13:27:04 2879

原创 networkD3包小试牛刀

力导向网络图这种图采用物理上的弹簧模型，将节点之间想象成是用弹簧连接的，然后把这些用弹簧连接的节点扔到桌面上，让这些弹簧自己弹啊弹，弹啊弹，最后总能停下来，达到一个平衡状态。这个状态下的节点连接图，能力最小，线和线之间的交叉最小。这种方法的学名叫spring-embedder 或者 force-directed。拖动中间的图里的任意节点，整个网络就会被拖动，并达到新的平衡位置。从图

2015-06-10 21:41:49 4947

原创 R中的因子变量及处理

定类的因子变量，可以利用哑变量（dummy variable)，即0-1变量现将其转换为数值型的，再进行分析计算各属性的相关系数http://blog.csdn.net/jiabiao1602/article/details/42264853

2015-06-08 22:32:58 13767

原创 Rmysql的安装及乱码解决

1、安装mysql-devel mysql-lib，不装这个后面装Rmysql会报错# sudo yum install mysql-server mysql-devel mysql-lib2、报错，有冲突Transaction Check Error: file /usr/bin/mysql from install of mysql-5.1.71-1.el6.x86_

2015-06-08 21:59:44 1071

原创 RJDBC读MYSQL数据库读不出内容问题及解决

1、RJDBC对字符比较挑，没有配置好，则读不出内容，都出的空表，问题解决如下加上这个?useUnicode=true&characterEncoding=UTF-8即可。library(RJDBC)drvconndbListTables(conn); #列出所有的数据表LF

2015-06-08 08:06:51 2026

原创 rstudio server包的安装位置

1、在rstudio窗口，查看库文件的路径> .libPaths()[1] "/home/enn_james/R/x86_64-unknown-linux-gnu-library/3.2" "/usr/local/lib64/R/library"其中”/usr/local/lib64/R/library”这一路径就是所有用户共享library的地方，因此想要让共享一个库只要将包安装到

2015-06-02 09:26:45 6727

原创 linux下不能画图的问题解决

Warning in grDevices:::png("/tmp/RtmpWTwF68/a0ee957a346f405dbc06815f37fd0971.png", : 本R版本不支持png01 Jun 2015 00:55:03 [rsession-enn_james] ERROR r error 4 (R code execution error) [errormsg=Error in

2015-06-01 14:55:36 12224

原创 centos 6.5下安装 rstudio server及问题解决

sudo yum install openssl098e

2015-05-26 13:12:18 2729

原创 centos 6.5下安装及使用shiny server

RStudio公司自己构建了R Shiny Application运行的平台（http://www.shinyapps.io/ ），用户可以通过RStudio上面的工具把自己编写调试好的Shiny Application上传到shinyapps.io上去（这里需要先注册和设置些东西）。这样构建了一个云端的服务器。但是有时还是有必要自己去构建一个自己的Shiny 服务器，这样操作起来还是方便些。

2015-05-25 11:45:18 2562

原创 centos 6.5下安装rstudio server【总结】

（一）、几个前提条件：1、先安装R，如果是从源码安装的，需要用参数 --enable-R-shlib。2、安装RStudio是，会去找R的安装位置，默认的是 /usr/bin/R，或 /usr/local/bin/R，如果R装在其他位置，可能找不到，有问题。3、记得修改/etc/rstudio/rserver.conf配置文件指定R的目录，在rserver.conf中添加rs

2015-05-21 15:29:30 2622

原创 Centos下R语言的出错及解决（持续更新中）

（1）安装RODBC包不能直接在R下用 install.packages("RODBC")安装。前提条件是先要用YUM安装两个包：# yum install unixODBC # yum install unixODBC-devel

2015-05-21 14:55:18 797

原创 R中的高效批量处理函数（lapply sapply apply tapply mapply）

R语言提供了批量处理函数，可以循环遍历某个集合内的所有或部分元素，以简化操作。这些函数底层是通过C来实现的，所以效率也比手工遍历来的高效。批量处理函数有很重要的apply族函数：lapply sapply apply tapply mapply。apply族函数是高效能计算的运算向量化(Vectorization)实现方法之一，比起传统的for,while常常能获得更好的性能。

2015-05-21 09:01:07 58840

原创 centos 6.5下安装R 3.2.0

步骤：1,下载R-3.0.1.tar.gzhttp://cran.r-project.org/src/base/R-3/R-3.0.1.tar.gz2,解压$ tar -zxvf R-3.0.1.tar.gz$ cd R-3.0.13,编译（确保系统中安装了编译需要的包，如果没有安装，会报错。）$ ./configure4,安装$ make 这步

2015-05-21 08:42:26 2598

原创 R的交互式时间序列包dygraphs

1、 dygraphs 是一个开源的Javascript库，它可以产生一个可交互式的，可缩放的的曲线表。其可以用来显示大密度的数据集（比如股票，气温，等等），并且可以让用户来浏览和解释这个曲线图。2、 R中的时间序列格式有好多种，如ts, xts, zoo，但dygraphs只支持xts格式的。3、zoo作为时间序列的基础库，是面向通用的设计，可以用来定义股票数据，也可以分析天气数据。

2015-05-10 22:13:40 4101

原创 R语言绘制热图Heatmap

热图，适合二维数据表的可视化，数值用颜色显示。细活在于调颜色，给人感性的、辨识度高的认识。nba nba row.names(nba) nba nba_matrix nba_heatmap <- heatmap(nba_matrix, Rowv=NA, Colv=NA, col = topo.colors(16),scale="column", ma

2015-05-05 09:40:59 11978

原创星巴克全美门店数字地图显示

starbucks starbucks View(starbucks); #console显示正常，但view显示有乱码，没关系，数据可用head(starbuck,5)library("leafletR")datmap<-leaflet(dat,title="星巴克全美门店",popup="Brand")

2015-05-05 00:20:55 1179

偏微分方程的数值解法的MATLAB程序

空空如也