自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(38)
  • 资源 (1)
  • 收藏
  • 关注

原创 leafletR的几个注意

1、toGeoJSON挑字符格式乱码一定要清除掉,否则出差,尤其是互联网爬的数据,要用正则去处理。常用的清理方法如下:hp.df$loupanmingcheng<-gsub("[^a-zA-Z0-9\u4e00-\u9fa5]","",hp.df$loupanmingcheng);  #替换乱码;# [\u4e00-\u9fa5]  匹配汉字-汉字的正则表达式; [\a-zA-Z0

2015-06-23 11:11:03 1561

原创 用R语言的RCurl和正则表达式爬团购网的旅游团购数据

用R里的包Rcurl,代码如下url='http://beijing.lashou.com/travel/menpiao' # web=readLines(url,encoding='UTF-8'); #逐行读取网页源文件head(web,10);goods_namehead(goods_name,1)[1] "【马驹桥】皕富园农场"goods_name",go

2015-04-28 21:53:05 1167

转载 深度学习进行时间序列模式识别

思路:将时间序列转化为图像类似的格式,然后进行CNN识别。http://danielnouri.org/notes/2014/01/10/using-deep-learning-to-listen-for-whales/Using deep learning to listen for whalesJanuary 10, 2014 | categorie

2016-03-13 19:56:55 12082 1

原创 logistic回归和logic回归

logistic回归,正确的译法应该是 对数回归,其实就是对线性回归公式去对数之后进行。适合因变量是0/1的二值分布,推导是以误差的极大似然法来推导的,不是最小二乘法。logic回归,正确的译法应该是 逻辑回归,对于大多数变量是二项分布的情况。Logic regression is a (generalized) regression methodology that is

2016-02-15 17:41:04 6347

转载 机器学习实践中的7种常见错误

统计建模非常像工程学。在工程学中,有多种构建键-值存储系统的方式,每个设计都会构造一组不同的关于使用模式的假设集合。在统计建模中,有很多分类器构建算法,每个算法构造一组不同的关于数据的假设集合。当处理少量数据时,尝试尽可能多的算法,然后挑选最好的一个的做法是比较合理的,因为此时实验成本很低。但当遇到“大数据”时,提前分析数据,然后设计相应“管道”模型(预处理,建模,优化算法,评价,

2016-02-15 16:13:08 967 1

转载 利用Python进行机器学习和数据挖掘概述

前言:本文主要描述了使用Python进行数据挖掘业务的优势并介绍了相关的数据处理工具包pandas和机器学习算法库scikit-learn。为什么使用python进行数据分析?对很多人来说,Python是一种很容易让人喜爱的语言,自从1991年Python创始以来, Python已经是最受欢迎的动态编程语言之一,其他的类似语言还有Perl,Ruby等等,Python和Ruby变

2016-01-03 22:48:46 2502

原创 【学习】kudu、Impala、交互式查询

1、KuduHadoop生态系统发展到现在,存储层主要由HDFS和HBase两个系统把持着,一直没有太大突破。在追求高吞吐的批处理场景下,我们选用HDFS,在追求低延迟,有随机读写需求的场景下,我们选用HBase,那么是否存在一种系统,能结合两个系统优点,同时支持高吞吐率和低延迟呢?有人尝试修改HBase内核构造这样的系统,即保留HBase的数据模型,而将其底层存储部分改为纯列式存储(目前HB

2015-12-15 13:59:47 9610

转载 4步教你开发风控评分模型

2015-08-12 刘时斌 数信互融作者:刘时斌(数信互融研发负责人、联合创始人)企业公众号:数信互融“你的模型准么?”“你的模型真的有用么?”“你的模型对风控有价值么?”在为P2P公司建立风控评分模型过程中,这是最常见的问题。为了回答这一问题,我们想先讨论下如何从实际业务出发,以怎样的开发流程才能建立一个有效、有用

2015-11-10 08:14:18 3865

原创 Spark 1.5中数据科学的进展

还没来得及去跑,先记下来。spark 1.3  出来dataframespark 1.4  出来sparkRspark 1.5  出来机器学习的pipeline数据科学API之扩展在2015年,Spark研究的主要致力于加强大规模数据科学研究。其中主要包括这三大方面:DataFrame、机器学习流水线、R语言支持。这三个部分所新增的API均有效的

2015-10-08 08:46:23 580

原创 【D2】Python一周入门

Python中的4种基本类型:元组(Tuple)、列表(list)、集合(set)和字典(dict)。1、元组Python中的元组(Tuple)类似于Java中的数组,一旦创建了一个 tuple,就不能以任何方式改变它。这点与Python中的字符串类似,所以我们说元组和字符串都是不可变的序列。元组也支持索引和分片操作。定义一个元组使用一对小(圆)括号” ( ) “.>>> t1=(1,

2015-09-16 16:59:41 919

转载 用python写spark代码

How To Write Spark Applications in Pythonby Shahid AshrafMapReduce is a programming model and an associated implementation tool for processing and generating large data sets. Users specify

2015-09-14 11:13:07 3093

原创 RFM模型及R语言实现

一、基本概念根据美国数据库营销研究所Arthur Hughes的研究,客户数据库中有三个神奇的要素,这三个要素构成了数据分析最好的指标:最近一次消费(Recency)、消费频率(Frequency)、消费金额(Monetary)。 RFM模型:R(Recency)表示客户最近一次购买的时间有多远,F(Frequency)表示客户在最近一段时间内购买的次数,M  (Monetary)表示客户

2015-09-09 10:53:31 10687

原创 【学习】R语言中的并行计算:foreach,iterators, doParallel包

我个人的理解,这些包进行并行计算,有点类似控制编译器的并行开关,将数据、循环变量直接的依赖性进行开关设置。一、foreach包foreach包是revolutionanalytics公司贡献给R开源社区的一个包,它能使R中的并行计算更为方便。与sapply函数类似,foreach函数中的第一个参数是输入参数,%do%后面的对象表示运算函数,而.combine则表示运算结果的整合

2015-09-06 10:09:19 15095

原创 【学习】Hadoop、爬虫和Elasticsearch的企业级应用

一、Hadoop生态系统Hadoop利用大量廉价的计算机,提供了一个可扩展强,可靠性高的机制;并利用廉价的方式来存储大量数据。Hadoop把任务分成任务片,分布在数千台计算机上,从而进行快速分析,并分布式存储大量的数据。Hadoop还提供了新的和改进的分析技术,从而使大量结构化数据的复杂分析变为可能。Hadoop的数据进行分布式存储;在集群上备份多份数据,从而来提高可靠性和实用性;数据在哪

2015-08-18 09:58:49 2821

原创 excel文件,用read.xlsx别用read.csv了

read.csv,坑爹,老报错> a1=read.csv("communitty_add2.csv",sep=',',header=T,fileEncoding="UTF-8",encoding="UTF-8")Warning messages:1: In read.table(file = file, header = header, sep = sep, quote = quote

2015-08-07 09:00:11 14421 1

原创 【读书笔记】互联网广告综述之点击率特征工程

互联网广告综述之点击率特征工程 http://blog.csdn.net/mytestmy/article/details/19088827读书笔记:1、对特征的处理,无论是离散的(如性别,年龄),还是连续的(如点击率ctr),都采用虚拟化因子的思路,先把特征属性因子化,然后扩充为新的维度。2、缺失值的处理,也可以用虚拟化因子的方式来处理,如性别属性,采用3个因子:男、女、不详。

2015-07-30 09:38:31 1215

原创 R的启动顺序及执行文件

R的启动顺序R启动时的一系列过程(使用help(Startup)命令查看详细信息):如果没有在命令行中执行(--no-environ),R会搜索并执行站点文件(Rprofile.site)和用户文件(.Rprofile)。1.R执行Rprofile.site中的脚本。这个脚本文件是系统级的脚本,它允许系统管理员对默认选项进行自定义修改。该代码文件的完整路径为R_HOME

2015-07-14 12:02:38 2296

原创 SparkR后台进程的bug

【问题描述】当改动SparkR相关的配置文件(如./conf/hive-site.xml),或者使用sparkR.stop()之后,再使用SparkR,则报错如下:> head(a)Error in readTypedObject(con, type) :   Unsupported type for deserialization 【原因】:有改动,需要重启SparkR, 但

2015-07-14 09:28:54 633

原创 R语言的告警”条件的长度大于一,因此只能用其第一元素“的解决办法

告警:”条件的长度大于一,因此只能用其第一元素“原因:向量和标量的问题举例:> x<-seq(-2,2); # x是个长度为5的向量> x[1] -2 -1 0 1 2> if(x>0) 1 else 0 [1] 0Warning message: 如果x的长度>1,只使用x的第一个元素,x的第一个元素是-2,所以输出是0In if (x > 0) 1 els

2015-07-09 14:34:52 52389 4

原创 sapply与自定义函数配合使用

> a a.df> a.df  X1 X2 X3 X41  1  4  7 102  2  5  8 113  3  6  9 12> sapply(a.df, function(x,y) x+y+3, y=10)    #按列对第一个参数进行function计算,第一个参数a.df是4列,所以结果是4个结果,而且计算结果的列名用原来的列名     X1 X2

2015-07-09 09:54:14 4054

转载 体质评价常用的方法

一、离差法     离差法,是依据正态分布的原理,以大数量横剖面调查资料的平均数为基准值,以标准差为离散距,对某一体质指标进行分等评价的方法。离差法只适用于测试数据呈正态分布时。   (一)离差法划分评价等级的标准    传统的离差法划分评价等级的标准,一般以平均数加减1至3倍标准差划分五级,但存在着中等范围偏大(68.3%),与百分位数法制定评价等级的理论百分数不吻合等缺陷。为了克服

2015-07-08 11:30:12 5251

原创 SparkR跑通的函数(持续更新中...)

> a> head(a)> columns(a)      # 列出全部的列[1] "city"                      "housingname"               "ori_traffic_score"         "ori_traffic_score_normal"[5] "metro_station"             "metro

2015-07-06 17:40:39 2040 1

原创 SparkR 1.4.0 的安装及使用

1、./sparkR打开R shell之后,使用不了SparkR的函数[root@master sparkR]#./bin/sparkR能进入R,和没装SparkR的一样,无报错> library(SparkR)报错:Error in library.dynam(lib, package, package.lib) :   shared object ?.par

2015-06-25 13:27:04 2833

原创 networkD3包小试牛刀

力导向网络图这种图采用物理上的弹簧模型,将节点之间想象成是用弹簧连接的,然后把这些用弹簧连接的节点扔到桌面上,让这些弹簧自己弹啊弹,弹啊弹,最后总能停下来,达到一个平衡状态。这个状态下的节点连接图,能力最小,线和线之间的交叉最小。这种方法的学名叫spring-embedder 或者 force-directed。拖动中间的图里的任意节点,整个网络就会被拖动,并达到新的平衡位置。从图

2015-06-10 21:41:49 4844

原创 R中的因子变量及处理

定类的因子变量,可以利用哑变量(dummy variable),即0-1变量现将其转换为数值型的,再进行分析计算各属性的相关系数http://blog.csdn.net/jiabiao1602/article/details/42264853

2015-06-08 22:32:58 13467

原创 Rmysql的安装及乱码解决

1、安装mysql-devel mysql-lib,不装这个后面装Rmysql会报错# sudo yum install mysql-server mysql-devel mysql-lib2、报错,有冲突Transaction Check Error:  file /usr/bin/mysql from install of mysql-5.1.71-1.el6.x86_

2015-06-08 21:59:44 1017

原创 RJDBC读MYSQL数据库读不出内容问题及解决

1、RJDBC对字符比较挑,没有配置好,则读不出内容,都出的空表,问题解决如下加上这个?useUnicode=true&characterEncoding=UTF-8即可。library(RJDBC)drvconndbListTables(conn); #列出所有的数据表LF

2015-06-08 08:06:51 1973

原创 rstudio server包的安装位置

1、在rstudio窗口,查看库文件的路径> .libPaths()[1] "/home/enn_james/R/x86_64-unknown-linux-gnu-library/3.2" "/usr/local/lib64/R/library"其中”/usr/local/lib64/R/library”这一路径就是所有用户共享library的地方,因此想要让共享一个库只要将包安装到

2015-06-02 09:26:45 6290

原创 linux下不能画图的问题解决

Warning in grDevices:::png("/tmp/RtmpWTwF68/a0ee957a346f405dbc06815f37fd0971.png", : 本R版本不支持png01 Jun 2015 00:55:03 [rsession-enn_james] ERROR r error 4 (R code execution error) [errormsg=Error in

2015-06-01 14:55:36 11549

原创 centos 6.5下安装 rstudio server及问题解决

sudo yum install openssl098e

2015-05-26 13:12:18 2638

原创 centos 6.5下安装及使用shiny server

RStudio公司自己构建了R Shiny Application运行的平台(http://www.shinyapps.io/ ), 用户可以通过RStudio上面的工具把自己编写调试好的Shiny Application上传到shinyapps.io上去(这里需要先注册和设置些东西)。这样构建了一个云端的服务器。但是有时还是有必要自己去构建一个自己的Shiny 服务器,这样操作起来还是方便些。

2015-05-25 11:45:18 2486

原创 centos 6.5下安装rstudio server【总结】

(一)、几个前提条件:1、先安装R,如果是从源码安装的,需要用参数   --enable-R-shlib。2、安装RStudio是,会去找R的安装位置,默认的是  /usr/bin/R,或 /usr/local/bin/R,如果R装在其他位置,可能找不到,有问题。3、记得修改/etc/rstudio/rserver.conf配置文件指定R的目录,在rserver.conf中添加rs

2015-05-21 15:29:30 2530

原创 Centos下R语言的出错及解决(持续更新中)

(1)安装RODBC包不能直接在R下用 install.packages("RODBC")安装。前提条件是先要用YUM安装两个包:# yum install unixODBC # yum install unixODBC-devel

2015-05-21 14:55:18 729

原创 R中的高效批量处理函数(lapply sapply apply tapply mapply)

R语言提供了批量处理函数,可以循环遍历某个集合内的所有或部分元素,以简化操作。这些函数底层是通过C来实现的,所以效率也比手工遍历来的高效。批量处理函数有很重要的apply族函数:lapply sapply apply tapply mapply。apply族函数是高效能计算的运算向量化(Vectorization)实现方法之一,比起传统的for,while常常能获得更好的性能。   

2015-05-21 09:01:07 57629

原创 centos 6.5下安装R 3.2.0

步骤:1,下载R-3.0.1.tar.gzhttp://cran.r-project.org/src/base/R-3/R-3.0.1.tar.gz2,解压$ tar -zxvf R-3.0.1.tar.gz$ cd R-3.0.13,编译(确保系统中安装了编译需要的包,如果没有安装,会报错。)$ ./configure4,安装$ make 这步

2015-05-21 08:42:26 2503

原创 R的交互式时间序列包dygraphs

1、  dygraphs 是一个开源的Javascript库,它可以产生一个可交互式的,可缩放的的曲线表。其可以用来显示大密度的数据集(比如股票,气温,等等),并且可以让用户来浏览和解释这个曲线图。2、  R中的时间序列格式有好多种,如ts, xts, zoo,但dygraphs只支持xts格式的。3、zoo作为时间序列的基础库,是面向通用的设计,可以用来定义股票数据,也可以分析天气数据。

2015-05-10 22:13:40 3920

原创 R语言绘制热图Heatmap

热图,适合二维数据表的可视化,数值用颜色显示。细活在于调颜色,给人感性的、辨识度高的认识。nba nba row.names(nba) nba nba_matrix nba_heatmap <- heatmap(nba_matrix, Rowv=NA, Colv=NA, col = topo.colors(16),scale="column", ma

2015-05-05 09:40:59 11667

原创 星巴克全美门店数字地图显示

starbucks starbucks  View(starbucks); #console显示正常,但view显示有乱码,没关系,数据可用head(starbuck,5)library("leafletR")datmap<-leaflet(dat,title="星巴克全美门店",popup="Brand")

2015-05-05 00:20:55 1128

偏微分方程的数值解法的MATLAB程序

介绍了应用最为广泛的椭圆型、双曲型、抛物型偏微分方程的数值解法,而且还详细编程实现了每种方程的多种常见数值解法。 附件使用MATLAB编程来实现这些算法。

2008-12-09

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除