leafletR的几个注意

1、toGeoJSON挑字符格式 乱码一定要清除掉,否则出差,尤其是互联网爬的数据,要用正则去处理。常用的清理方法如下: hp.df$loupanmingcheng<-gsub("[^a-zA-Z0-9\u4e00-\u9fa5]","",hp.d...

2015-06-23 11:11:03

阅读数 1330

评论数 0

用R语言的RCurl和正则表达式爬团购网的旅游团购数据

用R里的包Rcurl,代码如下 url='http://beijing.lashou.com/travel/menpiao' # web=readLines(url,encoding='UTF-8'); #逐行读取网页源文件 head(web,10); goods_name head(goo...

2015-04-28 21:53:05

阅读数 960

评论数 0

深度学习进行时间序列模式识别

思路:将时间序列转化为图像类似的格式,然后进行CNN识别。 http://danielnouri.org/notes/2014/01/10/using-deep-learning-to-listen-for-whales/ Using deep learning to listen f...

2016-03-13 19:56:55

阅读数 7222

评论数 0

logistic回归和logic回归

logistic回归,正确的译法应该是 对数回归,其实就是对线性回归公式去对数之后进行。 适合因变量是0/1的二值分布,推导是以误差的极大似然法来推导的,不是最小二乘法。 logic回归,正确的译法应该是 逻辑回归,对于大多数变量是二项分布的情况。 Logic regression ...

2016-02-15 17:41:04

阅读数 2809

评论数 0

机器学习实践中的7种常见错误

统计建模非常像工程学。 在工程学中,有多种构建键-值存储系统的方式,每个设计都会构造一组不同的关于使用模式的假设集合。在统计建模中,有很多分类器构建算法,每个算法构造一组不同的关于数据的假设集合。 当处理少量数据时,尝试尽可能多的算法,然后挑选最好的一个的做法是比较合理的,因为此时实验...

2016-02-15 16:13:08

阅读数 646

评论数 1

利用Python进行机器学习和数据挖掘概述

前言: 本文主要描述了使用Python进行数据挖掘业务的优势并介绍了相关的数据处理工具包pandas和机器学习算法库scikit-learn。 为什么使用python进行数据分析? 对很多人来说,Python是一种很容易让人喜爱的语言,自从1991年Python创始以来, Pytho...

2016-01-03 22:48:46

阅读数 1700

评论数 0

【学习】kudu、Impala、交互式查询

1、Kudu Hadoop生态系统发展到现在,存储层主要由HDFS和HBase两个系统把持着,一直没有太大突破。在追求高吞吐的批处理场景下,我们选用HDFS,在追求低延迟,有随机读写需求的场景下,我们选用HBase,那么是否存在一种系统,能结合两个系统优点,同时支持高吞吐率和低延迟呢?有人尝试修...

2015-12-15 13:59:47

阅读数 6941

评论数 0

4步教你开发风控评分模型

2015-08-12 刘时斌 数信互融 作者:刘时斌(数信互融研发负责人、联合创始人) 企业公众号:数信互融 “你的模型准么?” “你的模型真的有用么?” “你的模型对风控有价值么?” 在为P2P公司建立风控评分模型过程中,这是最...

2015-11-10 08:14:18

阅读数 2807

评论数 0

Spark 1.5中数据科学的进展

还没来得及去跑,先记下来。 spark 1.3  出来dataframe spark 1.4  出来sparkR spark 1.5  出来机器学习的pipeline 数据科学API之扩展 在2015年,Spark研究的主要致力于加强大规模数据科学研究。其...

2015-10-08 08:46:23

阅读数 459

评论数 0

【D2】Python一周入门

Python中的4种基本类型:元组(Tuple)、列表(list)、集合(set)和字典(dict)。 1、元组 Python中的元组(Tuple)类似于Java中的数组,一旦创建了一个 tuple,就不能以任何方式改变它。这点与Python中的字符串类似,所以我们说元组和字符串都是不可变的序列。...

2015-09-16 16:59:41

阅读数 701

评论数 0

用python写spark代码

How To Write Spark Applications in Python by Shahid Ashraf MapReduce is a programming model and an associated implementation tool for process...

2015-09-14 11:13:07

阅读数 1992

评论数 0

RFM模型及R语言实现

一、基本概念 根据美国数据库营销研究所Arthur Hughes的研究,客户数据库中有三个神奇的要素,这三个要素构成了数据分析最好的指标:最近一次消费(Recency)、消费频率(Frequency)、消费金额(Monetary)。  RFM模型:R(Recency)表示客户最近一次购买的时间有多...

2015-09-09 10:53:31

阅读数 7507

评论数 0

【学习】R语言中的并行计算:foreach,iterators, doParallel包

我个人的理解,这些包进行并行计算,有点类似控制编译器的并行开关,将数据、循环变量直接的依赖性进行开关设置。 一、foreach包 foreach包是revolutionanalytics公司贡献给R开源社区的一个包,它能使R中的并行计算更为方便。 与sapply函数类似,foreach函数中的...

2015-09-06 10:09:19

阅读数 6153

评论数 0

【学习】Hadoop、爬虫和Elasticsearch的企业级应用

一、Hadoop生态系统 Hadoop利用大量廉价的计算机,提供了一个可扩展强,可靠性高的机制;并利用廉价的方式来存储大量数据。Hadoop把任务分成任务片,分布在数千台计算机上,从而进行快速分析,并分布式存储大量的数据。Hadoop还提供了新的和改进的分析技术,从而使大量结构化数据的复杂分析变为...

2015-08-18 09:58:49

阅读数 2200

评论数 0

excel文件,用read.xlsx别用read.csv了

read.csv,坑爹,老报错 > a1=read.csv("communitty_add2.csv",sep=',',header=T,fileEncoding="UTF-8",encoding="UTF-8") Warning...

2015-08-07 09:00:11

阅读数 6559

评论数 0

【读书笔记】互联网广告综述之点击率特征工程

互联网广告综述之点击率特征工程 http://blog.csdn.net/mytestmy/article/details/19088827 读书笔记: 1、对特征的处理,无论是离散的(如性别,年龄),还是连续的(如点击率ctr),都采用虚拟化因子的思路,先把特征属性因子化,然后扩充为新的...

2015-07-30 09:38:31

阅读数 925

评论数 0

R的启动顺序及执行文件

R的启动顺序 R启动时的一系列过程(使用help(Startup)命令查看详细信息): 如果没有在命令行中执行(--no-environ),R会搜索并执行站点文件(Rprofile.site)和用户文件(.Rprofile)。 1.R执行Rprofile.site中的脚本。这个脚...

2015-07-14 12:02:38

阅读数 1421

评论数 0

SparkR后台进程的bug

【问题描述】当改动SparkR相关的配置文件(如./conf/hive-site.xml),或者使用sparkR.stop()之后,再使用SparkR,则报错如下: > head(a) Error in readTypedObject(con, type) :   Unsupport...

2015-07-14 09:28:54

阅读数 479

评论数 0

R语言的告警”条件的长度大于一,因此只能用其第一元素“的解决办法

告警:”条件的长度大于一,因此只能用其第一元素“ 原因:向量和标量的问题 举例: > x<-seq(-2,2); # x是个长度为5的向量 > x [1] -2 -1 0 1 2 > if(x>0) 1 else 0 [1] 0 Warning ...

2015-07-09 14:34:52

阅读数 11455

评论数 1

sapply与自定义函数配合使用

> a a.df > a.df   X1 X2 X3 X4 1  1  4  7 10 2  2  5  8 11 3  3  6  9 12 > sapply(a.df, function(x,y) x+y+3, y=10)    #按列对第一个参数进行function计算...

2015-07-09 09:54:14

阅读数 1642

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭