2015年04月_gjwang1983

转载 http://www.wangluqing.com/

http://www.wangluqing.com/

2015-04-29 14:35:20 962

原创互联网广告的基本概念

【摘要】简介Ad Network, Ad Exchange, DSP, SSP, Publisher, Advertiser/Agency,AudienceAdvertiser：广告主，指想为自己的品牌或者产品做广告的人。Publisher：媒体，提供广告位置的载体。Ad agency：广告代理商，帮广告主找媒体广告位，帮媒体找广告主。Audience：受众，“消费”广告的人，

2015-04-23 21:28:28 3934

原创读书笔记 | Targeted (Mike Smith)

IntroductionEverything we get from the Internet we get for free because others pay for it.1. The Congested Online Ecosystem一开始阐述在线广告发展的困难，不仅仅在于技术，人们对在线广告的质疑、对在线广告的认知程度不够。广告业务的本质是把吸引人的广

2015-04-22 17:18:49 833

原创 R语言 | 单元变量的数据可视化方法

Uni-variate data 一元变量的数据分析方法

2015-04-21 14:22:44 1914

转载 R语言 | 数据文件读写

原文地址：http://www.cnblogs.com/emanlee/archive/2012/12/04/2802352.htmlR语言数据储存与读取1 首先用getwd() 获得当前目录，用setwd("C:/data")设定当前目录 2 数据保存创建数据框d>d data.frame(obs = c(1, 2, 3), tre

2015-04-20 23:41:44 7287

原创 R语言 | 数据挖掘中的常用统计分析知识

F检验p值ChiSquare核密度函数

2015-04-20 20:10:57 1626

原创 R语言 | 关联规则

关联规则（AssociationRules）是无监督的机器学习方法，用于知识发现，而非预测。关联规则的学习器（learner）无需事先对训练数据进行打标签，因为无监督学习没有训练这个步骤。缺点是很难对关联规则学习器进行模型评估，一般都可以通过肉眼观测结果是否合理。关联规则主要用来发现Pattern，最经典的应用是购物篮分析，当然其他类似于购物篮交易数据的案例也可以应用关联规则进行模式发现。

2015-04-12 22:48:05 99887 33

转载 R语言自定义启动环境

平时做R开发时，每次启动R环境都会要加载很多package，甚是繁琐。最近学习《R in action》时，介绍了自定义R启动环境的方法。windows环境下，R启动时会到R_Home\etc目录下找Rprofile.site文件，其中“R_Home”指的是R安装目录，例如c:\R。可以用notepad等文本编辑器打开c:\R\etc\Rprofile.site，进行修改

2015-04-12 19:53:05 4512

原创 R语言 | 多元回归分析中的对照编码（contrast coding） | 第二节 deviation coding（偏差编码）

Deviation coding是一种contrast编码方式。因为采用该contrast的回归方程的回归系数之和等于0，又称作sum contrast。Deviation Coding的定义是每个Level的反应变量的均值(Mean_per_Level)与每个Level的反应变量的均值的均值(Grand_Mean)进行对比。参考dummy coding文中的例子。如下

2015-04-10 23:08:34 7950 2

原创 R语言 | 多元回归分析中的对照编码（contrast coding） | 第一节 dummy variable（哑变量）和 dummy coding

对于一个自变量是Categorical Factor的回归模型，需要为每个Level创建dummy variable。Contrast Matrix把每个Level映射到dummy variable的值。我们来看一个例子来感性认识下dummy variable和contrast matrix。> library(datasets)> str(ChickWeight)Clas

2015-04-10 21:24:39 24425 2

原创 Scala 排序算法的实现

Merge Sort import math.Ordering def mSort[T](a: List[T])(implicit ord: Ordering[T]): List[T] = { def merge(xs: List[T], ys: List[T]): List[T] = (xs, ys) match { case (Nil, ys) =

2015-04-08 11:03:35 1179

原创 R语言-地理信息数据

> data(world.cities)> world.cities[world.cities$country.etc=='China',]> map.cities(country = "China", capitals = 2)

2015-04-07 20:48:18 2633

原创 R语言-RJDBC连接Teradata

第一步：从Teradata官方网站现在JDBC driver第二步：把Driver放在一个目录下（我放在C:\JDBC）第三步：为R按照RJDBC packageinstall.packages("RJDBC")安装成功后，可以键入如下代码进行连接Teradata> library(RJDBC)> jdbc.drv> jdbc.conn

2015-04-07 20:47:23 3467 1

原创 R语言-内存管理

编程方法：通过rm删除变量，gc进行垃圾回收（不建议手动操作）xls()rm(x)gc()

2015-04-07 20:46:31 1245

原创 R语言-数据操作之排序

SQL SELECT x, yFROM table_1ORDER BY x, y DESCRorder(X, na.last=TRUE, decreasing=FALSE)返回值: X排好序的下标向量na.last 控制空值NA排在最前还是最后，默认最后desceasing 控制升序还是降序排列

2015-04-07 20:46:03 29949

原创 R语言-数据操作之选择

SQLSELECT *FROM tableWHERE a BETWEEN 1 AND 100R方法1：下标选取> A > A[1] 10 20 30 40 50 60 70 80 90> A[2][1] 20> A[2:4][1] 20 30 40> A[c(1,3,5)][1] 10 30 50> A[

2015-04-07 20:44:35 11110

原创 R语言的中文支持

Sys.setlocale(,"CHS")

2015-04-07 20:43:53 5625 1

原创 [ Hadoop | Spark | Scala ] 搭建 Scoobi 开发环境

Scoobi: An open source Scala library for Hadoop MapReduce. It combines the simplicity of functional programming with the strength of distributed data processing powered by Hadoop. It can dramatica

2015-04-01 11:11:21 1231

原创 [Spark | Yarn | Hadoop] Spark Submit over Yarn

I use pre built package of spark 1.0.2 for Hadoop 2.4.1edit conf/spark-env.shexport HADOOP_CONF_DIR="/apache/hadoop/conf"export YARN_CONF_DIR="/apache/hadoop/conf"export SPARK_LIBRARY_PATH="/a

2015-04-01 11:11:16 587

原创 [ Hadoop | MapReduce ] 使用 CompositeInputSplit 来提高Join效率

Map side join is the most efficient way. On Hadoop, between two large datasets, we can utilizeComposite Join to achieve this goal.

2015-04-01 11:09:12 915

I think so I am