2016年07月_小丁丁_ddxdd

转载 Spark-Hadoop、Hive、Spark 之间是什么关系？

http://mp.weixin.qq.com/s?__biz=MzAwNzIzMDY5OA==&mid=2651424131&idx=1&sn=ae80ad83c3c2f16d406a03e9b47f44ca&scene=5&srcid=07309uszQbKFaBJxnKSwVRul#rd大数据本身是个很宽泛的概念，Hadoop生态圈(或者泛生态圈)基本上都是为了处理超过单机尺度的

2016-07-31 00:23:56 4635

转载机器学习系列：（一）机器学习基础

http://mp.weixin.qq.com/s?__biz=MjM5MzM4Mjc4MQ==&mid=2652420890&idx=1&sn=e5405e1e28dcaf47b5b81684f0e0aa6b&scene=5&srcid=0719X3jEIVjg0drO6GKoLJkr#rd 本章我们简要介绍下机器学习（Machine Learning）的基本概念。主要介绍机器学习算法的应

2016-07-29 09:26:50 439

转载 spark-机器学习及SparkMLlib简介

1、机器学习概念1.1 机器学习的定义在维基百科上对机器学习提出以下几种定义：l“机器学习是一门人工智能的科学，该领域的主要研究对象是人工智能，特别是如何在经验学习中改善具体算法的性能”。l“机器学习是对能通过经验自动改进的计算机算法的研究”。l“机器学习是用数据或以往的经验，以此优化计算机程序的性能标准。” 一种经常引用的英文定义是：A

2016-07-27 23:38:45 2569

转载 R语言-ggplot qplot作图

转载地址：https://www.douban.com/note/210758237/qplot()函数的详细用法：library(ggplot2)# 测试数据集，ggplot2内置的钻石数据qplot(carat, price, data = diamonds)dsmall #1. 按color,size,shape的基本分类可视化

2016-07-24 23:18:51 5193 1

原创 excel-常用函数

--------经过判断后的匹配函数=IF(ISERROR(VLOOKUP(B5,V:X,3,FALSE)),"-",VLOOKUP(B5,V:X,3,FALSE))-------根据8位日期取XXXX年第XX月=LEFT(L2,4)&"年第"&MID(L2,5,2)&"月"--------smartBI 取参数值取参数值=SSR_GetParamDisplayValu

2016-07-23 00:01:15 726

转载 Linux-shell常用时间格式

#获取昨天日期 yyyyMMdd 格式 yesterday=`date --date='1 days ago' +%Y%m%d` #获取昨天日期 yyyy-MM-dd 格式 yesterday2=`date --date='1 days ago' +%Y-%m-%d` #获取今天日期 yyyyMMdd 格式 today=`date --date='0 days

2016-07-22 23:28:48 4654

转载 sparkR-入门知识

一、sparkR的简介SparkR是一个R语言包，它提供了轻量级的方式使得可以在R语言中使用Apache Spark。在Spark 1.4中，SparkR实现了分布式的data frame，支持类似查询、过滤以及聚合的操作（类似于R中的data frames：dplyr)，但是这个可以操作大规模的数据集。二、使用spark的两种方式1.在sparkR的she

2016-07-09 18:55:29 5650 1

转载 Spark-Spark及其生态圈简介

来源：http://www.cnblogs.com/shishanyuan/p/4700615.html1、简介1.1 Spark简介Spark是加州大学伯克利分校AMP实验室（Algorithms, Machines, and People Lab）开发通用内存并行计算框架。Spark在2013年6月进入Apache成为孵化项目，8个月后成为Apache顶级项目，速度之快足见过人之处

2016-07-09 17:15:28 1854

转载原理-关联FP Growth算法

转载地址：http://liyonghui160com.iteye.com/blog/2086033FP树构造FP Growth算法利用了巧妙的数据结构，大大降低了Aproir挖掘算法的代价，他不需要不断得生成候选项目队列和不断得扫描整个数据库进行比对。为了达到这样的效果，它采用了一种简洁的数据结构，叫做frequent-pattern tree(频繁模式树)。下

2016-07-06 23:47:49 1229

转载 hive-导入数据的方式

来源：http://gaoxianwei.iteye.com/blog/21584691.从本地文件系统中导入数据到hive表（1）数据准备（/home/sopdm/test.dat）： 1,wyp,25,13188888888 2,test,30,13899999999 3,zs,34,89931412 （2）首先创建表use sopdm;drop

2016-07-06 23:18:24 487

转载 hive-导出数据的方式

1.拷贝文件如果数据文件恰好是用户需要的格式，那么只需要拷贝文件或文件夹就可以。hadoop fs –cp source_path target_path 2.导出到本地文件系统 --不能使用insert into local directory来导出数据，会报错--只能使用insert overwrite local directory来导出数据 --h

2016-07-04 23:08:51 454

转载 ppt-配色

来源：http://www.wzsky.net/html/Website/Color/117958_2.html

2016-07-03 20:38:09 539

转载期货业-期货市场的产生

来源：http://futures.hexun.com/help/default.html#pagetop一、期货交易的起源期货市场最早萌芽于欧洲。早在古希腊和古罗马时期，就出现过中央交易场所、大宗易货交易，以及带有期货贸易性质的交易活动。当时的罗马议会大厦广场、雅典的大交易市场就曾是这样的中心交易场所。到12世纪，这种交易方式在英、法等国的发展规模很大，专业化程度也很高。 1

2016-07-02 23:41:43 940

智慧与美貌并存