bitcarmanlee的博客

专注算法与数据,正在计划写机器学习方面的数学书籍,有出版社的朋友请联系。微信1833133594...

Spark集群概述

1.概述Spark 的”集群”不是提供运算服务的,而是一种资源分配的调度器。 执行任务的 Spark 进程作为客户端向”集群”申请资源(运算节点), “集群”分配资源以后, 这个 Spark 进程会分解一些计算工作,并把他们放到这些申请来的资源中运行。提交给 Spark 执行的工作称做 app...

2016-07-30 20:06:00

阅读数 1284

评论数 0

SVD 详解 与 spark实战

1.前言一般提到特征值分解(eigenvalue decomposition)或者奇异值分解(singular value decomposition),大多数同学脑海里的第一反应就是一大堆矩阵以及数学计算方法。确实,学校学习阶段,不管是学线性代数或者矩阵分析,对于这部分内容,或者说绝大部分内容,...

2016-07-29 19:47:59

阅读数 20817

评论数 1

理解矩阵

注:很经典的文章,写得通俗易懂,解释了一些平时不太关注但是突然问你一时半会还真答不上的问题。接着理解矩阵。上一篇里说“矩阵是运动的描述”,到现在为止,好像大家都还没什么意见。但是我相信早晚会有数学系出身的网友来拍板转。因为运动这个概念,在数学和物理里是跟微积分联系在一起的。我们学习微积分的时候,总...

2016-07-29 19:24:03

阅读数 2851

评论数 1

RDD,DataFrame与DataSet区别

1.RDD与DataFrame的区别 下面的图直观地体现了DataFrame和RDD的区别。左侧的RDD[Person]虽然以Person为类型参数,但Spark框架本身不了解Person类的内部结构。而右侧的DataFrame却提供了详细的结构信息,使得Spark SQL可以清楚地知道该数据集...

2016-07-29 14:45:26

阅读数 3991

评论数 0

spark配置IntelliJ开发环境详解

1.花一天半时间配置spark开发环境RD同学开发代码肯定需要开发环境。为了配置好spark的本地开发测试环境,宝宝前后花了一天半的时间。各种踩坑各种无奈各种崩溃。文章以下内容都是宝宝一天半时间的实践吐血总结。绝对值得同学们学习收藏。2.大坑eclipse不适合spark因为宝宝之前一直用的是ec...

2016-07-27 20:06:16

阅读数 9677

评论数 0

spark MetaException(message:Version information not found in metastore. )

尝试将spark与hive结合起来。将相关配置完毕以后,启动spark-sql的过程中,出现了以下错误:16/07/25 17:19:08 WARN metadata.Hive: Failed to access metastore. This class should not accessed ...

2016-07-25 17:29:01

阅读数 5415

评论数 0

mysql 修改root密码 修改账户登录host

1.忘了root密码远程服务器起了一个mysql服务,里有个hive账户,在远程服务器能通过命令行用mysql -hlocalhost -uxxx -pxxx的方式登录,但是用navicat客户端,怎么也登录不上,而且navicat显示的还是我自己机器的ip地址。初步怀疑,是mysql里的A账户密...

2016-07-25 16:50:34

阅读数 6709

评论数 0

scala 入门初探

看到有资料是如此介绍scala的:有python一样的开发效率,还有java一样的运行性能。看到这个介绍,本宝宝非常好奇,scala到底是怎样做到的。so,开始我们的scala之旅吧!1.scala环境的配置安装在之前的文章已经提到过,http://blog.csdn.net/bitcarmanl...

2016-07-24 17:33:01

阅读数 1092

评论数 0

spark sql 入门详解

1.spark sql简介spark sql是为了处理结构化数据的一个spark 模块。不同于spark rdd的基本API,spark sql接口更多关于数据结构本身与执行计划等更多信息。在spark内部,sql sql利用这些信息去更好地进行优化。有如下几种方式执行spark sql:SQL,...

2016-07-23 21:30:57

阅读数 12943

评论数 1

Apache Parquet 与Apache ORC简介

1.列存储的优势传统的 RDBMS 大多使用的行存储方式,现如今随着大数据技术的发展,对于存储的要求越来越高,列存储相对有自己明显的优势:列数据相对来说比较类似,压缩比更高;一般的查询只涉及几列,列存储的查询性能也更高;可以方便地新增列等。在某些场景下,选择列存储是非常不错的选择,从节省存储的角度...

2016-07-23 20:08:19

阅读数 3178

评论数 0

北美CS四大名校

1.北美CS方面三个梯队总体上讲Top 20的计算机方向可以分成三个梯队: 一、4个最为优秀的computer science Program是麻省理工大学MIT,斯坦福大学Stanford,加州伯克莱分校UC.Berkeley和卡奈基梅隆CMU。这四家基本没什么争议,得到大家的广泛认可。 ...

2016-07-23 13:36:40

阅读数 24965

评论数 0

历届图灵奖 (Turing award)得奖名单

Turing奖最早设立于1966年,是美国计算机协会在计算机技术方面所授予的最高奖项,被喻为计算机界的诺贝尔奖。它是以英国数学天才Alan Turing先生的名字命名的,Alan Turing先生对早期计算的理论和实践做出了突出的贡献。图灵奖主要授予在计算机技术领域做出突出贡献的个人,而这些贡献必...

2016-07-23 13:15:02

阅读数 12306

评论数 0

Spark与Pandas中DataFrame的详细对比

Pandas Spark 工作方式 单机single machine tool,没有并行机制parallelism 不支持Hadoop,处理大量数据有瓶颈 分布式并行计算框架,内建并行机制parallelism,所有的数据和操作自动并行分布在各个集群结点上。以处理in-memory数据的方式处理d...

2016-07-23 08:24:45

阅读数 22338

评论数 1

python lambda函数 与 函数式编程

1.lambda函数初探lambda函数又名匿名函数。顾名思义,匿名函数,那肯定就是没有函数名称啦。先看个最简单的例子: 先写个正常的函数:def f(x): return x+1很简单,不解释。如果写成lambda函数:g = lambda x:x+1 print g print g(...

2016-07-22 11:40:16

阅读数 927

评论数 0

spark wordcount 实例

spark集群搭建完毕以后,自然需要来测试一下。大数据领域的第一个程序自然就是wordcount了,就好像我们新接触一门编码语言,第一个程序就是hello world一样。接下来,我们就尝试用各种方式在spark里实现wordcount。1.准备数据首先准备一个简单文件aaa,然后put到hdfs...

2016-07-21 18:18:35

阅读数 6212

评论数 0

spark 集群搭建 详细步骤

最近好不容易搞到了三台测试机,可以用来搭建spark集群搞模型。本宝宝开心得不行,赶紧行动,把spark集群搭起来,模型跑起来。1.搭建hadoop集群hadoop的hdfs文件系统是整个生态圈的基础,因为数据量大了以后,数据一般就都放hdfs上头了。因为四台测试机之前已经搭建好了hadoop集群...

2016-07-20 13:05:16

阅读数 21604

评论数 0

linux 删除乱码文件

新建文件或者保存文件时候,很容易输入乱码字符,导致最后生成的文件名中有各种奇怪符号。当文件名包含这些符号的时候,我们就无法通过键盘输入文件名,所以在终端下就不能直接利用rm,mv等命令管理文件了。但是我们知道每个文件都有一个i节点号,我们可以考虑通过i节点号来管理文件。首先,我们要取得文件的i节点...

2016-07-19 17:35:31

阅读数 513

评论数 0

mac 启用与关闭root账户

因为想修改一下etc下头的profile文件,想往里面添加一些配置项。发现这个文件默认的权限状况是-r–r–r–。用sudo的方式想编辑一下这个文件,也没法成功。好吧,宝宝只好使出终极绝招:切root。 上google查了查,发现mac没有root默认密码这么一说。因为,mac的root账户默认...

2016-07-18 23:52:34

阅读数 8802

评论数 2

向量范数与矩阵范数

1.范数(norm)的意义要更好的理解范数,就要从函数、几何与矩阵的角度去理解。 我们都知道,函数与几何图形往往是有对应的关系,这个很好想象,特别是在三维以下的空间内,函数是几何图像的数学概括,而几何图像是函数的高度形象化,比如一个函数对应几何空间上若干点组成的图形。 但当函数与几何超出三维空...

2016-07-18 20:35:26

阅读数 46329

评论数 4

SqlServer Convert函数 日期格式化

1.convert函数的作用sql中最常用的数据类型就是各种时间了。实际使用的时候,我们经常需要将各种时间转化为其他新的数据类型。这个时候就是轮到convert函数显示威力了。 convert() 函数是把日期转换为新数据类型的通用函数,同时,convert()函数可以用不同的格式显示时间或日期...

2016-07-18 19:53:42

阅读数 4463

评论数 2

提示
确定要删除当前文章?
取消 删除
关闭
关闭