自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

bitcarmanlee的博客

专注算法与数据,正在计划写机器学习方面的数学书籍,有出版社的朋友请联系。微信1833133594...

转载 Spark集群概述

1.概述Spark 的”集群”不是提供运算服务的,而是一种资源分配的调度器。 执行任务的 Spark 进程作为客户端向”集群”申请资源(运算节点), “集群”分配资源以后, 这个 Spark 进程会分解一些计算工作,并把他们放到这些申请来的资源中运行。提交给 Spark 执行的工作称做 app...

2016-07-30 20:06:00 1443 0

原创 SVD 详解 与 spark实战

1.前言一般提到特征值分解(eigenvalue decomposition)或者奇异值分解(singular value decomposition),大多数同学脑海里的第一反应就是一大堆矩阵以及数学计算方法。确实,学校学习阶段,不管是学线性代数或者矩阵分析,对于这部分内容,或者说绝大部分内容,...

2016-07-29 19:47:59 24587 2

转载 理解矩阵

注:很经典的文章,写得通俗易懂,解释了一些平时不太关注但是突然问你一时半会还真答不上的问题。接着理解矩阵。上一篇里说“矩阵是运动的描述”,到现在为止,好像大家都还没什么意见。但是我相信早晚会有数学系出身的网友来拍板转。因为运动这个概念,在数学和物理里是跟微积分联系在一起的。我们学习微积分的时候,总...

2016-07-29 19:24:03 3476 1

转载 RDD,DataFrame与DataSet区别

1.RDD与DataFrame的区别 下面的图直观地体现了DataFrame和RDD的区别。左侧的RDD[Person]虽然以Person为类型参数,但Spark框架本身不了解Person类的内部结构。而右侧的DataFrame却提供了详细的结构信息,使得Spark SQL可以清楚地知道该数据集...

2016-07-29 14:45:26 4374 0

原创 spark配置IntelliJ开发环境详解

1.花一天半时间配置spark开发环境RD同学开发代码肯定需要开发环境。为了配置好spark的本地开发测试环境,宝宝前后花了一天半的时间。各种踩坑各种无奈各种崩溃。文章以下内容都是宝宝一天半时间的实践吐血总结。绝对值得同学们学习收藏。2.大坑eclipse不适合spark因为宝宝之前一直用的是ec...

2016-07-27 20:06:16 11165 0

原创 spark MetaException(message:Version information not found in metastore. )

尝试将spark与hive结合起来。将相关配置完毕以后,启动spark-sql的过程中,出现了以下错误:16/07/25 17:19:08 WARN metadata.Hive: Failed to access metastore. This class should not accessed ...

2016-07-25 17:29:01 5944 0

原创 mysql 修改root密码 修改账户登录host

1.忘了root密码远程服务器起了一个mysql服务,里有个hive账户,在远程服务器能通过命令行用mysql -hlocalhost -uxxx -pxxx的方式登录,但是用navicat客户端,怎么也登录不上,而且navicat显示的还是我自己机器的ip地址。初步怀疑,是mysql里的A账户密...

2016-07-25 16:50:34 7576 0

原创 scala 入门初探

看到有资料是如此介绍scala的:有python一样的开发效率,还有java一样的运行性能。看到这个介绍,本宝宝非常好奇,scala到底是怎样做到的。so,开始我们的scala之旅吧!1.scala环境的配置安装在之前的文章已经提到过,http://blog.csdn.net/bitcarmanl...

2016-07-24 17:33:01 1153 0

原创 spark sql 入门详解

1.spark sql简介spark sql是为了处理结构化数据的一个spark 模块。不同于spark rdd的基本API,spark sql接口更多关于数据结构本身与执行计划等更多信息。在spark内部,sql sql利用这些信息去更好地进行优化。有如下几种方式执行spark sql:SQL,...

2016-07-23 21:30:57 14202 0

原创 Apache Parquet 与Apache ORC简介

1.列存储的优势传统的 RDBMS 大多使用的行存储方式,现如今随着大数据技术的发展,对于存储的要求越来越高,列存储相对有自己明显的优势:列数据相对来说比较类似,压缩比更高;一般的查询只涉及几列,列存储的查询性能也更高;可以方便地新增列等。在某些场景下,选择列存储是非常不错的选择,从节省存储的角度...

2016-07-23 20:08:19 4028 0

原创 北美CS四大名校

1.北美CS方面三个梯队总体上讲Top 20的计算机方向可以分成三个梯队: 一、4个最为优秀的computer science Program是麻省理工大学MIT,斯坦福大学Stanford,加州伯克莱分校UC.Berkeley和卡奈基梅隆CMU。这四家基本没什么争议,得到大家的广泛认可。 ...

2016-07-23 13:36:40 33250 0

原创 历届图灵奖 (Turing award)得奖名单

Turing奖最早设立于1966年,是美国计算机协会在计算机技术方面所授予的最高奖项,被喻为计算机界的诺贝尔奖。它是以英国数学天才Alan Turing先生的名字命名的,Alan Turing先生对早期计算的理论和实践做出了突出的贡献。图灵奖主要授予在计算机技术领域做出突出贡献的个人,而这些贡献必...

2016-07-23 13:15:02 18552 1

转载 Spark与Pandas中DataFrame的详细对比

Pandas Spark 工作方式 单机single machine tool,没有并行机制parallelism 不支持Hadoop,处理大量数据有瓶颈 分布式并行计算框架,内建并行机制parallelism,所有的数据和操作自动并行分布在各个集群结点上。以处理in-memory数据的方式处理d...

2016-07-23 08:24:45 24468 1

原创 python lambda函数 与 函数式编程

1.lambda函数初探lambda函数又名匿名函数。顾名思义,匿名函数,那肯定就是没有函数名称啦。先看个最简单的例子: 先写个正常的函数:def f(x): return x+1很简单,不解释。如果写成lambda函数:g = lambda x:x+1 print g print g(...

2016-07-22 11:40:16 1221 0

原创 spark wordcount 实例

spark集群搭建完毕以后,自然需要来测试一下。大数据领域的第一个程序自然就是wordcount了,就好像我们新接触一门编码语言,第一个程序就是hello world一样。接下来,我们就尝试用各种方式在spark里实现wordcount。1.准备数据首先准备一个简单文件aaa,然后put到hdfs...

2016-07-21 18:18:35 6774 0

原创 spark 集群搭建 详细步骤

最近好不容易搞到了三台测试机,可以用来搭建spark集群搞模型。本宝宝开心得不行,赶紧行动,把spark集群搭起来,模型跑起来。1.搭建hadoop集群hadoop的hdfs文件系统是整个生态圈的基础,因为数据量大了以后,数据一般就都放hdfs上头了。因为四台测试机之前已经搭建好了hadoop集群...

2016-07-20 13:05:16 27005 0

原创 linux 删除乱码文件

新建文件或者保存文件时候,很容易输入乱码字符,导致最后生成的文件名中有各种奇怪符号。当文件名包含这些符号的时候,我们就无法通过键盘输入文件名,所以在终端下就不能直接利用rm,mv等命令管理文件了。但是我们知道每个文件都有一个i节点号,我们可以考虑通过i节点号来管理文件。首先,我们要取得文件的i节点...

2016-07-19 17:35:31 595 0

原创 mac 启用与关闭root账户

因为想修改一下etc下头的profile文件,想往里面添加一些配置项。发现这个文件默认的权限状况是-r–r–r–。用sudo的方式想编辑一下这个文件,也没法成功。好吧,宝宝只好使出终极绝招:切root。 上google查了查,发现mac没有root默认密码这么一说。因为,mac的root账户默认...

2016-07-18 23:52:34 9756 2

原创 向量范数与矩阵范数

1.范数(norm)的意义要更好的理解范数,就要从函数、几何与矩阵的角度去理解。 我们都知道,函数与几何图形往往是有对应的关系,这个很好想象,特别是在三维以下的空间内,函数是几何图像的数学概括,而几何图像是函数的高度形象化,比如一个函数对应几何空间上若干点组成的图形。 但当函数与几何超出三维空...

2016-07-18 20:35:26 52308 4

原创 SqlServer Convert函数 日期格式化

1.convert函数的作用sql中最常用的数据类型就是各种时间了。实际使用的时候,我们经常需要将各种时间转化为其他新的数据类型。这个时候就是轮到convert函数显示威力了。 convert() 函数是把日期转换为新数据类型的通用函数,同时,convert()函数可以用不同的格式显示时间或日期...

2016-07-18 19:53:42 5777 2

原创 NP-Hard问题浅谈

看相关算法的paper的时候,经常会出现NP-Hard这个词。本博主也不是纯数学系出身,对于这么高深的问题自然没有特别深入独到的理解。但是本博主的习惯就是看到一个东西老在眼前晃来晃去但自己还不是很明白,就有强迫症一定要搞明白这到底是个什么玩意。so,咱们就来看看这个NP-Hard问题,怎么用最简单...

2016-07-17 23:26:44 40476 5

转载 机器学习中的范数规则化之(一)L0、L1与L2范数

1.监督机器学习问题无非就是“minimizeyour error while regularizing your parameters”,也就是在规则化参数的同时最小化误差。最小化误差是为了让我们的模型拟合我们的训练数据,而规则化参数是防止我们的模型过分拟合我们的训练数据。多么简约的哲学啊!因为...

2016-07-17 13:47:33 2536 0

原创 hive lateral view 与 explode详解

1.explodehive wiki对于expolde的解释如下:explode() takes in an array (or a map) as an input and outputs the elements of the array (map) as separate rows. UDT...

2016-07-16 21:28:14 81422 0

原创 python 科学计算 发行版 Anaconda安装使用教程

1.原生python的不方便作为一个数据与算法工作者,python的使用频率很高。现阶段python做科学计算的标配是numpy+scipy+matplotlib+sklearn+pandas。可惜的是,原生的python是不带这些包的。于是,每次遇到一个新机器,需要安装这些包。更可气的是,昨晚本...

2016-07-15 14:41:10 49258 2

原创 次导数 次梯度 小结

1.导数(Derivative)的定义在说次梯度之前,需要先简单介绍一下导数的概念与定义。导数(英语:Derivative)是微积分学中重要的基础概念。一个函数在某一点的导数描述了这个函数在这一点附近的变化率。导数的本质是通过极限的概念对函数进行局部的线性逼近。 对于一般的函数f(x)f(x),...

2016-07-13 11:17:25 12031 3

原创 java 中== equals hashcode源码剖析

1.==java中的==操作,比较的是两个对象的内存地址。如果两个对象的内存地址一致,则返回true。否则返回false。看一个简单的测试代码:public static void test() { String s1 = "abc"; String s2 = ...

2016-07-12 12:02:14 632 0

转载 Hadoop-Streaming实战经验及问题解决方法总结

看到一篇不错的Hadoop-Streaming实战经验的文章,里面有大部分的情景都是自己实战中曾经遇到过的。特意转载过来,感谢有心人的总结。目录 Join操作分清join的类型很重要… 启动程序中key字段和partition字段的设定… 控制hadoop程序内存的方法… 对于数字key的排序问题...

2016-07-11 18:01:02 3385 0

原创 hadoop streaming 按字段排序与输出分割详解

1.默认情况在hadoop streaming的默认情况下,是以”\t”作为分隔符的。对于标准输入来说,每行的第一个”\t” 以前的部分为key,其他部分为对应的value。如果一个”\t”字符没有,则整行都被当做key。这个2.map阶段的sort与partitionmap阶段很重要的阶段包括s...

2016-07-11 16:13:37 9197 0

转载 程序中减少使用if语句的方法集锦

原文链接:http://code.joejag.com/2016/anti-if-the-missing-patterns.html 翻译: 孙薇 责编: 钱曙光,关注架构和算法领域大约十年前,我听说了反if的活动,觉得这个概念非常荒谬。如果不用if语句,又怎么能写出有用的程序呢?这简直太荒...

2016-07-11 11:20:54 3882 0

原创 eclipse一些实用小技巧

IDE是我们最常用的工具之一。熟练运用好工具,能很大程度提到生产率。为此,本博主特意将一些遇到的实用的能极大提高生产率的小技巧记录如下。后续会不断补充更新。1.高亮匹配大括号对于c++代码或者java代码,或者说一切使用大括号的代码,大括号的匹配实在是一个很挠头的问题(python表示笑了,谁特么...

2016-07-09 19:48:06 1666 0

原创 hadoop 用MR实现join操作

在MR中,类似于join类的操作非常常见。在关系型数据库中,join就是最强大的功能之一。在hive中,jion操作也十分常见。现在,本博主就手把手教会大家怎么在MR中实现join操作。为了方便起见,本文就以left join为视角来实现。1.数据准备关于什么是join,什么是left join,...

2016-07-08 19:05:04 5735 0

原创 redis 实战系列二:用python操作redis集群

python是搞数据同学的不二选择。因此面对redis集群,自然就想到怎么用python去操作redis集群了。1.python的redis模块无法操作redis集群之前用python里的redis模块操作过redis实例。但redis模块操作的不是redis集群,不知道能否实现操作集群的功能。写...

2016-07-07 16:14:53 27040 6

原创 redis 实战系列(一)

最近新接手的项目,要把数据最终推到线上的reids集群里。正好趁着这次项目的机会,彻底梳理一下redis相关的东东。个人观点是:凡是与数据相关的项目,实践性都特别强。对于这种特点的内容,我遵循的学习原则是先搞明白what,即搞清楚这东西到底是个什么鬼,有什么用。接下来就是how,即搞清楚这个东东怎...

2016-07-07 15:16:09 1645 0

原创 归并排序 详解

1.归并排序简要介绍归并排序是建立在归并操作上的一种有效的排序算法。该算法是采用分治法(Divide and Conquer)的一个非常典型的应用,归并排序将两个已排序的表合并成一个表。2.归并排序优缺点优点 1.归并排序的效率达到了巅峰:时间复杂度为O(nlogn),这是基于比较的排序算法所能...

2016-07-05 19:46:02 658 0

原创 python 爬虫 爬取糗事百科段子

在网络上看到有介绍python爬虫爬去糗事百科段子的文章,觉得还挺好玩的,所以照着文章的思路自己重新实现了代码,完成了一个小小的爬虫爬取数据的例子。1.抓取页面的源码首先我们确定好页面的URL是 http://www.qiushibaike.com/hot/page/1,其中最后一个数字1代表页数...

2016-07-04 22:03:46 6015 1

原创 各大IT公司经典面试题总结

1.两圆相切问题一个小圆半径是1厘米,一个大圆半径是5厘米,小圆沿着大圆转圈,请问要转几圈可以转完大圈? 解答:如果大圆小圆的半径为多少,外切转圈需要(R/r)+1圈,内切需要(R/r)-1圈。所以,本题的答案是6。

2016-07-04 18:59:26 3528 0

原创 递归 非递归 遍历二叉树

二叉树的重要性,想必大家都非常清楚。在数据结构中,二叉树是一种非常重要,也非常基础的非线性结构。遍历是二叉树最基础也是最重要的操作了。最常见的分为前序遍历,中序遍历,后续遍历。废话不多说,先直接上代码。package tree;import java.util.ArrayList; import ...

2016-07-04 18:16:34 655 0

原创 mac 下安装pip

pip是常用的python包管理工具,类似于java的maven。用python的同学,都离不开pip。 在新mac中想用home-brew安装pip时,遇到了一些小问题:bogon:~ wanglei$ brew install pip Error: No available formula ...

2016-07-03 22:30:50 103283 14

提示
确定要删除当前文章?
取消 删除