自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(3)
  • 资源 (1)
  • 收藏
  • 关注

原创 Spark中Task not Serialize问题

1.问题原因   spark处理的数据单元为RDD,当我们对RDD做诸如map,filter等操作的时候,其执行是在excutor上完成的。但是,如果我们在driver中定义了一个变量,在map等操作中使用,则这个变量就要被分发到各个excutor,因为driver和excutor运行在不同的jvm中,势必会涉及到对象的序列化与反序列化,如果这个变量没法序列化就会报异常。(如果引用的对象可以序列...

2019-09-15 15:12:28 260

原创 组合数取模

1.逆元 a 和 m互质,a*x ≡ 1 (mod p),那么称x为a关于m的逆元。 费马小定理:假如p是质数,且gcd(a,p)=1,那么 a^(p-1) ≡ 1(mod p),则左右同时除以a,可以得到a的逆元为a^(p-2) 2.中国剩余定理 中国剩余定理给出了以下的一元线性同余方程组: 假设整数m1,m2, ... ,mn两两互质,则对任意的整数:a1,a

2017-11-25 15:22:58 295

原创 Centos7的ssh免密码登录

ssh为安全外壳协议。 因为hadoop需要登录到各个节点进行操作,每个节点都生成公钥,然后合并到authorized_keys (1)CentOS默认没有启动ssh无密登录,去掉/etc/ssh/sshd_config其中2行的注释,每台服务器都要设置, #RSAAuthentication yes #PubkeyAuthentication yes (2)输入命令,ssh-k

2015-12-24 11:54:27 4433

Spark高级数据分析(完整版)

这是一本实用手册,四位作者均是Cloudera公司的数据科学家,他们联袂展示了利用Spark进行大规模数据分析的若干模式,而且每个模式都自成一体。他们将Spark、统计学方法和真实数据集结合起来,通过实例向读者讲述了怎样解决分析型问题。   本书首先介绍了Spark及其生态系统,接着详细介绍了将分类、协同过滤及异常检查等常用技术应用于基因学、安全和金融领域的若干模式。如果你对机器学习和统计学有基本的了解,并且会用Java、Python或Scala编程,这些模式将有助于你开发自己的数据应用。

2017-10-15

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除