关闭

[置顶] Spark 基础学习第一讲:弹性分布式数据集RDD

引子 part1为什么要引入RDD part2RDD是什么 1 基本概念 2 关于容错 3 每个RDD有5个主要的属性 31 RDD要素之一partition 32 RDD要素之二函数 33 RDD要素之三依赖关系自动容错 34 RDD要素之四partitioner 35 RDD要素之五本地存储优化 Part3RDD在底层是如何实现的 1 RDD底层实现原理 2 RDD的逻辑与物理架构 3数据与计算...
阅读(611) 评论(0)

SFTP连接失败问题解决小tips

前几天安装了jumpserver之后,sftp服务莫名奇妙的挂了,也不知道是不是这方面的原因。vsftpd服务检查没有问题。 防火墙端口配置检查没有问题。 端口监听检查没有问题。我们知道SFTP走的是SSH的端口,服务器端运行sshd的服务,通过使用SSH,可以把所有传输的数据进行加密。所以,我们需要检查一下sshd相关的配置。所以我们试试查看一下配置文件/etc/ssh/sshd_config...
阅读(9) 评论(0)

Spark集群硬件配置参考

Spark集群硬件配置参考标签(空格分隔): Spark硬件配置Spark开发人员面临的最常见一个问题就是集群的配置硬件。一般来说,合理的硬件配置取决于自身的实际情况,我们只能从以下几个方面提出建议。存储系统大部分的Spark作业会从外部存储系统(比如Hadoop文件系统或者Hbase)读取输入数据,因此将其与存储系统放得越近越好,我们给出如下建议:如果可能的话,在与HDFS相同的节点上运行Spar...
阅读(65) 评论(0)

GC思维导图

从网上收集了一些资料,做了一个GC的思维导图,简要介绍一下集中垃圾回收器。...
阅读(104) 评论(0)

通过Thrift Server使用JDBC来运行Spark SQL

通过Thrift Server使用JDBC来运行Spark SQL标签(空格分隔): thriftserver jdbc sparkSQL更新记录初始发布:2017-09-19 第一次更新:xxx简介Thrift JDBC/ODBC Server (简称 Spark Thrift Server 或者 STS)是Spark SQL的Apache Hive HiveServer2的端口,通过这个端口可...
阅读(240) 评论(0)

使用Python一步步实现PCA算法

使用Python一步步实现PCA算法标签: PCA Python本文原地址为: http://sebastianraschka.com/Articles/2014_pca_step_by_step.html Implementing a Principal Component Analysis (PCA) – in Python, step by step Apr 13, 2014 by...
阅读(371) 评论(0)

Scala版本冲突--java.lang.NoSuchMethodError:scala.collection.immutable.HashSet$.empty()Lscala/collection/

问题描述Run 代码的时候报错Exception in thread "main" java.lang.NoSuchMethodError:scala.collection.immutable.HashSet$.empty()Lscala/collection/immutable/HashSet;解决办法 将Scala2.11.x更换为Scala2.10.x 操作如下: File –> Ot...
阅读(396) 评论(1)

将CentOS系统软件包yum源更新为阿里云

第一步,备份老的yum源mv /etc/yum.repos.d/CentOS-Base.repo /etc/yum.repos.d/CentOS-Base.repo.old第二步,下载阿里云的yum源cd /etc/yum.repos.d/wget -o /etc/yum.repos.d/CentOS-Base.repo http://mirrors.aliyun.com/repo/Centos-...
阅读(208) 评论(0)

避免在Spark 2.x版本中使用sparkSQL,关于CTAS bug的发现过程

避免在Spark 2.x版本中使用sparkSQL,关于CTAS bug的发现过程标签(空格分隔): Spark2.x sparkSQL CTAS避免在Spark 2x版本中使用sparkSQL关于CTAS bug的发现过程 背景 问题发现过程 1 问题发现 2 问题重现 尝试解决问题 1 网上建议1 2 网上建议2 3 组合方案 解决方案 最后结论1. 背景CTAS就是create table a...
阅读(484) 评论(0)

快速上手写spark代码系列03:开始写一个spark小脚本(1)

快速上手写spark代码系列:03-开始写一个spark小脚本(1)快速上手写spark代码系列03-开始写一个spark小脚本1 训练背景设置 第一步准备数据集 第二步读取文件 第三步做字段提取生成RDD 第四步合并RDD 第五步过滤某些字段 第六步关联用户 第七步关联位置参数 第八步选取字段生成新的结果 第九步存储成指定文件数目训练背景设置上一篇将了RDD操作的各种函数,这一节就把这些函数放在一...
阅读(300) 评论(0)

快速上手写spark代码系列01:RDD transformation函数入门

快速上手写spark代码系列:01-RDD transformation函数入门标签(空格分隔): RDD transformation快速上手写spark代码系列01-RDD transformation函数入门 元素映射类转换 map函数 flatMap函数 filter函数 分区集合类转换 mapPartitions函数这个属于集合类操作直接对一个分区进行操作 mapPartitionsWit...
阅读(1061) 评论(0)

Linux服务器离线安装xgboost

1.环境准备第一步,检查Python版本$ python -V Python 2.7.5第二步,进入Anaconda官网 https://repo.continuum.io/archive/index.html 下载版本 Anaconda2-4.3.0-Linux-x86_64.sh 上传到服务上开始安装sh Anaconda2-4.3.0-Linux-x86_64.sh Welcome...
阅读(337) 评论(0)

Hive隐藏分割字符\001替换为可见字符

Hive默认的分隔符是\001,属于不可见字符,这个字符在vi里是^A一个文本0000_0,直接cat内容如下: 320643204N2559613979 320828796N446323 320829214N38122627 vi打开,显示为如下: 320643204^AN^A25596^A13979 320828796^AN^A446^A323...
阅读(1319) 评论(0)

hadoop Checksum校验的一个小问题

今天使用下面的命令读取文件的时候val train_male = sc.textFile("file:\\E:\\m\\part-00000")读取数据的时候,报了下面的错误 org.apache.hadoop.fs.ChecksumException: Checksum error 后来查资料发现,这个和Checksum校验有问题,查看目录,发现保存的数据里面果然有.part-00000.cr...
阅读(259) 评论(0)

eclipse.ini配置vm参数解决启动报错问题

eclipse启动报错, Java was started but returned exit code=1,具体信息如下: -startup plugins/org.eclipse.equinox.launcher_1.3.0.v20140415-2008.jar –launcher.library plugins/org.eclipse.equinox.launcher....
阅读(284) 评论(0)

拼写错误:value countBykey is not a member of org.apache.spark.rdd.RDD[(String, Int)]

今天写了一行代码,感觉很简单啊,怎么报错呢,后来一看是一个超级低级错误, 大小写搞错了,countByKey写成了countBykey,所以Spark的算子大小写一定不要搞错,有可能会报上面的错误。scala> sc.textFile("E:\\eventype").map(_.split("\\|")).map(x=>(x(0)+"|"+x(1),1)).countBykey() :23: e...
阅读(625) 评论(0)

Win10下部署TensorFlow以及一些避坑小指南

在Win10下安装GPU版本的TensorFlow,并记录了在按照过程中遇到的一些小坑。...
阅读(3425) 评论(0)

使用Spark MLlib随机森林RandomForest+pipeline进行预测

这个程序中,我们使用pipeline来完成整个预测流程,加入了10-fold cross validation。import org.apache.spark.{SparkConf, SparkContext} import org.apache.spark.mllib.linalg.Vectors import org.apache.spark.mllib.regression.LabeledPo...
阅读(865) 评论(0)

使用Spark MLlib的逻辑回归(LogisticRegression)进行用户分类预测识别

import org.apache.spark.SparkContext import org.apache.spark.SparkConf import org.apache.spark.mllib.classification.{LogisticRegressionWithLBFGS, LogisticRegressionWithSGD} import org.apache.spark.mlli...
阅读(910) 评论(0)

通过JDBC连接Hive Server2

通过JDBC连接Hive Server2的若干个步骤...
阅读(1138) 评论(0)

定个目标

目标不是用来实现的,目标是用来超越的。 回首往事,发现时间真是被耽搁了,今天弄弄这个,明天弄弄那个,缺乏专注。我在想,如果我从头到尾,一直在沿着一个方向努力,现在应该在一个领域的大牛了,然而,现在却是各种略懂。所以,我在此定个目标,以大数据应用为目标,从Spark开始逐渐往四周蔓延,成为大数据领域的专家。以后,每周要写一篇博客,哪怕是一件小的经验,也值得记录,值得反思,在此基础上多次修订之后会更完善...
阅读(113) 评论(0)
50条 共3页1 2 3 下一页 尾页
    个人资料
    • 访问:47703次
    • 积分:814
    • 等级:
    • 排名:千里之外
    • 原创:29篇
    • 转载:19篇
    • 译文:2篇
    • 评论:13条