关闭

[置顶] Spark 基础学习第一讲:弹性分布式数据集RDD

引子 part1为什么要引入RDD part2RDD是什么 1 基本概念 2 关于容错 3 每个RDD有5个主要的属性 31 RDD要素之一partition 32 RDD要素之二函数 33 RDD要素之三依赖关系自动容错 34 RDD要素之四partitioner 35 RDD要素之五本地存储优化 Part3RDD在底层是如何实现的 1 RDD底层实现原理 2 RDD的逻辑与物理架构 3数据与计算...
阅读(360) 评论(0)

Scala版本冲突--java.lang.NoSuchMethodError:scala.collection.immutable.HashSet$.empty()Lscala/collection/

问题描述Run 代码的时候报错Exception in thread "main" java.lang.NoSuchMethodError:scala.collection.immutable.HashSet$.empty()Lscala/collection/immutable/HashSet;解决办法 将Scala2.11.x更换为Scala2.10.x 操作如下: File –> Ot...
阅读(6) 评论(0)

将CentOS系统软件包yum源更新为阿里云

第一步,备份老的yum源mv /etc/yum.repos.d/CentOS-Base.repo /etc/yum.repos.d/CentOS-Base.repo.old第二步,下载阿里云的yum源cd /etc/yum.repos.d/wget -o /etc/yum.repos.d/CentOS-Base.repo http://mirrors.aliyun.com/repo/Centos-...
阅读(50) 评论(0)

避免在Spark 2.x版本中使用sparkSQL,关于CTAS bug的发现过程

避免在Spark 2.x版本中使用sparkSQL,关于CTAS bug的发现过程标签(空格分隔): Spark2.x sparkSQL CTAS避免在Spark 2x版本中使用sparkSQL关于CTAS bug的发现过程 背景 问题发现过程 1 问题发现 2 问题重现 尝试解决问题 1 网上建议1 2 网上建议2 3 组合方案 解决方案 最后结论1. 背景CTAS就是create table a...
阅读(119) 评论(0)

快速上手写spark代码系列03:开始写一个spark小脚本(1)

快速上手写spark代码系列:03-开始写一个spark小脚本(1)快速上手写spark代码系列03-开始写一个spark小脚本1 训练背景设置 第一步准备数据集 第二步读取文件 第三步做字段提取生成RDD 第四步合并RDD 第五步过滤某些字段 第六步关联用户 第七步关联位置参数 第八步选取字段生成新的结果 第九步存储成指定文件数目训练背景设置上一篇将了RDD操作的各种函数,这一节就把这些函数放在一...
阅读(162) 评论(0)

快速上手写spark代码系列01:RDD transformation函数入门

快速上手写spark代码系列:01-RDD transformation函数入门标签(空格分隔): RDD transformation快速上手写spark代码系列01-RDD transformation函数入门 元素映射类转换 map函数 flatMap函数 filter函数 分区集合类转换 mapPartitions函数这个属于集合类操作直接对一个分区进行操作 mapPartitionsWit...
阅读(524) 评论(0)

Linux服务器离线安装xgboost

1.环境准备第一步,检查Python版本$ python -V Python 2.7.5第二步,进入Anaconda官网 https://repo.continuum.io/archive/index.html 下载版本 Anaconda2-4.3.0-Linux-x86_64.sh 上传到服务上开始安装sh Anaconda2-4.3.0-Linux-x86_64.sh Welcome...
阅读(87) 评论(0)

Hive隐藏分割字符\001替换为可见字符

Hive默认的分隔符是\001,属于不可见字符,这个字符在vi里是^A一个文本0000_0,直接cat内容如下: 320643204N2559613979 320828796N446323 320829214N38122627 vi打开,显示为如下: 320643204^AN^A25596^A13979 320828796^AN^A446^A323...
阅读(237) 评论(0)

hadoop Checksum校验的一个小问题

今天使用下面的命令读取文件的时候val train_male = sc.textFile("file:\\E:\\m\\part-00000")读取数据的时候,报了下面的错误 org.apache.hadoop.fs.ChecksumException: Checksum error 后来查资料发现,这个和Checksum校验有问题,查看目录,发现保存的数据里面果然有.part-00000.cr...
阅读(100) 评论(0)

eclipse.ini配置vm参数解决启动报错问题

eclipse启动报错, Java was started but returned exit code=1,具体信息如下: -startup plugins/org.eclipse.equinox.launcher_1.3.0.v20140415-2008.jar –launcher.library plugins/org.eclipse.equinox.launcher....
阅读(93) 评论(0)

拼写错误:value countBykey is not a member of org.apache.spark.rdd.RDD[(String, Int)]

今天写了一行代码,感觉很简单啊,怎么报错呢,后来一看是一个超级低级错误, 大小写搞错了,countByKey写成了countBykey,所以Spark的算子大小写一定不要搞错,有可能会报上面的错误。scala> sc.textFile("E:\\eventype").map(_.split("\\|")).map(x=>(x(0)+"|"+x(1),1)).countBykey() :23: e...
阅读(253) 评论(0)

Win10下部署TensorFlow以及一些避坑小指南

在Win10下安装GPU版本的TensorFlow,并记录了在按照过程中遇到的一些小坑。...
阅读(761) 评论(0)

使用Spark MLlib随机森林RandomForest+pipeline进行预测

这个程序中,我们使用pipeline来完成整个预测流程,加入了10-fold cross validation。import org.apache.spark.{SparkConf, SparkContext} import org.apache.spark.mllib.linalg.Vectors import org.apache.spark.mllib.regression.LabeledPo...
阅读(268) 评论(0)

使用Spark MLlib的逻辑回归(LogisticRegression)进行用户分类预测识别

import org.apache.spark.SparkContext import org.apache.spark.SparkConf import org.apache.spark.mllib.classification.{LogisticRegressionWithLBFGS, LogisticRegressionWithSGD} import org.apache.spark.mlli...
阅读(265) 评论(0)

通过JDBC连接Hive Server2

通过JDBC连接Hive Server2的若干个步骤...
阅读(383) 评论(0)

定个目标

目标不是用来实现的,目标是用来超越的。 回首往事,发现时间真是被耽搁了,今天弄弄这个,明天弄弄那个,缺乏专注。我在想,如果我从头到尾,一直在沿着一个方向努力,现在应该在一个领域的大牛了,然而,现在却是各种略懂。所以,我在此定个目标,以大数据应用为目标,从Spark开始逐渐往四周蔓延,成为大数据领域的专家。以后,每周要写一篇博客,哪怕是一件小的经验,也值得记录,值得反思,在此基础上多次修订之后会更完善...
阅读(74) 评论(0)

csv文件load到mysql数据库

load data infile 'D:\\1.csv' into table dwell fields terminated by ',' CHARACTER SET utf8 enclosed by '"' lines terminated by '\r\n' ignore 1 lines;–CHARACTER SET :mysql字符集,一定要加上,免去乱码麻烦 –INTO TABLE :导...
阅读(146) 评论(0)

[Scala] 用 Option[T] 来避免 NullPointerException(整理)

转自:https://my.oschina.net/u/200745/blog/69845 前言 Java 里的 Null Pointer Exception 写过一阵子的Java后, 应该会对NullPointerException (NPE)这种东西很熟悉,基本上会碰到这种异常,就是你有一个变量是 null,但你却调用了它的方法,或是取某个的值。 举例而言,下面的 Java 代码就会抛...
阅读(146) 评论(0)

scala =>符号含义总结

It has several meanings in Scala, all related to its mathematical meaning as implication. In a value, it introduces a function literal(通译为匿名函数,有时候也叫函数显式声明,函数字面量), or lambda(参考lambda表达式的文章,其实也是匿名...
阅读(1760) 评论(0)

安装numpy pandas matplotlib seaborn scipy

安装numpy pandas matplotlib seaborn scipy 首先必须安装一些依赖包 yum -y install blas blas-devel lapack-devel lapack yum -y install seaborn scipy yum -y install freetype freetype-devel libpng libpng-devel...
阅读(481) 评论(0)
45条 共3页1 2 3 下一页 尾页
    个人资料
    • 访问:29175次
    • 积分:570
    • 等级:
    • 排名:千里之外
    • 原创:26篇
    • 转载:19篇
    • 译文:0篇
    • 评论:9条