关闭

[置顶] Spark 基础学习第一讲:弹性分布式数据集RDD

引子 part1为什么要引入RDD part2RDD是什么 1 基本概念 2 关于容错 3 每个RDD有5个主要的属性 31 RDD要素之一partition 32 RDD要素之二函数 33 RDD要素之三依赖关系自动容错 34 RDD要素之四partitioner 35 RDD要素之五本地存储优化 Part3RDD在底层是如何实现的 1 RDD底层实现原理 2 RDD的逻辑与物理架构 3数据与计算...
阅读(495) 评论(0)

通过Thrift Server使用JDBC来运行Spark SQL

通过Thrift Server使用JDBC来运行Spark SQL标签(空格分隔): thriftserver jdbc sparkSQL更新记录初始发布:2017-09-19 第一次更新:xxx简介Thrift JDBC/ODBC Server (简称 Spark Thrift Server 或者 STS)是Spark SQL的Apache Hive HiveServer2的端口,通过这个端口可...
阅读(51) 评论(0)

使用Python一步步实现PCA算法

使用Python一步步实现PCA算法标签: PCA Python本文原地址为: http://sebastianraschka.com/Articles/2014_pca_step_by_step.html Implementing a Principal Component Analysis (PCA) – in Python, step by step Apr 13, 2014 by...
阅读(120) 评论(0)

Scala版本冲突--java.lang.NoSuchMethodError:scala.collection.immutable.HashSet$.empty()Lscala/collection/

问题描述Run 代码的时候报错Exception in thread "main" java.lang.NoSuchMethodError:scala.collection.immutable.HashSet$.empty()Lscala/collection/immutable/HashSet;解决办法 将Scala2.11.x更换为Scala2.10.x 操作如下: File –> Ot...
阅读(107) 评论(1)

将CentOS系统软件包yum源更新为阿里云

第一步,备份老的yum源mv /etc/yum.repos.d/CentOS-Base.repo /etc/yum.repos.d/CentOS-Base.repo.old第二步,下载阿里云的yum源cd /etc/yum.repos.d/wget -o /etc/yum.repos.d/CentOS-Base.repo http://mirrors.aliyun.com/repo/Centos-...
阅读(115) 评论(0)

避免在Spark 2.x版本中使用sparkSQL,关于CTAS bug的发现过程

避免在Spark 2.x版本中使用sparkSQL,关于CTAS bug的发现过程标签(空格分隔): Spark2.x sparkSQL CTAS避免在Spark 2x版本中使用sparkSQL关于CTAS bug的发现过程 背景 问题发现过程 1 问题发现 2 问题重现 尝试解决问题 1 网上建议1 2 网上建议2 3 组合方案 解决方案 最后结论1. 背景CTAS就是create table a...
阅读(264) 评论(0)

快速上手写spark代码系列03:开始写一个spark小脚本(1)

快速上手写spark代码系列:03-开始写一个spark小脚本(1)快速上手写spark代码系列03-开始写一个spark小脚本1 训练背景设置 第一步准备数据集 第二步读取文件 第三步做字段提取生成RDD 第四步合并RDD 第五步过滤某些字段 第六步关联用户 第七步关联位置参数 第八步选取字段生成新的结果 第九步存储成指定文件数目训练背景设置上一篇将了RDD操作的各种函数,这一节就把这些函数放在一...
阅读(232) 评论(0)

快速上手写spark代码系列01:RDD transformation函数入门

快速上手写spark代码系列:01-RDD transformation函数入门标签(空格分隔): RDD transformation快速上手写spark代码系列01-RDD transformation函数入门 元素映射类转换 map函数 flatMap函数 filter函数 分区集合类转换 mapPartitions函数这个属于集合类操作直接对一个分区进行操作 mapPartitionsWit...
阅读(780) 评论(0)

Linux服务器离线安装xgboost

1.环境准备第一步,检查Python版本$ python -V Python 2.7.5第二步,进入Anaconda官网 https://repo.continuum.io/archive/index.html 下载版本 Anaconda2-4.3.0-Linux-x86_64.sh 上传到服务上开始安装sh Anaconda2-4.3.0-Linux-x86_64.sh Welcome...
阅读(172) 评论(0)

Hive隐藏分割字符\001替换为可见字符

Hive默认的分隔符是\001,属于不可见字符,这个字符在vi里是^A一个文本0000_0,直接cat内容如下: 320643204N2559613979 320828796N446323 320829214N38122627 vi打开,显示为如下: 320643204^AN^A25596^A13979 320828796^AN^A446^A323...
阅读(652) 评论(0)

hadoop Checksum校验的一个小问题

今天使用下面的命令读取文件的时候val train_male = sc.textFile("file:\\E:\\m\\part-00000")读取数据的时候,报了下面的错误 org.apache.hadoop.fs.ChecksumException: Checksum error 后来查资料发现,这个和Checksum校验有问题,查看目录,发现保存的数据里面果然有.part-00000.cr...
阅读(164) 评论(0)

eclipse.ini配置vm参数解决启动报错问题

eclipse启动报错, Java was started but returned exit code=1,具体信息如下: -startup plugins/org.eclipse.equinox.launcher_1.3.0.v20140415-2008.jar –launcher.library plugins/org.eclipse.equinox.launcher....
阅读(158) 评论(0)

拼写错误:value countBykey is not a member of org.apache.spark.rdd.RDD[(String, Int)]

今天写了一行代码,感觉很简单啊,怎么报错呢,后来一看是一个超级低级错误, 大小写搞错了,countByKey写成了countBykey,所以Spark的算子大小写一定不要搞错,有可能会报上面的错误。scala> sc.textFile("E:\\eventype").map(_.split("\\|")).map(x=>(x(0)+"|"+x(1),1)).countBykey() :23: e...
阅读(384) 评论(0)

Win10下部署TensorFlow以及一些避坑小指南

在Win10下安装GPU版本的TensorFlow,并记录了在按照过程中遇到的一些小坑。...
阅读(1687) 评论(0)

使用Spark MLlib随机森林RandomForest+pipeline进行预测

这个程序中,我们使用pipeline来完成整个预测流程,加入了10-fold cross validation。import org.apache.spark.{SparkConf, SparkContext} import org.apache.spark.mllib.linalg.Vectors import org.apache.spark.mllib.regression.LabeledPo...
阅读(501) 评论(0)

使用Spark MLlib的逻辑回归(LogisticRegression)进行用户分类预测识别

import org.apache.spark.SparkContext import org.apache.spark.SparkConf import org.apache.spark.mllib.classification.{LogisticRegressionWithLBFGS, LogisticRegressionWithSGD} import org.apache.spark.mlli...
阅读(465) 评论(0)

通过JDBC连接Hive Server2

通过JDBC连接Hive Server2的若干个步骤...
阅读(692) 评论(0)

定个目标

目标不是用来实现的,目标是用来超越的。 回首往事,发现时间真是被耽搁了,今天弄弄这个,明天弄弄那个,缺乏专注。我在想,如果我从头到尾,一直在沿着一个方向努力,现在应该在一个领域的大牛了,然而,现在却是各种略懂。所以,我在此定个目标,以大数据应用为目标,从Spark开始逐渐往四周蔓延,成为大数据领域的专家。以后,每周要写一篇博客,哪怕是一件小的经验,也值得记录,值得反思,在此基础上多次修订之后会更完善...
阅读(90) 评论(0)

csv文件load到mysql数据库

load data infile 'D:\\1.csv' into table dwell fields terminated by ',' CHARACTER SET utf8 enclosed by '"' lines terminated by '\r\n' ignore 1 lines;–CHARACTER SET :mysql字符集,一定要加上,免去乱码麻烦 –INTO TABLE :导...
阅读(262) 评论(0)

[Scala] 用 Option[T] 来避免 NullPointerException(整理)

转自:https://my.oschina.net/u/200745/blog/69845 前言 Java 里的 Null Pointer Exception 写过一阵子的Java后, 应该会对NullPointerException (NPE)这种东西很熟悉,基本上会碰到这种异常,就是你有一个变量是 null,但你却调用了它的方法,或是取某个的值。 举例而言,下面的 Java 代码就会抛...
阅读(196) 评论(0)
47条 共3页1 2 3 下一页 尾页
    个人资料
    • 访问:36220次
    • 积分:670
    • 等级:
    • 排名:千里之外
    • 原创:27篇
    • 转载:19篇
    • 译文:1篇
    • 评论:12条