陆云子安的专栏

相信复利效应的威力,不嫌弃微末的努力与进步。

Spark 基础学习第一讲:弹性分布式数据集RDD

引子 part1为什么要引入RDD part2RDD是什么 1 基本概念 2 关于容错 3 每个RDD有5个主要的属性 31 RDD要素之一partition 32 RDD要素之二函数 33 RDD要素之三依赖关系自动容错 34 RDD要素之四partitioner 35 RDD要素之五本地存储优...

2017-04-06 17:43:48

阅读数 784

评论数 0

通过用户POI经纬度获取居住地的房价信息

Arcmap处理数据 1 建立Map和GDB 2 加载数据 3加载地图 4 导出为点数据 5 过滤错误数据 6 将过滤后的数据保存为新图层 7 转换坐标系为3857 8 IDW插值 9 绘制渔网图Fishnet 10 Zonal Statistics As Table 11 用fishnet和Zo...

2018-01-13 11:11:36

阅读数 468

评论数 2

MariaDB中文乱码字符集处理

MariaDB中文乱码字符集处理标签(空格分隔): MySQL1.场景服务器的MariaDB字符集中文乱码,经查服务器端设置为latin1,可以使用下面的命令:MariaDB [(none)]> SHOW VARIABLES LIKE 'character%'; +------------...

2017-11-30 16:01:26

阅读数 1764

评论数 0

SFTP连接失败问题解决小tips

前几天安装了jumpserver之后,sftp服务莫名奇妙的挂了,也不知道是不是这方面的原因。vsftpd服务检查没有问题。 防火墙端口配置检查没有问题。 端口监听检查没有问题。我们知道SFTP走的是SSH的端口,服务器端运行sshd的服务,通过使用SSH,可以把所有传输的数据进行加密。所以,...

2017-11-23 15:55:31

阅读数 9402

评论数 0

Spark集群硬件配置参考

Spark集群硬件配置参考标签(空格分隔): Spark硬件配置Spark开发人员面临的最常见一个问题就是集群的配置硬件。一般来说,合理的硬件配置取决于自身的实际情况,我们只能从以下几个方面提出建议。存储系统大部分的Spark作业会从外部存储系统(比如Hadoop文件系统或者Hbase)读取输入数...

2017-10-18 17:53:19

阅读数 645

评论数 0

GC思维导图

从网上收集了一些资料,做了一个GC的思维导图,简要介绍一下集中垃圾回收器。

2017-09-28 11:34:44

阅读数 244

评论数 0

通过Thrift Server使用JDBC来运行Spark SQL

通过Thrift Server使用JDBC来运行Spark SQL标签(空格分隔): thriftserver jdbc sparkSQL更新记录初始发布:2017-09-19 第一次更新:xxx简介Thrift JDBC/ODBC Server (简称 Spark Thrift Server ...

2017-09-19 15:02:47

阅读数 2555

评论数 0

使用Python一步步实现PCA算法

使用Python一步步实现PCA算法标签: PCA Python本文原地址为: http://sebastianraschka.com/Articles/2014_pca_step_by_step.html Implementing a Principal Component Analysis...

2017-08-08 11:23:24

阅读数 7655

评论数 1

Scala版本冲突--java.lang.NoSuchMethodError:scala.collection.immutable.HashSet$.empty()Lscala/collection/

问题描述Run 代码的时候报错Exception in thread "main" java.lang.NoSuchMethodError:scala.collection.immutable.HashSet$.empty()Lscala/collection/immutabl...

2017-07-26 11:42:37

阅读数 4293

评论数 1

将CentOS系统软件包yum源更新为阿里云

第一步,备份老的yum源mv /etc/yum.repos.d/CentOS-Base.repo /etc/yum.repos.d/CentOS-Base.repo.old第二步,下载阿里云的yum源cd /etc/yum.repos.d/wget -o /etc/yum.repos.d/Cen...

2017-07-24 15:09:54

阅读数 551

评论数 0

避免在Spark 2.x版本中使用sparkSQL,关于CTAS bug的发现过程

避免在Spark 2.x版本中使用sparkSQL,关于CTAS bug的发现过程标签(空格分隔): Spark2.x sparkSQL CTAS避免在Spark 2x版本中使用sparkSQL关于CTAS bug的发现过程 背景 问题发现过程 1 问题发现 2 问题重现 尝试解决问题 1 网上建...

2017-07-17 17:03:38

阅读数 1564

评论数 1

快速上手写spark代码系列03:开始写一个spark小脚本(1)

快速上手写spark代码系列:03-开始写一个spark小脚本(1)快速上手写spark代码系列03-开始写一个spark小脚本1 训练背景设置 第一步准备数据集 第二步读取文件 第三步做字段提取生成RDD 第四步合并RDD 第五步过滤某些字段 第六步关联用户 第七步关联位置参数 第八步选取字段生...

2017-06-30 16:55:51

阅读数 1145

评论数 0

快速上手写spark代码系列01:RDD transformation函数入门

快速上手写spark代码系列:01-RDD transformation函数入门标签(空格分隔): RDD transformation快速上手写spark代码系列01-RDD transformation函数入门 元素映射类转换 map函数 flatMap函数 filter函数 分区集合类转换 ...

2017-06-29 18:26:40

阅读数 1514

评论数 0

Linux服务器离线安装xgboost

1.环境准备第一步,检查Python版本$ python -V Python 2.7.5第二步,进入Anaconda官网 https://repo.continuum.io/archive/index.html 下载版本 Anaconda2-4.3.0-Linux-x86_64.sh 上传...

2017-06-09 16:46:56

阅读数 1432

评论数 0

Hive隐藏分割字符\001替换为可见字符

Hive默认的分隔符是\001,属于不可见字符,这个字符在vi里是^A一个文本0000_0,直接cat内容如下: 320643204N2559613979 320828796N446323 320829214N38122627 vi打开,显示为如下: 3206...

2017-06-07 18:29:11

阅读数 13072

评论数 0

hadoop Checksum校验的一个小问题

今天使用下面的命令读取文件的时候val train_male = sc.textFile("file:\\E:\\m\\part-00000")读取数据的时候,报了下面的错误 org.apache.hadoop.fs.ChecksumException: Checksum ...

2017-06-07 10:24:56

阅读数 1614

评论数 1

eclipse.ini配置vm参数解决启动报错问题

eclipse启动报错, Java was started but returned exit code=1,具体信息如下: -startup plugins/org.eclipse.equinox.launcher_1.3.0.v20140415-2008.jar –launc...

2017-06-05 15:00:05

阅读数 1272

评论数 0

拼写错误:value countBykey is not a member of org.apache.spark.rdd.RDD[(String, Int)]

今天写了一行代码,感觉很简单啊,怎么报错呢,后来一看是一个超级低级错误, 大小写搞错了,countByKey写成了countBykey,所以Spark的算子大小写一定不要搞错,有可能会报上面的错误。scala> sc.textFile("E:\\eventype").ma...

2017-06-01 11:01:24

阅读数 1828

评论数 0

Win10下部署TensorFlow以及一些避坑小指南

在Win10下安装GPU版本的TensorFlow,并记录了在按照过程中遇到的一些小坑。

2017-05-26 16:09:06

阅读数 15507

评论数 1

使用Spark MLlib随机森林RandomForest+pipeline进行预测

这个程序中,我们使用pipeline来完成整个预测流程,加入了10-fold cross validation。import org.apache.spark.{SparkConf, SparkContext} import org.apache.spark.mllib.linalg.Vector...

2017-05-18 15:40:54

阅读数 2434

评论数 1

提示
确定要删除当前文章?
取消 删除
关闭
关闭