小蚯蚓的博客

大数据hadoop和linux,java,C#等编程和框架设计

Spark ml报错:Error:scalac: missing or invalid dependency detected while loading class file 'SQLImplici

一、问题描述 采用spark2.3.0的 ml库进行推荐算法建模,但是,运行代码到如下推荐个数的时候 ... model.recommendForAllUsers(7).show(false) ... 报错如下图: 具体报错如下: ​ Information:Module &qu...

2019-05-24 13:53:08

阅读数 3

评论数 0

Kettle (三):mysql导入hive

一、实现功能 Kettle (三):mysql导入hive 使用kettle将mysql中的数据导入hive,从而实现数据迁移。 二、环境 1.Centos7.4 2.CDH5.7.0 3.Kettle 8.0 4.JDK1.8 三、Kettle中建立数据库连接 1. 建立mysql数据...

2019-05-24 01:30:51

阅读数 3

评论数 0

kettle error: 将mysql数据导出到txt文档,设置“去除空字符串方式”设置为“去掉左右两端空格”无效

一、问题描述 使用kettle将mysql数据表导入HDFS,但是,导出的到hdfs的文件格式错误,会有很多的空格,如下图 然而,尽管在kettle设置了“去除左右两端空格”,但是没有效果! 二、问题原因 kettle默认指定“长度”列后,是其优先级是高于“去除空字符串方式”的,所...

2019-05-23 22:10:58

阅读数 2

评论数 0

Kettle(二):转换和作业基本概念和实例

一、转换和作业定义 转换(Transformation) 和 作业(Job)是Spoon设计器的核心两个内容,这两块内容构建了整个Kettle工作流程的基础。 1. 转换(Transformation):主要是针对数据的各种处理,一个转换里可以包 含多个步骤(Step)。 2. 作业(Job...

2019-05-21 00:31:41

阅读数 3

评论数 0

Spark ML(6):PCA

一、环境配置 1.spark2.1.0-cdh5.7.0(自编译) 2.cdh5.7.0 3.scala2.11.8 4.centos6.4 二、环境准备 参考https://blog.csdn.net/u010886217/article/details/90312617 三、实现...

2019-05-19 16:18:17

阅读数 6

评论数 0

Spark ML(5):聚类算法(Kmeans和LDA)

一、环境配置 1.spark2.1.0-cdh5.7.0(自编译) 2.cdh5.7.0 3.scala2.11.8 4.centos6.4 二、环境准备 参考https://blog.csdn.net/u010886217/article/details/90312617 三、代码...

2019-05-19 16:13:31

阅读数 6

评论数 0

Spark ML(3):回归算法实现(线性回归、逻辑回归)

一、环境配置 1.spark2.1.0-cdh5.7.0(自编译) 2.cdh5.7.0 3.scala2.11.8 4.centos6.4 二、环境准备 1.spark客户端调试环境搭建 参考:https://blog.csdn.net/u010886217/article/det...

2019-05-18 11:10:20

阅读数 4

评论数 0

datax(1):安装部署并且检测

一、datax实现功能 可以实现关系型数据库、阿里云数仓、nosql数据库、无结构化数据以及时间序列数据库之间的互相导入,如下图,功能十分强大,所以不觉想要研究一下 二、环境 1.Centos6.4 2.Datax 三、下载以及部署 1.下载 https://github.com...

2019-05-18 09:07:50

阅读数 7

评论数 0

spark ml报错:object ml is not a member of package org.apache.spark

一、问题描述 使用sparkml库的linalg类库等,尽管引入spark mllib依赖,但是发现无法导入相应库,运行后报错: Error:(2, 25) object ml is not a member of package org.apache.spark import org.ap...

2019-05-15 00:47:55

阅读数 7

评论数 0

Spark ML(2):常规统计(统计汇总、相关性分析、假设检验)

一、实现功能 常规统计方法,可以在作进一步处理之前,对整体数据集有一个理性的了解。对后续处理,可以提高效率,以及准确性。 二、统计汇总 1.功能 在使用spark机器学习训练前,使用统计汇总函数,可以大致了解数据集总体情况2.参考:官网 http://spark.apache.org/d...

2019-05-11 10:43:13

阅读数 16

评论数 0

Spark ML(1):环境搭建以及向量和矩阵创建

一、实现目的 服务器搭建spark2.1.0开发环境,并且配置环境。然后,通过scala编写机器学习基本的数据结构:向量和矩阵。 二、环境搭建 1.spark环境搭建参考博客 https://blog.csdn.net/u010886217/article/details/83279157...

2019-05-11 10:17:25

阅读数 11

评论数 0

上传文件到zookeeper报错:ERROR Could not read configuration file from URL [file:./log4j.properties]

一、问题描述 CDH环境下,将solr配置文件上传到zookeeper时,遇见报错缺少log4j.properties文件 # cd /opt/cloudera/parcels/CDH/lib/solr/bin # ./zkcli.sh -zkhost ip1:2181,ip2:2181,i...

2019-05-11 00:37:53

阅读数 16

评论数 0

solr(九):CDH集群配置solr cloud

一、目的 CDH集群配置solr和单机虚拟配置solr还是非常不同的,烦人的目录是很令人头疼。在创建集群实例过程中碰了很多坑,好不容易搭建好,在此记录一下,以防下次采坑。 二、环境 1.CDH5.15.2 三、配置步骤 1.生成collection实例配置文件: 指定配置文件临时目录 ...

2019-05-11 00:20:50

阅读数 20

评论数 0

SourceTree管理gitlab仓库:使用ssh以及http两种方式clone仓库以及push推送文件

一、目的 使用SourceTree管理gitliab仓库,高效整洁,清晰明了。 二、环境 1.Sourcetree 2.安装SSH 3.Gitlab 三、Clone克隆步骤 1.SourceTree配置SSH秘钥 (1)工具-》选项 (2)选择公钥,并且添加,一般位置是在:用...

2019-05-09 19:27:37

阅读数 34

评论数 0

CDH集群配置、日志、jar包以及安装目录汇总

一、总结目的 因为CDH集群的配置、日志、jar包以及安装文件的目录非常多,而且分散,每次绕进去就有种绕不出来的感觉。所以,下决心总结一下,防止自己后面采坑。 二、关键目录 1.开启应用目录:默认可以直接敲命令行 /opt/cloudera/parcels/CDH/bin 查询 # ls...

2019-05-09 19:23:32

阅读数 56

评论数 0

(转)sqoop使用中文手册

【非常好的翻译,但是官网还是最好:】 文章转载自:http://www.zihou.me/html/2014/01/28/9114.html Sqoop中文手册 8,038浏览1条回复 子猴:Sqoop在我们的实际工作中有一些应用,为了对Sqoop的使用有个更全面的了解,于是我花...

2019-05-08 19:03:10

阅读数 80

评论数 0

CDH中sqoop日志位置

一、目的 在CDH服务器中无法找到sqoop日志位置,所以搜索方法查看sqoop日志,在此记录。 二、环境 1.CDH5.15.2 三、步骤 1.登录cm,点击下面yarn 2.点击“应用程序” 可以查看到错误应用 3.点击“应用程序详细信息” 4.还没有结束,点...

2019-05-07 19:33:34

阅读数 23

评论数 0

大数据调试环境配置(3):IDEA外部链接spark调试环境配置

一、目的 在远程电脑的windows系统上,部署远程spark代码开发环境,从而提升效率。 二、环境 1.CDH5.15.2 2.scala2.11.8 三、实现步骤 1.新建scala项目 (1)依据模板建立maven项目 (2)输入项目关键名称 (3)选择本地mave...

2019-05-06 23:38:07

阅读数 13

评论数 0

sqoop 报错:Could not load db driver class: com.microsoft.sqlserver.jdbc.SQLServerDriver

一、问题描述 将sql server的数据导入hive,结果报错: Warning: /opt/cloudera/parcels/CDH-5.15.2-1.cdh5.15.2.p0.3/bin/../lib/sqoop/../accumulo does not exist! Accumulo...

2019-05-06 19:18:38

阅读数 13

评论数 0

solr(九):solrj操作solr cloud,实现数据单条以及批量从mysql导入数据

一、实现功能 使用solrj实现对solrcloud的增删改查,从而使整个项目可以实现在项目中应用。 二、环境 1.solr-4.10.3 2.zookeeper-3.4.6 3.apache-tomcat-8.5.12 4.jdk1.7 5.centos 6.4 三、具体代码 ...

2019-05-01 20:42:26

阅读数 148

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭