2019年05月_RayBreslin

12月 11月 10月 09月 08月 07月 06月 05月 04月 03月 02月 01月

原创 solr 错误：Caused by: org.wltea.analyzer.lucene.IKAnalyzer

一、问题描述CDH5.15.2的solr集群下，创建ik分词器的实例，但是报错。Ik分词器的配置文件都已经上传各个节点solr对应目录下，但是还是报错：solrctl collection --create test_ik4 -s 2 -c test_ik -r 1 -m 3报错<?xml version="1.0" encoding="UTF-8"?> &lt...

2019-05-28 09:59:12 1804

原创 solr（十二）:CDH创建solr 添加ik中文分词器

一、功能在cdh集群的solr环境中添加ik分词器，从而可以实现对中文的友好分词。二、环境1.centos7.42.cdh5.15.2三、步骤1.上传ik分词器jar包到cd /opt/cloudera/parcels/CDH/lib/solr/webapps/solr/WEB-INF/lib/IKAnalyzer2012FF_u1.jarchmod 777 IKA...

2019-05-28 09:50:53 697

原创 solr（十一）:CDH创建solr collection实例

一、目的CDH搭建solrcloud集群，创建实例并且上传zookeeper管理。在此基础上，创建集合实例。二、环境1.Centos7.42.CHD5.15.2三、创建实例1.在某一个solr节点上创建默认配置文件（instancedir）solrctl instancedir --generate /var/lib/solr/test_conf2..创建实例并将配...

2019-05-28 09:33:47 2005

原创 Spark ml报错：Error:scalac: missing or invalid dependency detected while loading class file ‘SQLImplici

一、问题描述采用spark2.3.0的 ml库进行推荐算法建模，但是，运行代码到如下推荐个数的时候...model.recommendForAllUsers(7).show(false)...报错如下图：具体报错如下：Information:Module "sparktest" was fully rebuilt due to project configura...

2019-05-24 13:53:08 2926

原创 Kettle （三）：mysql导入hive

一、实现功能Kettle （三）：mysql导入hive使用kettle将mysql中的数据导入hive，从而实现数据迁移。二、环境1.Centos7.42.CDH5.7.03.Kettle 8.04.JDK1.8三、Kettle中建立数据库连接1. 建立mysql数据库连接（1）新建mysql_local的数据库连接（2）输入mysql对...

2019-05-24 01:30:51 4781 2

原创 kettle error：将mysql数据导出到txt文档，设置“去除空字符串方式”设置为“去掉左右两端空格”无效

一、问题描述使用kettle将mysql数据表导入HDFS，但是，导出的到hdfs的文件格式错误，会有很多的空格，如下图然而，尽管在kettle设置了“去除左右两端空格”，但是没有效果！二、问题原因kettle默认指定“长度”列后，是其优先级是高于“去除空字符串方式”的，所以后续设置没有用。解决就是可以不填长度。三、解决办法1.方法一直接点击“最小宽度”，从...

2019-05-23 22:10:58 1774

原创 Kettle（二）：转换和作业基本概念和实例

一、转换和作业定义转换（Transformation）和作业（Job）是Spoon设计器的核心两个内容，这两块内容构建了整个Kettle工作流程的基础。1. 转换（Transformation）：主要是针对数据的各种处理，一个转换里可以包含多个步骤（Step）。2. 作业（Job）：相较于转换，是更加高级的操作。一个作业里包括多个作业项（Job Entry），一个作业项代表了一项...

2019-05-21 00:31:41 15832

原创 Spark ML（6）：PCA

一、环境配置1.spark2.1.0-cdh5.7.0（自编译）2.cdh5.7.03.scala2.11.84.centos6.4二、环境准备参考https://blog.csdn.net/u010886217/article/details/90312617三、实现代码1.测试集iris.data描述5.1,3.5,1.4,0.2,Iris-setosa...

2019-05-19 16:18:17 205

原创 Spark ML（5）：聚类算法（Kmeans和LDA）

一、环境配置1.spark2.1.0-cdh5.7.0（自编译）2.cdh5.7.03.scala2.11.84.centos6.4二、环境准备参考https://blog.csdn.net/u010886217/article/details/90312617三、代码实现1.测试数据集iris样例5.1,3.5,1.4,0.2,Iris-setosa4.9...

2019-05-19 16:13:31 1057

原创 Spark ML（3）：回归算法实现（线性回归、逻辑回归）

一、环境配置1.spark2.1.0-cdh5.7.0（自编译）2.cdh5.7.03.scala2.11.84.centos6.4二、环境准备1.spark客户端调试环境搭建参考：https://blog.csdn.net/u010886217/article/details/832791572.创建scala项目参考：https://blog.csdn.ne...

2019-05-18 11:10:20 1776 1

原创 spark ml报错：object ml is not a member of package org.apache.spark

一、问题描述使用sparkml库的linalg类库等，尽管引入spark mllib依赖，但是发现无法导入相应库，运行后报错：Error:(2, 25) object ml is not a member of package org.apache.sparkimport org.apache.spark.ml.classification.LogisticRegressionErr...

2019-05-15 00:47:55 4792 6

原创 Spark ML（2）：常规统计（统计汇总、相关性分析、假设检验）

一、实现功能常规统计方法，可以在作进一步处理之前，对整体数据集有一个理性的了解。对后续处理，可以提高效率，以及准确性。二、统计汇总1.功能在使用spark机器学习训练前，使用统计汇总函数，可以大致了解数据集总体情况2.参考：官网http://spark.apache.org/docs/2.1.0/mllib-statistics.html官方实例：***import or...

2019-05-11 10:43:13 1642

原创 Spark ML（1）：环境搭建以及向量和矩阵创建

一、实现目的服务器搭建spark2.1.0开发环境，并且配置环境。然后，通过scala编写机器学习基本的数据结构：向量和矩阵。二、环境搭建1.spark环境搭建参考博客https://blog.csdn.net/u010886217/article/details/832791572.需要开启服务（在上面blog里面都有）（1）namenode、DataNode（2）m...

2019-05-11 10:17:25 976

原创上传文件到zookeeper报错：ERROR Could not read configuration file from URL [file:./log4j.properties]

一、问题描述CDH环境下，将solr配置文件上传到zookeeper时，遇见报错缺少log4j.properties文件# cd /opt/cloudera/parcels/CDH/lib/solr/bin# ./zkcli.sh -zkhost ip1:2181,ip2:2181,i3:2181/solr -cmd upconfig -confdir /opt/tmp/conf -c...

2019-05-11 00:37:53 1986

原创 solr（十）:CDH集群配置solr cloud

一、目的CDH集群配置solr和单机虚拟配置solr还是非常不同的，烦人的目录是很令人头疼。在创建集群实例过程中碰了很多坑，好不容易搭建好，在此记录一下，以防下次采坑。二、环境1.CDH5.15.2三、配置步骤1.生成collection实例配置文件：指定配置文件临时目录solrctl instancedir --generate /opt/tmp2.上传文件到 ...

2019-05-11 00:20:50 2217

原创 SourceTree管理gitlab仓库：使用ssh以及http两种方式clone仓库以及push推送文件

一、目的使用SourceTree管理gitliab仓库，高效整洁，清晰明了。二、环境1.Sourcetree2.安装SSH3.Gitlab三、Clone克隆步骤1.SourceTree配置SSH秘钥（1）工具-》选项（2）选择公钥，并且添加，一般位置是在：用户名/.ssh\id_rsa.pub2.GitLab配置SSH秘钥（1）点击“setti...

2019-05-09 19:27:37 8095

原创 CDH集群配置、日志、jar包以及安装目录和常用命令汇总

一、总结目的因为CDH集群的配置、日志、jar包以及安装文件的目录非常多，而且分散，每次绕进去就有种绕不出来的感觉。所以，下决心总结一下，防止自己后面采坑。二、关键目录1.开启应用目录：默认可以直接敲命令行/opt/cloudera/parcels/CDH/bin查询# lsavro-tools kite-dataset sqoop-cre...

2019-05-09 19:23:32 5474 4

原创 CDH中sqoop日志位置

一、目的在CDH服务器中无法找到sqoop日志位置，所以搜索方法查看sqoop日志，在此记录。二、环境1.CDH5.15.2三、步骤1.登录cm，点击下面yarn2.点击“应用程序”可以查看到错误应用3.点击“应用程序详细信息”4.还没有结束，点击“logs”5.还没有完，点击“here”6.看到亲爱的日志四、总结1....

2019-05-07 19:33:34 6452

原创大数据调试环境配置（3）：IDEA外部链接spark调试环境配置

一、目的在远程电脑的windows系统上，部署远程spark代码开发环境，从而提升效率。二、环境1.CDH5.15.22.scala2.11.8三、实现步骤1.新建scala项目（1）依据模板建立maven项目（2）输入项目关键名称（3）选择本地maven仓库对应配置文件settings.xml（4）填写项目名称，确认建立项目（5）修改p...

2019-05-06 23:38:07 358

原创 sqoop 报错：Could not load db driver class: com.microsoft.sqlserver.jdbc.SQLServerDriver

一、问题描述将sql server的数据导入hive，结果报错：Warning: /opt/cloudera/parcels/CDH-5.15.2-1.cdh5.15.2.p0.3/bin/../lib/sqoop/../accumulo does not exist! Accumulo imports will fail.Please set $ACCUMULO_HOME to th...

2019-05-06 19:18:38 4008

原创 solr（九）：solrj操作solr cloud，实现数据单条以及批量从mysql导入数据

一、实现功能使用solrj实现对solrcloud的增删改查，从而使整个项目可以实现在项目中应用。二、环境1.solr-4.10.32.zookeeper-3.4.63.apache-tomcat-8.5.124.jdk1.75.centos 6.4三、具体代码1.添加依赖（1）solrj依赖<dependen...

2019-05-01 20:42:26 1084

原创 solr（八）：管理solr cloud切片实例（增加和删除）

一、创建有两切片shard1/shard2的collection21.在浏览其中输入http://hadoop01:8080/solr/admin/collections?action=CREATE&name=collection2&numShards=2&replicationFactor=22.输入结果图形界面显示二、删除集群实例colle...

2019-05-01 17:06:09 846

原创 solr（七）：solr cloud搭建

一、集群环境1.solr-4.10.32.zookeeper-3.4.63.apache-tomcat-8.5.124.jdk1.75.centos 6.4二、搭建zookeeper集群1.解压缩zookeepertar -zxvf zookeeper-3.4.6.tar.gz -C /opt/modules/solrcloud/2.修改zookeeper名称...

2019-05-01 16:10:59 411

原创 solr报错：ERROR org.apache.solr.cloud.Overseer – could not read the data org.apache.zookeeper.KeeperEx

一、问题描述基于CDH5.7.0的solr构建solr cloud1.准备配置solr-4.10.3-cdh5.7.0/zookeeper-3.4.5-cdh5.7.0/apache-tomcat-8.5.12/jdk1.72.配置好zookeeper集群后，开启tomcat1-4，发现tomcat1自动关闭，无法连接，查看日志报错：tail -f solrcloud/tomca...

2019-05-01 14:57:09 845

Postgresql存储过程.docx

数据库存储过程：包括控制if，循环while/for/loop的实现

2019-07-29

前后端分离-资料.rar

docker部署前后端分离项目的配置文件，基本包含了所有配置需要的文本。可以解决，从网页中拷贝配置文件命令，带有特殊字符的问题，方便快速部署。

2019-07-26

IKAnalyzer2012FF_u1中文分词器

IK中分分词器，在全文检索中非常有用，尤其对于中文文档的全文检索。本压缩包打包文件可以满足使用solr建立全文检索的配置需求。

2019-04-27

hadoop的wordcount简单实例

这是一个wordcount的一个简单实例jar包，仅仅用来做测试。 map类：org.apache.hadoop.wordcount.WordCountMapReduce$WordCountMapper reduce类 org.apache.hadoop.wordcount.WordCountMapReduce$WordCountReducer

2018-12-06