自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

小蚯蚓的博客

大数据hadoop和linux,java等编程和框架设计

  • 博客(24)
  • 资源 (10)
  • 问答 (1)
  • 收藏
  • 关注

原创 solr 错误:Caused by: org.wltea.analyzer.lucene.IKAnalyzer

一、 问题描述CDH5.15.2的solr集群下,创建ik分词器的实例,但是报错。Ik分词器的配置文件都已经上传各个节点solr对应目录下,但是还是报错:solrctl collection --create test_ik4 -s 2 -c test_ik -r 1 -m 3报错<?xml version="1.0" encoding="UTF-8"?> &lt...

2019-05-28 09:59:12 1804

原创 solr(十二):CDH创建solr 添加ik中文分词器

一、功能在cdh集群的solr环境中添加ik分词器,从而可以实现对中文的友好分词。二、环境1.centos7.42.cdh5.15.2三、步骤1.上传ik分词器jar包到cd /opt/cloudera/parcels/CDH/lib/solr/webapps/solr/WEB-INF/lib/IKAnalyzer2012FF_u1.jarchmod 777 IKA...

2019-05-28 09:50:53 697

原创 solr(十一):CDH创建solr collection实例

一、目的CDH搭建solrcloud集群,创建实例并且上传zookeeper管理。在此基础上,创建集合实例。二、环境1.Centos7.42.CHD5.15.2三、创建实例1.在某一个solr节点上创建默认配置文件(instancedir)solrctl instancedir --generate /var/lib/solr/test_conf2..创建实例并将配...

2019-05-28 09:33:47 2005

原创 Spark ml报错:Error:scalac: missing or invalid dependency detected while loading class file ‘SQLImplici

一、问题描述采用spark2.3.0的 ml库进行推荐算法建模,但是,运行代码到如下推荐个数的时候...model.recommendForAllUsers(7).show(false)...报错如下图:具体报错如下:​Information:Module "sparktest" was fully rebuilt due to project configura...

2019-05-24 13:53:08 2926

原创 Kettle (三):mysql导入hive

一、实现功能Kettle (三):mysql导入hive使用kettle将mysql中的数据导入hive,从而实现数据迁移。二、环境1.Centos7.42.CDH5.7.03.Kettle 8.04.JDK1.8三、Kettle中建立数据库连接1. 建立mysql数据库连接(1) 新建mysql_local的数据库连接(2) 输入mysql对...

2019-05-24 01:30:51 4781 2

原创 kettle error: 将mysql数据导出到txt文档,设置“去除空字符串方式”设置为“去掉左右两端空格”无效

一、问题描述使用kettle将mysql数据表导入HDFS,但是,导出的到hdfs的文件格式错误,会有很多的空格,如下图然而,尽管在kettle设置了“去除左右两端空格”,但是没有效果!二、问题原因kettle默认指定“长度”列后,是其优先级是高于“去除空字符串方式”的,所以后续设置没有用。解决就是可以不填长度。三、解决办法1.方法一直接点击“最小宽度”,从...

2019-05-23 22:10:58 1774

原创 Kettle(二):转换和作业基本概念和实例

一、转换和作业定义转换(Transformation) 和 作业(Job)是Spoon设计器的核心两个内容,这两块内容构建了整个Kettle工作流程的基础。1. 转换(Transformation):主要是针对数据的各种处理,一个转换里可以包 含多个步骤(Step)。2. 作业(Job):相较于转换,是更加高级的操作。一个作业里包括多个作业项(Job Entry),一个作业项代表了一项...

2019-05-21 00:31:41 15832

原创 Spark ML(6):PCA

一、环境配置1.spark2.1.0-cdh5.7.0(自编译)2.cdh5.7.03.scala2.11.84.centos6.4二、环境准备参考https://blog.csdn.net/u010886217/article/details/90312617三、实现代码1.测试集iris.data描述5.1,3.5,1.4,0.2,Iris-setosa...

2019-05-19 16:18:17 205

原创 Spark ML(5):聚类算法(Kmeans和LDA)

一、环境配置1.spark2.1.0-cdh5.7.0(自编译)2.cdh5.7.03.scala2.11.84.centos6.4二、环境准备参考https://blog.csdn.net/u010886217/article/details/90312617三、代码实现1.测试数据集iris样例5.1,3.5,1.4,0.2,Iris-setosa4.9...

2019-05-19 16:13:31 1057

原创 Spark ML(3):回归算法实现(线性回归、逻辑回归)

一、环境配置1.spark2.1.0-cdh5.7.0(自编译)2.cdh5.7.03.scala2.11.84.centos6.4二、环境准备1.spark客户端调试环境搭建参考:https://blog.csdn.net/u010886217/article/details/832791572.创建scala项目参考:https://blog.csdn.ne...

2019-05-18 11:10:20 1776 1

原创 spark ml报错:object ml is not a member of package org.apache.spark

一、问题描述使用sparkml库的linalg类库等,尽管引入spark mllib依赖,但是发现无法导入相应库,运行后报错:Error:(2, 25) object ml is not a member of package org.apache.sparkimport org.apache.spark.ml.classification.LogisticRegressionErr...

2019-05-15 00:47:55 4792 6

原创 Spark ML(2):常规统计(统计汇总、相关性分析、假设检验)

一、实现功能常规统计方法,可以在作进一步处理之前,对整体数据集有一个理性的了解。对后续处理,可以提高效率,以及准确性。二、统计汇总1.功能在使用spark机器学习训练前,使用统计汇总函数,可以大致了解数据集总体情况2.参考:官网http://spark.apache.org/docs/2.1.0/mllib-statistics.html官方实例:***import or...

2019-05-11 10:43:13 1642

原创 Spark ML(1):环境搭建以及向量和矩阵创建

一、实现目的服务器搭建spark2.1.0开发环境,并且配置环境。然后,通过scala编写机器学习基本的数据结构:向量和矩阵。二、环境搭建1.spark环境搭建参考博客https://blog.csdn.net/u010886217/article/details/832791572.需要开启服务(在上面blog里面都有)(1)namenode、DataNode(2)m...

2019-05-11 10:17:25 976

原创 上传文件到zookeeper报错:ERROR Could not read configuration file from URL [file:./log4j.properties]

一、问题描述CDH环境下,将solr配置文件上传到zookeeper时,遇见报错缺少log4j.properties文件# cd /opt/cloudera/parcels/CDH/lib/solr/bin# ./zkcli.sh -zkhost ip1:2181,ip2:2181,i3:2181/solr -cmd upconfig -confdir /opt/tmp/conf -c...

2019-05-11 00:37:53 1986

原创 solr(十):CDH集群配置solr cloud

一、目的CDH集群配置solr和单机虚拟配置solr还是非常不同的,烦人的目录是很令人头疼。在创建集群实例过程中碰了很多坑,好不容易搭建好,在此记录一下,以防下次采坑。二、环境1.CDH5.15.2三、配置步骤1.生成collection实例配置文件:指定配置文件临时目录solrctl instancedir --generate /opt/tmp2.上传文件到 ...

2019-05-11 00:20:50 2217

原创 SourceTree管理gitlab仓库:使用ssh以及http两种方式clone仓库以及push推送文件

一、目的使用SourceTree管理gitliab仓库,高效整洁,清晰明了。二、环境1.Sourcetree2.安装SSH3.Gitlab三、Clone克隆步骤1.SourceTree配置SSH秘钥(1)工具-》选项(2)选择公钥,并且添加,一般位置是在:用户名/.ssh\id_rsa.pub2.GitLab配置SSH秘钥(1)点击“setti...

2019-05-09 19:27:37 8095

原创 CDH集群配置、日志、jar包以及安装目录和常用命令汇总

一、总结目的因为CDH集群的配置、日志、jar包以及安装文件的目录非常多,而且分散,每次绕进去就有种绕不出来的感觉。所以,下决心总结一下,防止自己后面采坑。二、关键目录1.开启应用目录:默认可以直接敲命令行/opt/cloudera/parcels/CDH/bin查询# lsavro-tools kite-dataset sqoop-cre...

2019-05-09 19:23:32 5474 4

原创 CDH中sqoop日志位置

一、目的在CDH服务器中无法找到sqoop日志位置,所以搜索方法查看sqoop日志,在此记录。二、环境1.CDH5.15.2三、步骤1.登录cm,点击下面yarn2.点击“应用程序”可以查看到错误应用3.点击“应用程序详细信息”4.还没有结束,点击“logs”5.还没有完,点击“here”6.看到亲爱的日志四、总结1....

2019-05-07 19:33:34 6452

原创 大数据调试环境配置(3):IDEA外部链接spark调试环境配置

一、目的在远程电脑的windows系统上,部署远程spark代码开发环境,从而提升效率。二、环境1.CDH5.15.22.scala2.11.8三、实现步骤1.新建scala项目(1)依据模板建立maven项目(2)输入项目关键名称(3)选择本地maven仓库对应配置文件settings.xml(4)填写项目名称,确认建立项目(5)修改p...

2019-05-06 23:38:07 358

原创 sqoop 报错:Could not load db driver class: com.microsoft.sqlserver.jdbc.SQLServerDriver

一、问题描述将sql server的数据导入hive,结果报错:Warning: /opt/cloudera/parcels/CDH-5.15.2-1.cdh5.15.2.p0.3/bin/../lib/sqoop/../accumulo does not exist! Accumulo imports will fail.Please set $ACCUMULO_HOME to th...

2019-05-06 19:18:38 4008

原创 solr(九):solrj操作solr cloud,实现数据单条以及批量从mysql导入数据

一、实现功能使用solrj实现对solrcloud的增删改查,从而使整个项目可以实现在项目中应用。二、环境1.solr-4.10.32.zookeeper-3.4.63.apache-tomcat-8.5.124.jdk1.75.centos 6.4三、具体代码1.添加依赖(1)solrj依赖<!--solr--><dependen...

2019-05-01 20:42:26 1084

原创 solr(八):管理solr cloud切片实例(增加和删除)

一、创建有两切片shard1/shard2的collection21.在浏览其中输入http://hadoop01:8080/solr/admin/collections?action=CREATE&name=collection2&numShards=2&replicationFactor=22.输入结果图形界面显示二、删除集群实例colle...

2019-05-01 17:06:09 846

原创 solr(七):solr cloud搭建

一、集群环境1.solr-4.10.32.zookeeper-3.4.63.apache-tomcat-8.5.124.jdk1.75.centos 6.4二、搭建zookeeper集群1.解压缩zookeepertar -zxvf zookeeper-3.4.6.tar.gz -C /opt/modules/solrcloud/2.修改zookeeper名称...

2019-05-01 16:10:59 411

原创 solr报错:ERROR org.apache.solr.cloud.Overseer – could not read the data org.apache.zookeeper.KeeperEx

一、问题描述基于CDH5.7.0的solr构建solr cloud1.准备配置solr-4.10.3-cdh5.7.0/zookeeper-3.4.5-cdh5.7.0/apache-tomcat-8.5.12/jdk1.72.配置好zookeeper集群后,开启tomcat1-4,发现tomcat1自动关闭,无法连接,查看日志报错:tail -f solrcloud/tomca...

2019-05-01 14:57:09 845

Postgresql存储过程.docx

数据库存储过程:包括控制if,循环while/for/loop的实现

2019-07-29

前后端分离-资料.rar

docker部署前后端分离项目的配置文件,基本包含了所有配置需要的文本。可以解决,从网页中拷贝配置文件命令,带有特殊字符的问题,方便快速部署。

2019-07-26

IKAnalyzer2012FF_u1中文分词器

IK中分分词器,在全文检索中非常有用,尤其对于中文文档的全文检索。本压缩包打包文件可以满足使用solr建立全文检索的配置需求。

2019-04-27

hadoop的wordcount简单实例

这是一个wordcount的一个简单实例jar包,仅仅用来做测试。 map类:org.apache.hadoop.wordcount.WordCountMapReduce$WordCountMapper reduce类 org.apache.hadoop.wordcount.WordCountMapReduce$WordCountReducer

2018-12-06

Pyhon数据结构

很经典的python数据结构算法书籍,入门必备!建议人手一本~

2016-10-23

virtual PC 虚拟机独立更新安装包

XP,PC虚拟机安装包pc机独立更新安装包

2015-05-21

串口调试软件

串口调试软件,很方便灵巧的一个实用调试软件!

2015-05-21

HDTune 5.0.rar

小巧而灵活的监测硬盘健康状况的工具,可以看移动硬盘的加电累计时间和硬盘加电次数。

2015-05-21

火狐电子书阅览器EPUBReader

epubReader是一个强大的电子图书阅读器,不但支持本地电子书,包括ePub、umd、TXT和Html/xHtml格式,而且支持在线下载epub格式电子书。如果在本地浏览ePub格式书籍可以使用epubBuilder创建,在测试中ePub格式压缩率高,并且制作速度非常快。

2015-05-21

文件管理器EF_Commander_10.45_64.exe

文件太乱,时常找不到所需要的文件?这就是一款很好的软件,解决问题!

2015-05-21

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除