光于前裕于后的博客

记录一下新学知识,如有侵权请告知

排序:
默认
按更新时间
按访问量

Ambari离线安装Solr

Ambari没有集成Solr,但我在github上找到一个解决方案,如果您不需要离线安装可以参考下面链接: https://imaidata.github.io/blog/2017/09/18/%E7%94%A8Ambari%E9%83%A8%E7%BD%B2SOLR/ 1.下载压缩包并解压 ...

2018-09-05 13:08:28

阅读数:122

评论数:2

使用DataX将Hive与MySQL中的表互导

一、DataX简介(摘自https://github.com/alibaba/DataX) DataX Features DataX详细介绍 Quick Start Support Data Channels 二、开始正文 备注: 1.可能会遇到的错误 2.MysqlWriter 针对 M...

2018-08-30 15:25:44

阅读数:756

评论数:1

使用Spark/Java读取已开启Kerberos认证的HBase

1.赋予drguo用户相应的权限 2.KDC中创建drguo用户并导出相应的keytab文件 [root@bigdata28 ~]# kadmin.local Authenticating as principal drguo/admin@AISINO.COM with passwo...

2018-07-18 14:10:42

阅读数:557

评论数:0

CentOS7完全离线安装配置NTP、MySQL

NTP及依赖 rpm包下载: MySQL及依赖 rpm包下载: NTP安装 # 修改系统时间 [root@10-121-2-96 opt]# timedatectl set-ntp no [root@10-121-2-96 opt]# timedatectl set-time &...

2018-07-05 16:01:43

阅读数:1092

评论数:4

CDH集群启用Kerberos

一、安装kdc 1.在集群中找台机器安装KDC yum install krb5-server krb5-libs krb5-workstation 如果您的机器不能联网请使用rpm包安装: 这台机器自带了kerberos client的两个包,需要先升级再安装server [roo...

2018-06-14 13:39:34

阅读数:242

评论数:0

使用Keras实现多层前馈神经网络对Iris(鸢尾花卉)数据集进行多分类

Keras优点多多,搭建模型快实现简单,不过建议了解神经网络基本原理后再用。 backend建议用TensorFlow,比Theano快很多。 from sklearn.datasets import load_iris from sklearn.model_selection...

2018-04-16 20:37:59

阅读数:711

评论数:2

使用python获取pdf上的文字(in win10)

环境版本: WIN10 | Python 3.6 | ImageMagick-6.9.9-38-Q8-x64-dll | Ghostscript 9.22 for Windows 整体思路:1.将PDF转为图片后进行文字识别 | 2.使用pdfminer解析pdf文件(准确率更高...

2018-03-17 22:09:25

阅读数:1902

评论数:0

SolrCloud Collection 创建

环境版本: CDH 5.12.0; Solr 4.10.3

2017-11-29 19:38:18

阅读数:1091

评论数:8

Flume+Kakfa+Spark Streaming整合(运行WordCount小例子)

环境版本:Scala 2.10.5; Spark 1.6.0; Kafka 0.10.0.1; Flume 1.6.0

2017-11-21 21:08:00

阅读数:440

评论数:5

Spark MLlib - Iris(鸢尾花卉)数据集 LogisticRegression(逻辑回归)

所用数据:http://download.csdn.net/download/dr_guo/9946656 环境版本:Spark 1.6.1; Scala 2.10.4; JDK 1.7

2017-08-23 15:30:45

阅读数:1986

评论数:0

Spark 分层抽样与求最大值最小值

详见注释 package com.beagledata.sparkimport org.apache.spark.{SparkConf, SparkContext}/** * 分层抽样 * * Created by drguo on 2017/8/21. * blog.csdn.n...

2017-08-21 16:05:38

阅读数:1233

评论数:0

Spark处理XML文件与XLSX/XLS文件

方法有很多,现提供一种比较简单的方法。

2017-08-18 17:29:43

阅读数:5271

评论数:1

Oracle表空间释放与增加表空间大小

1.drop表后并没有释放磁盘空间,这时可以通过缩小表空间释放磁盘存储注:一个表空间可以有多个datafile查看所有的datafile,找到你要缩小的datafile select file#, name from v$datafile 从上面获得要缩小的文件id是4,查看此文件有多少个bloc...

2017-04-20 10:35:28

阅读数:3652

评论数:3

Ranger用户同步于LDAP

LDAP[root@hdp certs]# ldapsearch -x -b "dc=wondersoft,dc=cn" 。。。 # trust admins, groups, accounts, wondersoft.cn dn: cn=trust admins,cn=gro...

2017-02-22 14:47:58

阅读数:1834

评论数:2

Ambari安装freeIPA

环境:Ambari-2.4.2、HDP-2.5.3、CentOS 6.5 freeIPA包含了Kerberos、ldap等服务,经调研感觉可以用它来做认证和统一用户管理,用户都存在freeIPA的ldap中。

2017-02-22 11:38:30

阅读数:2888

评论数:8

Kerberos与Ranger、KMS整合

环境:Ambari-2.4.2、HDP-2.5.3、CentOS 6.5 1.之前用的是HDP2.4,装上Kerberos后Ranger的策略就失效了,KMS对秘钥也无法管理(WEB端),总感觉是因为哪里没配置好,但装装卸卸好多遍还是不行。http://docs.hortonworks.com/H...

2017-02-07 11:56:15

阅读数:4085

评论数:4

使用Ambari给HDP集群安装Kerberos

环境:Amabri 2.2.2、HDP 2.4.2、CentOS 6.5

2016-12-09 10:28:05

阅读数:5911

评论数:24

Hadoop单机、伪分布式集群搭建(十分详细)

要搭建Hadoop HA集群请戳这 今天终于把老师布置的项目做完了,闲来无事在机房的电脑上装了Ubuntu(用EasyBCD步骤非常简单,请自行百度),上学期在虚拟机上装了Hadoop,现在可以在实体机搭个伪分布式了。 下面我就一边搭建一边写怎么搭建Hadoop伪分布模式。 ...

2016-11-25 17:15:34

阅读数:15741

评论数:5

异常用户发现(Spark MLlib+Spark SQL+DataFrame)

整体思路:对原始数据提取特征后,使用KMeans做聚类,把元素明显少的类视为异常类,类中的用户视为异常用户,打上标签,之后用随机森林进行分类,训练出模型后对新数据进行分类,找出异常用户。

2016-11-25 16:47:31

阅读数:2679

评论数:0

Spark MLlib RandomForest(随机森林)建模与预测

我要做的是发现异常用户,而我们之前没有已经打上异常不异常标签的样本,所以对原始数据进行清洗、特征工程、降维后用Mahout/R做的聚类,打上了标签,本来打算继续用Mahout/R做分类,Mahout太慢,而用R实现KNN、RandomForest之后发现无法应用到真实项目上,所以用了MLlib。下...

2016-11-21 12:03:57

阅读数:5988

评论数:4

提示
确定要删除当前文章?
取消 删除
关闭
关闭