光于前裕于后
本人有多年大数据与机器学习开发经验,并乐于总结与分享,如有侵权或写的不对的地方可以私信我,有问题也可以问我哟,free~
展开
-
Hive On Spark报错:Remote Spark Driver - HiveServer2 connection has been closed
执行报错日志为:Failed to monitor Job[-1] with exception ‘java.lang.IllegalStateException(Connection to remote Spark driver was lost)’ Last known state = SENTFAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.spark.SparkTask. Unable to se原创 2022-01-26 16:21:24 · 4288 阅读 · 0 评论 -
使用Python切换用户执行Hive SQL
在shell中执行hive sql:hive -e "hive sql"切换用户执行:sudo su - hive -c 'hive -e "hive sql"'但是当用python调用shell时,发现单双引号不够用了咋办呢???使用<<EOF,见下:hive_cmd = 'sudo su - hive -c "hive<<EOF\n' + hive_ddl + '\nEOF"'...原创 2022-01-12 14:55:23 · 1434 阅读 · 3 评论 -
使用idea编写spark程序并提交到yarn集群例子
需提前安装jdk、scala1.创建新项目2.增加Maven3.修改pom.xml文件&amp;lt;?xml version=&quot;1.0&quot; encoding=&quot;UTF-8&quot;?&amp;gt;&amp;lt;project xmlns=&quot;http://maven.apache.org/POM/4原创 2019-03-04 15:34:41 · 3689 阅读 · 3 评论 -
Spark MLlib RandomForest(随机森林)建模与预测
我要做的是发现异常用户,而我们之前没有已经打上异常不异常标签的样本,所以对原始数据进行清洗、特征工程、降维后用Mahout/R做的聚类,打上了标签,本来打算继续用Mahout/R做分类,Mahout太慢,而用R实现KNN、RandomForest之后发现无法应用到真实项目上,所以用了MLlib。下面是用R获取正负样本#1.将kmeans标出的异常类标为1作为正样本,其它类标为0作为负样本#1.1原创 2016-11-21 12:03:57 · 8257 阅读 · 4 评论 -
异常用户发现(Spark MLlib+Spark SQL+DataFrame)
整体思路:对原始数据提取特征后,使用KMeans做聚类,把元素明显少的类视为异常类,类中的用户视为异常用户,打上标签,之后用随机森林进行分类,训练出模型后对新数据进行分类,找出异常用户。原创 2016-11-25 16:47:31 · 3724 阅读 · 0 评论 -
HDFS用户权限管理
客户端需要向HDFS写入文件,这时往往会遇到权限问题。 解决办法:[hadoop@DEV21 cron]$ hdfs dfs -chown hadoop:hadoop /result#先将目录改为属于hadoop用户组[hadoop@DEV21 cron]$ hdfs dfs -ls /Found 3 itemsdrwxr-xr-x - hadoop supergroup原创 2016-06-27 14:35:55 · 6113 阅读 · 1 评论 -
Spark:Yarn-cluster和Yarn-client区别与联系
我们都知道Spark支持在yarn上运行,但是Spark on yarn有分为两种模式yarn-cluster和yarn-client,它们究竟有什么区别与联系?阅读完本文,你将了解。 Spark支持可插拔的集群管理模式(Standalone、Mesos以及YARN ),集群管理负责启动executor进程,编写Spark application 的人根本不需要知道Spark用的是什么集群管转载 2016-04-26 21:27:18 · 2447 阅读 · 0 评论 -
Spark Streaming 2.0 读取Kafka 0.10 小例子
环境版本: Scala 2.11.8; Kafka 0.10.0.1; Spark 2.0.0如需Scala 2.10.5; Spark 1.6.0; Kafka 0.10.0.1版本请看这篇:Flume+Kakfa+Spark Streaming整合import org.apache.kafka.common.serialization.StringDeserializerimpor...原创 2019-11-08 14:29:19 · 471 阅读 · 0 评论 -
基于HDP使用Flume实时采集MySQL中数据传到Kafka
注意:HDP中Kafka broker的端口是6667,不是90921.将flume-ng-sql-source-1.5.2.jar,mysql-connector-java.jar放入Flume安装目录lib下原创 2019-10-21 17:22:02 · 768 阅读 · 0 评论 -
MapReduce Input Split(输入分/切片)详解
看了很多博客,感觉没有一个说的很清楚,所以我来整理一下。Hadoop 2.x默认的block大小是128MB,Hadoop 1.x默认的block大小是64MB,可以在hdfs-site.xml中设置dfs.block.size,注意单位是byte。分片大小范围可以在mapred-site.xml中设置,mapred.min.split.size mapred.max.split.size,minSplitSize大小默认为1B,maxSplitSize大小默认为Long.MAX_VALUE = 92原创 2016-04-14 13:56:44 · 37080 阅读 · 3 评论 -
Kafka集群搭建及简单使用(控制台与Java客户端)
官方文档:http://kafka.apache.org/documentation.html#introductionKafka其实就是分布式的消息队列,如果不知道消息队列请看这:http://blog.csdn.net/dr_guo/article/details/507636791.下载去官网下载即可2.解压3.配置环境变量/etc/profile4.安装zo原创 2016-04-03 16:15:16 · 3426 阅读 · 0 评论 -
Storm集群搭建
1.下载去官网下载即可2.解压3.配置环境变量/etc/profile4.安装zookeeperZooKeeper完全分布式集群搭建5.修改配置文件conf/下的storm.yaml#所使用的zookeeper集群主机storm.zookeeper.servers: - "drguo3" - "drguo4" - "drguo5"原创 2016-04-01 23:00:00 · 634 阅读 · 0 评论 -
使用Sqoop将数据在HDFS与MySQL互导
1.去官网下载sqoop,直接百度即可2.解压后进入conf目录guo@drguo1:/opt/sqoop-1.4.6.bin__hadoop-2.0.4-alpha/conf$ cp sqoop-env-template.sh sqoop-env.sh3.在sqoop-env.sh添加各种home#Set path to where bin/hadoop is avail原创 2016-03-29 15:21:24 · 4761 阅读 · 0 评论 -
HBase HA高可用集群搭建及HBase Shell简单使用
1.先搭建Hadoop HA集群(包含ZooKeeper搭建),请看这:Hadoop HA高可用集群搭建(2.7.2)2.我只有五台机器,所以是这么规划的:drguo1/2 HMaster drguo3/4/5 HRegionServer3.先在drguo1上安装配置好之后,再拷给2/3/4/5。4.正式开始4.1去官网下载HBase,最低要0.96版本,之前版本不支持Ha原创 2016-03-27 17:28:28 · 6290 阅读 · 5 评论 -
Hadoop HA高可用集群搭建(2.7.2)
1.集群规划:2.前期准备:3.搭建zookeeper集群(drguo3/drguo4/drguo5)原创 2016-03-24 22:33:12 · 17625 阅读 · 5 评论 -
ZooKeeper完全分布式集群搭建
前面一样的我就不写了,请戳这里zookeeper伪分布配置原创 2016-03-24 21:23:30 · 6828 阅读 · 1 评论 -
使用Spark/Java读取已开启Kerberos认证的HBase
1.赋予drguo用户相应的权限2.KDC中创建drguo用户并导出相应的keytab文件[root@bigdata28 ~]# kadmin.local Authenticating as principal drguo/admin@AISINO.COM with password.kadmin.local: addprinc drguo/bigdata28WARNING...原创 2018-07-18 14:10:42 · 3413 阅读 · 0 评论 -
SolrCloud Collection 创建
环境版本: CDH 5.12.0; Solr 4.10.3原创 2017-11-29 19:38:18 · 4012 阅读 · 8 评论 -
Flume+Kakfa+Spark Streaming整合(运行WordCount小例子)
环境版本:Scala 2.10.5; Spark 1.6.0; Kafka 0.10.0.1; Flume 1.6.0原创 2017-11-21 21:08:00 · 937 阅读 · 5 评论 -
Spark MLlib - Iris(鸢尾花卉)数据集 LogisticRegression(逻辑回归)
所用数据:http://download.csdn.net/download/dr_guo/9946656环境版本:Spark 1.6.1; Scala 2.10.4; JDK 1.7原创 2017-08-23 15:30:45 · 5099 阅读 · 0 评论 -
Spark 分层抽样与求最大值最小值
详见注释package com.beagledata.sparkimport org.apache.spark.{SparkConf, SparkContext}/** * 分层抽样 * * Created by drguo on 2017/8/21. * blog.csdn.net/dr_guo */object PCSStratifiedSampling { val c原创 2017-08-21 16:05:38 · 3473 阅读 · 0 评论 -
Spark处理XML文件与XLSX/XLS文件
方法有很多,现提供一种比较简单的方法。原创 2017-08-18 17:29:43 · 10721 阅读 · 1 评论 -
使用Flume向HDFS持久化数据(日志)
1.去官网下载Flume(使用Flume需安装jdk1.6以上版本) 2.解压后进入其根目录新建checkpoint和dataDi目录 3.进入conf目录,新建hdfs_sink.confagent.sources = r1agent.channels = c1agent.sinks = k1agent.sources.r1.type = execagent.sources.r1.com原创 2016-08-05 17:00:43 · 1671 阅读 · 0 评论 -
基于Spark MLlib和Spark Streaming实现准实时分类
环境版本: ·Spark 2.0 ·Scala 2.11.8 在网上搜索Spark MLlib和Spark Streaming结合的例子几乎没有,我很疑惑,难道实现准实时预测有别的更合理的方式?望大佬在评论区指出。本篇博客思路很简单,使用Spark MLlib训练并保存模型,然后编写Spark Streaming程序读取并使用模型。需注意的是,在使用Spark MLlib之前我使用了python查看分析数据、清洗数据、特征工程、构造数据集、训练模型等等,且在本篇中直接使用了python构造的数据集。原创 2020-05-21 10:55:27 · 906 阅读 · 0 评论 -
HBase 1.1.2 REST API 初体验
环境版本: ·HDP 2.5.3 ·HBase 1.1.2HBase提供了REST API,为开发者增加了更多选择。我们可以使用HBase REST API对表进行增删改查,但本篇博客主要使用查询功能。请注意HBase版本! 请注意HBase版本! 请注意HBase版本!1 启动HBase REST Server# 前台运行[root@hqc-test-hdp3 ~]# hbase rest start -p88882020-05-12 16:26:02,062 INFO [main] u原创 2020-05-13 11:28:36 · 1140 阅读 · 1 评论 -
Hive、Beeline、Spark-SQL、Spark-Shell CLI使用
文章目录1 Hive2 Beeline3 Spark-SQL4 Spark-shell1 Hive[root@hqc-test-hdp1 ~]# su hdfs[hdfs@hqc-test-hdp1 root]$ cd# 准备数据[hdfs@hqc-test-hdp1 ~]$ vim phone.txt1 iphone5 2G 5999.02 oneplus 3G 2299.03 ...原创 2019-10-29 09:35:39 · 1311 阅读 · 0 评论 -
工业大数据介绍
一、工业大数据的定义工业大数据是指在工业领域,主要通过传感器等物联网技术进行数据采集、传输得来的数据,由于数据量巨大,传统的信息技术已无法对相应的数据进行处理、分析、展示,而在传统工业信息化技术的基础上借鉴了互联网大数据的技术,提出新型的基于数据驱动的工业信息化技术及其应用。二、工业大数据特点工业大数据主要有以下几个特点:1、数据来源主要是企业内部,而非互联网个人用户;2、数据采集方式更...原创 2019-03-11 13:09:49 · 6546 阅读 · 0 评论 -
基于HDP使用Flume实时采集MySQL中数据传到Kafka+HDFS或Hive
环境版本: HDP-2.5.3注意:HDP中Kafka broker的端口是6667,不是9092前言有两种方式可以将数据通过flume导入hive中,一是直接sink到hive中,二是sink到hdfs中,然后在hive中建个外部表。原创 2019-11-05 15:45:05 · 1654 阅读 · 0 评论