大数据
文章平均质量分 57
sxjlinux
这个作者很懒,什么都没留下…
展开
-
flume部署安装
flume其实就是通过配置文件来实现不同的功能1、安装配置:(1)首先从https://archive.apache.org/dist/flume/下载需要的版本,如下图所示:(2)使用tar -xzvf apache-flume-1.9.0-bin.tar.gz解压,如下图所示:(3)配置环境变量,将以下信息加入到/etc/profile文件中,如:export FLUME_HOME=/usr/local/src/apache-flume-1.9.0-binexport P原创 2021-03-06 18:05:08 · 419 阅读 · 0 评论 -
JavaDStream转化为JavaPairRDD并对数据进行排序
package com.xxx.busi;import com.xxx.common.DBUtils;import com.xxx.common.JavaSparkSessionSingleton;import com.xxx.common.OffsetUtil;import org.apache.kafka.clients.consumer.ConsumerRecord;impor...转载 2020-05-07 17:46:20 · 1792 阅读 · 0 评论 -
使用idea调试spark信息时,设置不打印INFO信息
1、首先将spark根目录下中的conf目录里的log4j.properties.template文件拷贝到IDEA项目中的src\main\resources目录下并改名为log4j.properties,如下图所示:2、然后在将文件中的log4j.rootCategory=INFO, console修改为log4j.rootCategory=ERROR, console即可,如下图所示...原创 2020-05-07 17:42:10 · 3354 阅读 · 1 评论 -
启动hive可以正常启动,但是创建表,显示表都出现错误FAILED: SemanticException org.apache.hadoop.hive.ql.metadata.HiveExceptio
1、当创建表示出现错误信息如下:SLF4J: Class path contains multiple SLF4J bindings.SLF4J: Found binding in [jar:file:/usr/local/src/apache-hive-2.3.6-bin/lib/log4j-slf4j-impl-2.6.2.jar!/org/slf4j/impl/StaticLogge...原创 2020-01-02 14:33:56 · 3389 阅读 · 0 评论 -
Spark-SQL读取mysql数据
1、首先创建表student,字段有name、age,然后插入数据,如下图所示:2、代码如下:import org.apache.spark.SparkConfimport org.apache.spark.sql.SparkSessionobject SparkReadMysql { def main(args:Array[String]):Unit={ //创建...原创 2020-01-01 15:34:54 · 3527 阅读 · 1 评论 -
centos 7 storm集群搭建
1、搭建zookeeper,请看:https://blog.csdn.net/sunxiaoju/article/details/1030398662、从https://archive.apache.org/dist/storm/apache-storm-1.2.3/地址下载storm,如下图所示:3、下载好后通过tar -xzvf apache-storm-1.2.3.tar.gz解...原创 2019-12-04 19:53:37 · 484 阅读 · 2 评论 -
spark通过scala创建 new KafkaProducer[String,String](props)提示Cannot resolve overloaded constructor `Kafk`
1、spark通过scala创建 new KafkaProducer[String,String](props)提示Cannot resolve overloaded constructorKafkaProducer[String,String],如下图所示:2、出现此错误时使用的类型不对,只需要将HashMap更换为:Properties即可,如下图所示:...原创 2019-11-21 00:38:50 · 4269 阅读 · 1 评论 -
kafka2.2.1+zookeeper3.5.5搭建集群
1、首先配置zookeeper,具体方法请看:https://blog.csdn.net/sunxiaoju/article/details/1030398662、然后从https://archive.apache.org/dist/kafka/2.2.1/位置下载kakfka,如下图所示:3、然后解压到/usr/local/src/目录中,如下图所示:4、配置kafka_2....原创 2019-11-18 12:09:37 · 611 阅读 · 0 评论 -
CentOS7编译安装thrift工具
1、在https://archive.apache.org/dist/thrift/位置选择相应的版本下载,如下图所示:2、然后选择thrift-0.13.0.tar.gz下载,如下图所示:3、通过wget https://archive.apache.org/dist/thrift/0.13.0/thrift-0.13.0.tar.gz命令下载,如下图所示:4、下载好之后...原创 2019-11-14 00:15:54 · 2900 阅读 · 2 评论 -
在启动hbase shell时提示[ERROR] Terminal initialization failed; falling back to unsupported
1、在启动hbase shell时报错,错误与如下:SLF4J: Class path contains multiple SLF4J bindings.SLF4J: Found binding in [jar:file:/usr/local/src/hbase-2.0.6/lib/slf4j-log4j12-1.7.25.jar!/org/slf4j/impl/StaticLoggerBi...原创 2019-11-13 13:14:56 · 1376 阅读 · 0 评论 -
CentOS7安装zookeeper
1、首先从https://archive.apache.org/dist/zookeeper/zookeeper-3.5.5/地址下载zookeeper,如下图所示:注意:一定要下载带有bin的,否则在启动时会出现:Starting zookeeper ... FAILED TO START错误,如下图所示:然后查看zookeeper里的日志显示:错误: 找不到或无法加载主类 or...原创 2019-11-12 23:35:59 · 812 阅读 · 5 评论 -
mac下通过python操作hbase数据库
在开始之前请安装好hadoop hbase,安装方法请参考:https://blog.csdn.net/sunxiaoju/article/details/861834051、首先需要安装Thrift,通过命令brew install thrift安装,如下图所示:2、然后从https://archive.apache.org/dist/hbase/2.0.4/位置下载源码包,注意版本...原创 2019-11-08 22:21:08 · 493 阅读 · 0 评论 -
机器学习基础(1)- ROC曲线理解
本文用于理解ROC曲线的定义,绘制过程及其应用实现,主要用于自我温习回顾基础基本目录如下: 什么是ROC曲线? 1.1 ROC曲线的历史 1.2 ROC曲线的定义 1.3 ROC曲线的应用场景 如何绘制ROC曲线? 2.1 ROC曲线的绘制原理 2.2 ROC曲线绘制的Python实现 ------------------第一菇 - 什么是ROC曲线-------...转载 2019-10-31 20:19:44 · 1965 阅读 · 0 评论 -
python出现TypeError: sequence item 1: expected string or Unicode, int found
1、当运行python出现TypeError: sequence item 1: expected string or Unicode, int found,如下错误信息:org.apache.spark.api.python.PythonException: Traceback (most recent call last): File "/usr/local/src/spark-1....原创 2019-10-14 11:13:24 · 4740 阅读 · 0 评论 -
window+idea搭建spark调试环境
1、首先创建一个项目,如下图所示:2、然后选择maven点击next,如下图所示:3、输入GroupId和Artifactld,如下图所示:4、输入项目名称和选择路径,如下图所示:5、此时会提示,选择Enable Auto-import,如下图所示:6、选择Project Structure,如下图所示:7、然后点击Libraries,点击+号选择Sca...原创 2019-09-23 22:58:11 · 983 阅读 · 1 评论 -
window上使用hadoop命令
1、首先从https://github.com/steveloughran/winutils中下载winutils,这个是编译hadoopwindow版本,可以使用:git clonehttps://github.com/steveloughran/winutils或者从链接:https://pan.baidu.com/s/1Az-BPugE0cIDOrh51JL7rA提取码:9q8i...原创 2019-09-23 20:58:07 · 1135 阅读 · 1 评论 -
CentOS rpm卸载
1、首先使用:rpm -qa | grep java,如下图所示:2、然后依次执行:rpm -e --nodeps python-javapackages-3.4.1-11.el7.noarch,其中python-javapackages-3.4.1-11.el7.noarch是包的名称,如下图所示:3、再次执行rpm -qa | grep java进行查看,如下图所示:4...原创 2019-09-06 10:10:49 · 3939 阅读 · 0 评论 -
CentOS7.5关闭防火墙、禁用防火墙、关闭内核防火墙、以及防火墙的使用
首先CentOS7.5的防火墙改为了firewall-cmd,而非iptables1、防火墙的使用:首先使用netstat -tunlp命令来查看当前已经在使用的端口,如下图所示:2、使用firewall-cmd --list-ports命令来查看已经添加到防火墙的端口,如下图所示:3、添加一个端口:firewall-cmd --permanent --add-port=4...原创 2019-09-06 09:46:07 · 3134 阅读 · 1 评论 -
window+idea搭建远程调试spark环境
1、首选创建项目,创建方法请看:https://blog.csdn.net/sunxiaoju/article/details/1012296202、添加远程同步目录(或者叫远程映射),首选选择Tools->Deployment->Configuration...,如下图所示:3、然后选择+号,选择SFTP,如下图所示:4、输入名称,如下图所示:5、输入要远...原创 2019-09-24 21:39:14 · 1980 阅读 · 1 评论 -
大数据-spark:spark理论
一、spark的运行架构包括集群资源管理器Cluster Manager(standalone:spark自带的、Yarn、Messos)、运行作业的工作节点(Worker Node)、每个应用的任务控制节点(Driver Program简称Driver)、每个工作节点上负责具体任务的执行进程(Executor)。spark采用的是主从架构,包含一个主节点Master(即Driver)和若干个从节...原创 2019-10-06 23:25:17 · 705 阅读 · 0 评论 -
大数据-spark:函数的应用
1、reduceByKey(func):功能是使用func函数合并具有相同键的值。2、groupByKey():功能是对有相同键的值进行分组,比如有四个键值对("spark",1),("spark",2),("hadoop",3),("hadoop",5)采用groupByKey()后结果为:("spark",(1,2)),("hadoop",(3,5))3、keys:返回的是键值对的键列...原创 2019-10-06 23:25:08 · 337 阅读 · 0 评论 -
大数据-hbase:hbase的应用
1、首先安装hbase,安装方法请看:https://blog.csdn.net/sunxiaoju/article/details/858786962、使用hbase shell进入到hbase的shell,如下图所示:3、可以通过list查看当前数据库中所有的表名,如下图所示:4、使用disable ‘person'查看表是否存在,如下图所示:5、使用drop 'p...原创 2019-10-06 23:24:50 · 298 阅读 · 0 评论 -
大数据-spark:spark操作HBase数据库
一、从HBase数据库读1、首先向数据库中插入数据,插入方法请看:https://blog.csdn.net/sunxiaoju/article/details/1019085332、然后打开idea创建maven项目,填写pom.xml,pom.xml内容如下:<?xml version="1.0" encoding="UTF-8"?><project xmln...原创 2019-10-06 23:24:58 · 736 阅读 · 0 评论 -
大数据-spark:综合实例、求top值、文件排序、二次排序
一、求top值实例1、首先准备数据文件,假设有两个文件,内容以逗号分隔,分别是orderid,userid,payment,productid要求求出payment TOP N个,下面给出file1.txt、file2.txt、file3.txt文件,文件内容为:(1)file1.txt文件内容:1,1734,43,1552,4323,12,342233,5442,32,3453...原创 2019-10-06 23:24:38 · 5706 阅读 · 1 评论 -
mac下hive的安装步骤
1、在安装hive之前要先安装hadoop,具体的安装方法请看:https://blog.csdn.net/sunxiaoju/article/details/861834052、从http://mirror.bit.edu.cn/apache/hive/中下载hive,选择2.3.6版本,如下图所示:3、使用tar -xzvf apache-hive-2.3.6-bin.tar....原创 2019-10-06 21:46:09 · 3611 阅读 · 2 评论 -
大数据-spark sql:用法
一、文件的读取,首先准备一个people.json文件和一个people.csv文件,文件内容如下:json文件:{"name":"Michael"}{"name":"Andy","age":30}{"name":"Justin","age":19}csv文件为:name,ageMichael,Andy,30Justin,191、读取和写入json文件(1)从...原创 2019-10-06 23:24:14 · 999 阅读 · 0 评论 -
mac系统使用idea+sbt运行spark程序
1、首先要搭建spark环境,具体方法请看:https://blog.csdn.net/sunxiaoju/article/details/861834052、打开idea,然后新建一个项目,如下图所示:3、选择scala和sbt,然后选择next,如下图所示:4、输入项目名称,然后选择scala版本,此版本需要和spark安装时的scala版本相同,查看spark可以通过在终...原创 2019-09-03 23:44:48 · 2943 阅读 · 1 评论