大数据相关
文章平均质量分 54
fanghailiang2016
善战者无赫赫之功
展开
-
spark hive数据导出到mysql 以及和 mysql进行表连接查询
数据准备data/department.txt1 技术部2 运营部3 市场部4 财务部data/employee.txt1 1 方海亮 302 1 何胜强 353 1 林洪敏 324 2 丁泽林 275 2 李元元 256 3 王小飞 287 4 刘亦亭 31bin/spark-sqlcreate database if not exists hadoop14;use hadoop14;create table department (id int, n原创 2020-08-13 08:33:27 · 775 阅读 · 0 评论 -
spark sql 整合hive helloworld
sparkSQL整合hive需要hive开启thrifthive-site.xml<property> <name>hive.metastore.uris</name> <value>thrift://mustafa-PC:9083</value></property>开启hive的metastore服务cd $HIVE_HOMEbin/hive --service metastore &原创 2020-08-09 22:47:50 · 134 阅读 · 0 评论 -
hadooop-3,3,0 linux 64位编译包以及spark-3.0.0配合hadoop-3.3.0 64位源码编译包下载
目前hadoop最新的版本是3.3.0,spark最新的版本是3.0.0。花了一天的时间,编译了hadoop和spark的最新版并进行了资源整合。其中,hadoop包含了snappy压缩包等等。放在我的百度云盘上,分享给各位看官下载~hadoop-3.3.0 linux64位源码编译包:链接: https://pan.baidu.com/s/1BEDbOxHJl5HzXVyB5T9gSw 密码: dsq7spark-3.0.0-hive-2.3.7-hadoop-3.3.0 linux64.原创 2020-07-26 23:45:06 · 657 阅读 · 2 评论 -
hbase mapReduce操作
需求:将学生表的相关数据的部分列导入到另一张表中学生表的数据参考我的上一篇博客https://blog.csdn.net/fanghailiang2016/article/details/107218724map类负责将原始表的每一行按照需求解析成put对象public class TestHbaseMapper extends TableMapper<ImmutableBytesWritable, Put> { @Override protected void .原创 2020-07-12 23:22:20 · 137 阅读 · 0 评论 -
导入csv到hbase
准备工作先将我们需要导入hbase的那个csv传到hdfs文件系统上:bin/hdfs dfs -mkdir /user/mustafa/hbase/inputbin/hdfs dfs -put /home/mustafa/Desktop/groups.csv /user/mustafa/hbase/input在hbase中创建一张需要导入数据到其中的表export HBASE_HOME=/data/home/software/hbase-1.2.0-cdh5.16.2# 进入hb原创 2020-07-12 11:30:34 · 1305 阅读 · 0 评论 -
java操作cloudera版的hbase数据库
gradle引入依赖:implementation "org.apache.hbase:hbase-client:1.2.0"获取表 public static Table getTable(String name) throws IOException { Configuration configuration = HBaseConfiguration.create(); Connection connection = ConnectionFactor原创 2020-07-09 00:29:43 · 334 阅读 · 0 评论 -
hbase环境搭建及使用
conf/hbase-env.shexport JAVA_HOME=/data/home/software/jdk1.8.0_202export HBASE_MANAGES_ZK=falsehbase-site.xml<configuration> <property> <name>hbase.tmp.dir</name> <value>/home/mustafa/.hadoop/hbase/tmp</v原创 2020-07-08 00:12:01 · 116 阅读 · 0 评论 -
Hadoop+Hive+Sqoop 离线日志分析 公会女生打招呼数据
## 需求背景:我们将女生主动和男生建立联系定义为女生打招呼,app中女生打招呼的方式有两种:主动发起文字聊天和主动发起音视频聊天。这些数据的采集通过在应用程序中增加埋点,最终成为日志文件保存在服务器上。日志内容如下:文字聊天,日志文件 social_talklist_im_2020-06-23.log,内容示例如下:```verilog2020-06-23 23:59:44,10.3.1.32,[8988487,9050759]2020-06-23 23:59:47,10.3.1.32,.原创 2020-06-28 01:04:46 · 275 阅读 · 0 评论 -
hive常用知识点汇总
1. desc extended/formated tablename描述表结构,如:desc extended im;desc formatted im;2. bin/hive -e -f-e 不进入hive命令行执行sql语句,如:bin/hive -e "select * from im" --database jiazu > ~/Desktop/im.txt-f 执行外部sql文件,如:bin/hive -f ~/Desktop/1.sql > ~/原创 2020-06-21 09:23:18 · 320 阅读 · 0 评论 -
hadoop 3.2.1 hdfs高可用集群搭建
hdfs集群搭建,参照这篇文章:hadoop3.2.1集群搭建搭建zookeeper集群,参照这篇文章:zookeeper集群搭建在此基础上,配置hdfs文件系统nameservice的高可用创建journalnode进程所在的目录mkdir /home/software/hadoop-3.2.1/data/journalnodedfs.xml配置 <property> <name>dfs.nameservices</name&原创 2020-06-06 17:11:02 · 354 阅读 · 0 评论 -
yarn/spark 历史服务器 jobhistory的启动以及整合
hadoop开始jobhistory服务器运行命令sbin/mr-jobhistory-daemon.sh start historyserver相关配置项在文件mapred-site.xml中配置,包括如下mapreduce.jobhistory.address jobhistory内部路径mapreduce.jobhistory.webapp.address jobhistory网页路径如果在历史服务器中需要查看日志信息,需要在yarn-site.xml中进行配置,如下yar.原创 2020-05-29 07:48:39 · 2150 阅读 · 1 评论 -
hadoop中secondaryNameNode的作用
namenode从内存中读取,如果无法从内存中读取元数据信息的话,会从本地磁盘的以下两个地方读取:fsimage 景象文件 edites 编辑日志文件secondaryNameNode则定期合并edites到fsimage原创 2020-05-24 22:14:52 · 291 阅读 · 0 评论 -
spark的cdh版本编译
1.下载spark1.4源码包:spark-1.4.0.tgz2.解压,修改make-distribution.sh文件VERSION=1.4.0SCALA_VERSION=2.10.4SPARK_HADOOP_VERSION=2.5.0-cdh5.3.6SPARK_HIVE=1# VERSION=$("$MVN" help:evaluate -Dexpression=project.v...原创 2018-05-07 17:57:30 · 1120 阅读 · 4 评论 -
java WordCount MapReduce实现源码 使用snappy压缩
maven做如下配置groupId:org.apache.hadoopartifactId:hadoop-clientversion:${hadoop.version}类申明,继承configured类,并实现Tool接口public class WordCount extends Configured implements Tool {}实现Tool接口的run方法 public int ru...原创 2018-05-13 22:29:32 · 236 阅读 · 1 评论 -
hbase环境搭建的相关配置
从cloudera官网下载hbase,下载地址,安装配置如下:环境配置,conf/hbase-env.sh:## 指定jdk路径export JAVA_HOME=/usr/local/jdk/## 使用自己的zookepperexport HBASE_MANAGES_ZK=false指定备份master-server,backup-masters:hadoop2基本配置,hbase-site...原创 2018-05-06 20:33:55 · 169 阅读 · 1 评论 -
hive 3.1.2 环境搭建(使用mysql)以及示例运行
hive-env.shHADOOP_HOMEHIVE_CONF_DIRHIVE_AUX_JARS_PATHhive-site.xml<configuration> <property> <name>hive.metastore.warehouse.dir</name> <value>/hive_wa...原创 2018-05-12 22:52:08 · 579 阅读 · 1 评论 -
Hadoop 2.x 源码编译 一步步图文介绍,包含snappy编译
Hadoop2.x源码编译◆编译Hadoop环境要求:1、必须在Linux系统下进行编译;2、编译使用的JDK版本必须是1.6以上;3、编译需要使用Maven(因为源码是由Maven管理的)版本3.0以上;4、安装Findbugs插件工具,版本1.3.95、安装CMake编译工具,版本2.6或最新版本6、安装zlibdevel7、安装openss...原创 2018-05-12 11:05:51 · 871 阅读 · 1 评论 -
hive操作hbase数据库
hive作为hbase的客户端,需要将hbase的相关jar包和一些配置拷贝到自己的配置中,具体如下:hive-site.xml<property> <name>hbase.zookeeper.quorum</name> <value>hadoop1,hadoop2,hadoop3</value> ...原创 2018-05-05 17:46:08 · 201 阅读 · 1 评论