大数据学习
新时代深漂农民工
不知名码农
展开
-
Doris通过ODBC驱动导入外部表数据
③配置doris驱动(位置/root/doris/apache-doris-be-1.1.3-bin-x86_64/conf/odbcinst.ini)这里我默认你是知道Mysql的安装方法,或者你已经有了Mysql数据库,对Mysql的安装配置就不在讲了,如果这块不清楚,请去百度。4. 导入数据 (从 ext_mysql_TableName 导入到 doris_mysql_TableName 表)ODBC驱动创建外部表(前置条件)安装Mysql ODBC驱动。//通过外部表导入数据。原创 2022-11-23 20:16:23 · 1390 阅读 · 1 评论 -
2021-08-20
package com.sdmctech.connectTF.testimport org.apache.spark.broadcast.Broadcastimport org.apache.spark.sql.{DataFrame, SaveMode, SparkSession}import org.apache.spark.sql.functions._import org.apache.spark.sql.types.IntegerTypeimport scala.collection.原创 2021-08-20 17:20:26 · 154 阅读 · 0 评论 -
CDH6.3.x一键卸载脚本
#!/bin/bash#M服务service cloudera-scm-server stopservice cloudera-scm-agent stop# 卸载CM软件包yum -y remove cloudera-manager-daemons cloudera-manager-agent cloudera-manager-server# 卸载装载点(你的挂载点可能不是这里)umount cm_processesumount cm_processesumount cm_pro..原创 2021-07-26 19:25:20 · 273 阅读 · 0 评论 -
spark连接HBase Demo问题说明
https://sparkbyexamples.com/spark/spark-read-write-using-hbase-spark-connector示例来源如上,直接说问题: // Reading from HBase to DataFrame val hbaseDF = spark.read .options(Map(HBaseTableCatalog.tableCatalog -> catalog)) .format("org.apach原创 2021-07-15 16:59:55 · 558 阅读 · 4 评论 -
spark导出PMML模型bug排查纪实
当遇到大规模逻辑回归LR时,原生spark是解决不了问题的项目场景:本项目需要使用LR模型作为排序模型,输入矩阵为独热编码后的稀疏矩阵。不考虑PMML存储方式的实现很简单,使用的是官方API(我用的是spark2.4.0版本)通过独热编码One-hotCode产生高维稀疏矩阵时,此时还想通过JPMML-spark工具和pipelineModel方式生成PMML文件是不可行。问题描述:一开始我也以为LR模型模型训练后很容易导出为PMML文件。通过下文我开启了PMML探索之旅。模型在原创 2021-06-18 18:42:07 · 520 阅读 · 1 评论 -
windows下的hadoop环境以及snappy的问题
关于windows下的hadoop环境配置请参照以下链接https://blog.csdn.net/qq_35139965/article/details/106744410?utm_medium=distribute.pc_relevant.none-task-blog-baidujs_baidulandingword-4&spm=1001.2101.3001.4242关于snappy的native library的问题,IDEA无法直接连接远程hive表压缩数据的问题请下载添加sna原创 2021-05-20 10:06:33 · 653 阅读 · 2 评论 -
CDH安装时httpd找不到cm的rpm包
你看图,百思不得其解,结果它文件的用户组和用户发生了变化。那肯定读不到。之前肯定转过CDH然后没有清理yum源。/etc/yum.repos.d目录下有很多旧的云源,删除他们。然后重新编辑vi /etc/yum.repos.d/cloudera-repo.repo就能获取到yum源了。真要命这问题。...原创 2021-02-08 15:22:45 · 157 阅读 · 1 评论 -
sqoop将MySQL数据导入到hive的分区表中 shell脚本
#!/bin/bashfirst="$1"second="$2"date_ymd="$3"while [ "$first" != "$second" ]doecho "$first" date_ymd="$first"echo "$date_ymd"./mysql2hivebysqoop2.sh $firstfirst=`date -d "$date_ymd yesterday" "+%Y-%m-%d"`echo "$first"done其中MySQL2...原创 2020-09-08 16:25:54 · 538 阅读 · 0 评论 -
file or directory do not exist。spark配置hbase
当spark联合hbase时需要将hbase下的jar包(会用到的)都拷到spark的lib下(好像有的只有jars目录)。结果,记住千万别分行,要一直用冒号连写。分行,就会报上面的错export SPARK_CLASSPATH=$SPARK_HOME/jars/hbase-client-2.1.0-cdh6.3.2.jar:$SPARK_HOME/jars/hbase-common-2.1.0-cdh6.3.2.jar:$SPARK_HOME/jars/hbase-protocol-2.1.0-cdh原创 2020-08-24 15:19:07 · 385 阅读 · 0 评论 -
hadoop3.0.3安装
本文是概括版的hadoop安装心得,详细步骤大部分历史帖子都说明了。安装环境:Windows10+centos7+vm14+hadoop3.0.3+java1.8环境配置部分虚拟机里的网络NAT,其实你装好了之后,Windows下使用ipconfig/all 会看到一个VMnet8网络,这里是设置好的网关。所以,设置集群静态IP时那个192.168.X.X是不能乱写的。然后,ping不通...原创 2019-04-17 11:14:26 · 649 阅读 · 0 评论 -
window下hadoop、hbase的安装
Java环境那不说了哈,各位肯定静通。下载hadoop-2.7.3.tar.gzhttp://archive.apache.org/dist/hadoop/core/hadoop-2.7.3/原版的hadoop不能在Windows上用的,有些大佬做了替换文件在云盘https://pan.baidu.com/s/1eGra7gKCDbvNubO8UO5rgw yk9u(编译了的二进制文件...原创 2019-05-12 09:00:07 · 1181 阅读 · 0 评论 -
Spark之根据单词频数降序排序的wordcount(Java8版)
package cn.spark.study.core;import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaPairRDD;import org.apache.spark.api.java.JavaRDD;import org.apache.spark.api.java.JavaSparkCont...原创 2019-06-02 19:36:13 · 391 阅读 · 0 评论 -
mahout的配置文件
修改etc / .bashrc export MAHOUT_HOME=/home/hadoop/hadoop/mahout/apache-mahout-distribution-0.12.2export MAHOUT_CONF_DIR=$MAHOUT_HOME/confexport PATH=$MAHOUT_HOME/conf:$MAHOUT_HOME/bin:$PATHexport HADOOP...原创 2018-06-14 14:30:40 · 154 阅读 · 0 评论