qq_15009447-CSDN博客

原创 hive orc格式不能使用load方式

建表插入create table ods_sail2(id bigInt,num int,sail_pirce decimal(6,2),discount DECIMAL(2,1),employee_id BIGINT,sail_date date)row format delimited fields terminated by ','stored as orcload data local inpath 'file:///root/testData/ods_sail.txt' i

2021-07-22 11:07:18 778

原创 mysql 修改字符编码

修改表的字符编码：查看show create table ods_goodsalter table ods_goods default character set utf8；修改字段的字符编码：alter table ods_goods convert to character set utf8;

2021-07-22 10:30:30 157

原创 oracle 自增长、触发器、函数

oracle 跟mysql 实现主键自增长的方式不一样实现自增create table student(id number,name VARCHAR2(32),primary key(id));select * from student;create sequence student_seq minvalue 1 nomaxvalueincrement by 1 start with 1 nocache;select student_seq.nextval from dual;cr

2021-07-11 19:08:37 475 1

原创 Flink——KeyedProcessFunction

package process;import kb11.beans.SensorReading;import org.apache.flink.api.common.state.ValueState;import org.apache.flink.api.common.state.ValueStateDescriptor;import org.apache.flink.api.java.tuple.Tuple;import org.apache.flink.configuration.Confi

2021-07-07 15:40:44 691

原创 idea 不常用但是很有用的命令

alt+7 查看当前类的所有方法、变量等ctrl+alt+u 查看类的关系ctrl+shift+/

2021-07-01 22:57:28 48

原创 Flink——WaterMark

WaterMark：数据会因为网络和背压等原因导致乱序的产生，对于late element 不能一直等待，要有一个机制来保证在一个特定的时间后，必须触发windows去计算，这个机制就是WaterMarkpackage kb11.window;import kb11.beans.SensorReading;import org.apache.commons.collections.IteratorUtils;import org.apache.flink.api.common.functions

2021-07-01 15:49:24 160

原创 Flink —— 滑动窗口延迟等待

source：kafkatransform：求maxsink：控制台输出package kb11.window;import kb11.beans.SensorReading;import org.apache.flink.api.common.functions.MapFunction;import org.apache.flink.api.common.functions.ReduceFunction;import org.apache.flink.api.common.serializ

2021-06-30 18:44:09 728

原创 Flink 算子map、split、union、select

package _20210628import java.util.{Collections, Properties}import org.apache.flink.api.common.serialization.SimpleStringSchemaimport org.apache.flink.streaming.api.scala.{ConnectedStreams, DataStream, KeyedStream, StreamExecutionEnvironment}import org

2021-06-29 16:02:06 177

原创 flink 读取kafka数据写入到mysql scala版

package _20210628import java.sql.{Connection, DriverManager, PreparedStatement}import java.util.Propertiesimport org.apache.flink.api.common.serialization.{DeserializationSchema, SimpleStringSchema}import org.apache.flink.configuration.Configuration

2021-06-28 19:17:07 706 3

原创 SparkStreaming 消费kafka 小案例

package _20210622import org.apache.kafka.clients.consumer.{ConsumerConfig, ConsumerRecord}import org.apache.spark.SparkConfimport org.apache.spark.streaming.dstream.{DStream, InputDStream}import org.apache.spark.streaming.kafka010.{ConsumerStrategies,

2021-06-22 11:30:20 184

原创 sparkStreaming-wordcount 及端口占用查看命令 lsof

package _20210622import org.apache.spark.sql.SparkSessionimport org.apache.spark.streaming.dstream.ReceiverInputDStreamimport org.apache.spark.streaming.{Seconds, StreamingContext}import org.apache.spark.{SparkConf, SparkContext}object SparkStreanDe

2021-06-22 10:43:04 118

原创 Error during job, obtaining debugging information... FAILED: Execution Error, return code 2 from org

create table userbehavior_partitioned2(user_id string,item_id string,category_id string,behavior_type string)partitioned by (time string)insert into userbehavior_partitioned2 partition(time)select user_id,item_id,category_id,behavior_type,from_u

2021-06-17 21:23:11 2040

原创 java.lang.NumberFormatException: For input string: “spu_price“

scala> rdd.filter(x=> x.split(",")(5)!=" ").map(x=>(x.split(",")(1),x.split(",")(5))).map(x=>(x._1,x._2.toDouble)).reduceByKey(_+_).collect.foreach(println)分析：出现报错先看懂啥意思，上面的意思说因为"spu_price"类型转换异常。刚开始想的是：切分之后拿到的数组的某个元素就是string啊，而scala的str

2021-06-12 16:34:58 1427 1

原创 hive 报错Starting to launch local task to process map join； maximum memory = 518979584 Exception

Starting to launch local task to process map join; maximum memory = 518979584Exception in thread “main” java.lang.OutOfMemoryError: Java heap spacemapjoin的时候 OOM了。MapJoin简单逻辑：读取小文件，缓存到distributeCache 再从cache里边读，和大表进行关联。简单来说就是这边把表读到内存中，内存塞不下了爆了OOM.

2021-06-10 19:20:19 904

原创 kafka往hbase 写文件时需要在C:\Windows\System32\drivers\etc\hosts配置的文件

找到文件C:\Windows\System32\drivers\etc\hosts打开之后添加 hbase 所在 ip添加完之后再试试

2021-06-09 15:28:36 96

原创 hive 映射 mongodb

代码create external table ${db}.mg_train(user_id String,event_id String,invited String,time_stamp String,interested String)stored by 'com.mongodb.hadoop.hive.MongoStorageHandler'with serdeproperties('mongo.columns.mapping'='{"user_id":"user","e

2021-06-08 16:34:30 340

原创 Hive映射 Hbase

hive 映射hbase

2021-06-08 16:26:14 525

原创去 https://mvnrepository.com/ 网址找jar包

找monog-java-driver-3.12.7.jar 为例https://mvnrepository.com/找你想要的的版本（同级版本挑多的下）可以直接下载，也可以在maven pom.xml中贴上去让maven下载再去找jar包

2021-06-08 10:42:57 472

原创 hive不是很常用的命令和部分hdfs命令

hdfs 内存使用情况linux查看yarn状态命令yarn node -list allwep port 8088 查看yarn50070 dataNode不是很健康的节点需要删除文件腾出空间不然mapreduce不能运行查看当前目录下的文件占的内存大小du -h -x --max-depth=1//查看内存使用df -h如遇到hive不能起的情况（元数据相关的原因）尝试起mysql 和如下命令hive --service metastore &删除库

2021-06-08 08:26:02 98

原创 maven 项目中查找jar包源文件

maven下下来的jar包都在setting.xml文件中，去找这个文件（如果记不住的话按图操作）看图操作点击Maven Projects 点击扳手图标复制目录，去文件夹中搜索D:\apache-maven\apache-maven-3.6.1\conf\打开往下翻找到d:/jarstore再去文件夹中找这个目录，里面全是jar包接下来怎么去找org.mongodb.mongo-hadoop jar包呢org.mongodb.mongo-hadoopmongo-hadoop

2021-06-07 15:56:42 2141

原创 hbase 查询行数

第一种：在hbase命令行count ‘event_db:users’,INTERVAL=>1000每1000行显示第二种：在linux命令行hbase org.apache.hadoop.hbase.mapreduce.RowCounter ‘event_db:users’第二种花的时间比第一种花的时间少很多（数据量大的时候更明显）...

2021-06-07 10:50:44 805

原创 Maven Exception in thread “main“ java.lang.NoSuchMethodError: org.apache.hadoop.conf.Configuration.g

package _0605import org.apache.spark.rdd.RDDimport org.apache.spark.sql.{DataFrame, Row, SparkSession}import org.apache.spark.sql.types.{IntegerType, StringType, StructField, StructType}import org.apache.spark.{SparkConf, SparkContext}object ToMnogo

2021-06-06 09:12:56 693

原创 mongodb linux增删改查操作

mongodb 安装[root@hadoop103 software]# tar -zxf mongodb-linux-x86_64-rhel70-4.0.24.tgz[root@hadoop103 software]# mv mongodb-linux-x86_64-rhel70-4.0.24 mogodb[root@hadoop103 software]# cd mongodb新建数据库目录： /root/software/mongodb/data/db新建数据库日志：/root/sof.

2021-06-05 18:49:40 155

原创 mongodb 的java代码的常用增删改查等操作

package _0605;import com.mongodb.BasicDBObject;import com.mongodb.DB;import com.mongodb.MongoClient;import com.mongodb.MongoClientOptions;import com.mongodb.client.*;import com.mongodb.client.model.Filters;import com.mongodb.client.result.DeleteRes

2021-06-05 18:47:35 74

原创 mongodb 报错 Exception in thread “main“ com.mongodb.MongoBulkWriteException: Bulk write operation erro

---------------------test类 kafkaToMango2 ------------------------------package _20210531.oop.kafkatoHbaseAndMongo.oop;import _20210531.oop.kafkatoHbaseAndMongo.oop.mongohandler.TrainHandlerMongo;import _20210531.oop.kafkatoHbaseAndMongo.oop.worker.Work

2021-06-05 18:44:43 1572

空空如也

空空如也