自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(42)
  • 资源 (6)
  • 收藏
  • 关注

原创 hdfs--

HDFS是一个分布式的文件系统我们可以用命令来访问系统的文件- 访问HDFS的命令 hadoop dfs -- 已过时 hadoop fs -- 使用范围更大 hdfs dfs -- 使用范围较小 hadoop fs和hdfs dfs之间没有大的区别- 技巧 1.在命令行中输入hdfs ,回车后可以提示hdfs后可以使用哪些命令 2.hdfs dfs,回车后会提示dfs 可以添加的一些常用shell命令- 注意事项 分布式文件系统的路径

2021-07-31 16:25:11 799

转载 hadoop介绍

hadoop是apache基金会旗下的一个开源的分布式存储和分析的计算平台,使用java语言开发,有很好的跨平台性,可以运行在商用(廉价)硬件上,用户不需要了解费不是底层细节,就可以开发分布式程序,充分使用集群的高速计算和存储谷歌三篇论文2003年的<GFS>硬盘不够大数据储存单份的安全隐患问题,提出分布式文件系统存储的理论思想解决如何存储大数据集的问题2004年的<MapReduce>基于分布式的计算分析编程框架模型,移动计算而非移动数据,分而治之解决了

2021-07-31 10:22:43 244

原创 scala3

类面向对象抽象定义一个类,实际上就是把一类事物的共有的属性和行为提取出来,形成一个物理模型。面向对象编程的三大特征,封装,继承,多态封装就是把抽象出的数据和对数据的操作封装在一起,数据被保护在内部,程序的其他部分只有通过授权的操作(成员方法),才能对数据进行操作封装的理解和好处​ 隐藏实现细节​ 可以对数据进行验证,保证安全合理如何体现封装​ 对类中的属性进行封装​ 通过成员方法,包实现封装封装的步骤,将属性进行私有化,提供一个公共的get方法,用于对属性判断

2021-07-31 08:28:23 461

原创 杂记lee1

数据从获取到hdfs一共放大到三倍nginx一次flume一次hdfs一次要实现精准语义一定要实现replay要容错,要恢复数据多次落盘一般实现精准语义用kafka行为数据上报的策略采取批量上报的方式,并且使用gzip压缩以节省流量1 考虑客户端的性能和日志流量2 服务器的压力 因此上报策略有两个条件限制,第一发送时间 flushInterval与上次发送的时间间隔,一般定义为15s和30s,第二缓存日志的熟练bulksize,一般定义为100条或者

2021-07-30 15:37:12 102

原创 supervisor启动报错

ERROR (spawn error)supervisor: couldn't exec /opt/apps/collect-app/scripts/start-flume-agent.sh: ENOEXECsupervisor: child process was not spawned在conf里的commond后面加上一个sh+空格再加路径名然后supervisorctl rereadsupervisorctl update access-f...

2021-07-29 20:27:49 2279

原创 sqoop报错

ERROR sqoop.Sqoop: Got exception running Sqoop: java.lang.RuntimeException: java.lang.RuntimeException: com.mysql.jdbc.exceptions.jdbc4.CommunicationsException: Communications link failurejavax.net.ssl.SSLException: Unsupported record version Unknown...

2021-07-28 20:52:15 604

原创 scala2

拉链扩展zip函数将传进来的两个参数中对应位置上的元素组成一个pair数组,如果其中一个参数元素比较长,那么多余的参数会被删除zipAll函数和zip函数类似,但是如果其中一个元素的个数比较少,那么江永默认的元素填充zipWithIndex函数将元素和其所在的位置索引组成一个pair该方法把集合中每个元素和该元素的索引进行一个拉链操作upzip函数可以键一个元组的列表转换成一个列表的元组列表List列表中的元素类型不可以不同列表是有序的不可变列表不可变列表的构造

2021-07-26 22:47:58 202

原创 sqoop

sqoop产生背景基于传统关系型数据库的稳定性,还是有很多企业将数据存储在关系型数据库中,早期由于工具的缺乏,hadoop与传统数据库之间的数据传输非常的困难,基于前两个方面的考虑,需要一个在传统关系型数据库 和hadoop之间进行数据传输的项目,sqoop应运而生sqoop是什么sqoop是一个用于hadoop和结构化存储(如关系型数据库之间进行高效传输大批量数据的工具,他包括两个方面,​ 可以用sqoop将数据从关系型数据库管理系统如mysql导入到hadoop系统(hdfs,hiv

2021-07-26 10:23:33 849

原创 启动azkaban报错

Exception in thread "main" java.io.IOException: Cannot find 'database.properties' file in /usr/local/azkaban-solo/bin/sql/database.properties at azkaban.database.AzkabanDatabaseSetup.loadDBProps(AzkabanDatabaseSetup.java:178) at azkaban.d...

2021-07-24 18:45:50 290

原创 scala1

scalascala是多范式编程语言,集成面向对象编程和函数式编程的各种特性运行在虚拟机,兼容java程序scala被编译成java字节码,运行于jvm,可以调用java类库函数式编程更实用mapreduce和大数据模型,摒弃了数据与状态的计算模型,着眼于函数本身,而非执行过程的数据和状态数据的处理,函数时逻辑清晰简单更适合处理基于不变数据的批量处理工作这些工作都是通过mapreduce操作转化数据后生成新的副本,再进行处理,spark flink kafka都是采用scala开发

2021-07-22 17:52:43 208 1

原创 地址已在使用

2021-07-21 19:40:16,542 (conf-file-poller-0) [WARN - org.mortbay.log.Slf4jLog.warn(Slf4jLog.java:76)] failed SelectChannelConnector@0.0.0.0:41414: java.net.BindException: 地址已在使用2021-07-21 19:40:16,543 (conf-file-poller-0) [WARN - org.mortbay.log.Slf4jL...

2021-07-21 19:45:50 2145

原创 sqoop导出parquet格式的数据报错

ERROR manager.SqlManager: Error executing statement: com.mysql.jdbc.exceptions.jdbc4.CommunicationsException: Communications link failureThe last packet sent successfully to the server was 0 milliseconds ago. The driver has not received any packets from

2021-07-20 22:20:41 549

原创 sqoop mysql到hdfs报错

问题ERROR tool.ImportTool: Import failed: java.net.ConnectException: Call From leetom/192.168.10.88 to leetom:8020 failed on connection exception: java.net.ConnectException: 拒绝连接; For more details see: http://wiki.apache.org/hadoop/ConnectionRefusedCause

2021-07-20 19:45:35 212 1

原创 hdfs数据传到mysql报错

ERROR mapreduce.ExportJobBase: Export job failed!21/07/19 22:23:21 ERROR tool.ExportTool: Error during export:Export job failed!先重新导入数据sqoop import --connect jdbc:mysql://qianfeng01:3306/leetom \--username root --password 123456 \--query 'select em

2021-07-19 22:40:55 372

原创 sqoop mysql-->hive报错

ERROR tool.BaseSqoopTool: Error parsing arguments for import:21/07/19 16:13:56 ERROR tool.BaseSqoopTool: Unrecognized argument: --hive-imp要把ip从localhost改成ip或者IP映射的主机名

2021-07-19 16:17:19 853

原创 sqoop从mysql中取数据报错

Error: java.lang.RuntimeException: java.lang.RuntimeException: com.mysql.jdbc.exceptions.jdbc4.CommunicationsException: Communications link failure有可能是地址映射的问题,我这里用的localhost,建议要用localhost,直接用地址映射的主机名,比如我192.168.111.111 映射的主机名是 leetom这里可以直接填leetom或者IP地.

2021-07-19 15:53:06 233

原创 sqoop 从mysql转到hive报错

ERROR hive.HiveConfig: Could not load org.apache.hadoop.hive.conf.HiveConf. Make sure HIVE_CONF_DIR is set correctly.21/07/19 14:55:45 ERROR tool.ImportTool: Import failed: java.io.IOException: java.lang.ClassNotFoundException: org.apache.hadoop.hive.con.

2021-07-19 15:13:02 96

原创 启动hive服务报错

hive-site.xml:17:78: The reference to entity "useSSL" must end with the ';' delimiter.21/07/19 14:30:18 FATAL conf.Configuration: error parsing conf file:/usr/local/hive/conf/hive-site.xmlorg.xml.sax.SAXParseException; systemId: file:/usr/local/hive/conf

2021-07-19 14:44:05 619

原创 hive --service metastore &报错

Could not create ServerSocket on address 0.0.0.0/0.0.0.0:9083.jps查看有几个runjar全部杀死kill -9 进程号启动成功hive --service metastore &

2021-07-19 14:40:52 843

原创 hive执行sql报错

FAILED: SemanticException org.apache.hadoop.hive.ql.metadata.HiveException: java.lang.RuntimeException: Unable to instantiate org.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClient有可能是hive服务没有启动hive --service metastore &...

2021-07-19 08:32:06 435

原创 hive初始化元数据报错

Error: Duplicate key name 'PCS_STATS_IDX' (state=42000,code=1061)org.apache.hadoop.hive.metastore.HiveMetaException: Schema initialization FAILED! Metastore state would be inconsistent !!Underlying cause: java.io.IOException : Schema script failed, error

2021-07-19 08:22:29 540

原创 sqoop将linux服务器上的mysql数据库中的数据放到hdfs上去报错

ERROR tool.ImportTool: Import failed: Import job failed!orINFO mapreduce.Job: Job job_1626609768772_0001 failed with state FAILED due to: Task failed task_1626609768772_0001_m_000001Job failed as tasks failed. failedMaps:1 failedReduces:0orCaused.

2021-07-18 20:47:28 920

原创 flume

flume大数据处理流程1、数据采集2、数据存储3、数据清洗4、数据分析5、数据展示在数据采集和搜索工具中flume框架占有一定的市场分量flumeflume是一种分布式,可靠的高可用的服务,用于有效的收集,聚合和移动大量日志数据,它具有基于数据流的简单灵活的体系结构,它具有调整可靠性机制以及许多故障转移和恢复机制,具有强大的功能和容错能力,它使用一个简单的可扩展数据模型语序在线分析应用程序官网http://flume.apache.org/flum.

2021-07-17 16:59:08 807 2

原创 将类依赖的包一起打包到jar中

(TaildirSource.java:236)] Unable to tail filesjava.lang.NoClassDefFoundError: com/alibaba/fastjson/JSON at MyInterceptor.intercept(MyInterceptor.java:35) at MyInterceptor.intercept(MyInterceptor.java:70) at org.apache.flume.inte...

2021-07-17 16:19:42 480 1

原创 flume测试时报错

SLF4J: Class path contains multiple SLF4J bindings.SLF4J: Found binding in [jar:file:/usr/local/flume/lib/slf4j-log4j12-1.6.1.jar!/org/slf4j/impl/StaticLoggerBinder.class]SLF4J: Found binding in [jar:file:/opt/soft/hadoop/hadoop-2.7.6/share/hadoop/common

2021-07-17 11:31:09 355

原创 hbase合集

HBASEhbase的来源1、hdfs的数据读写延迟高2、不能进行实时删除局部数据3、hive的数据必须要指定的列或者字段,必须要格式化的数据4、hbase来源于google的bigtablehbase的定义hbase是一个基于hadoop开源的,分布式的,多版本的,可扩展的,非关系型数据库,能够处理海量数据,(数十亿行,数百万列),面向列存储,面向稀疏存储(mysql面向行存储)HBase特性hbase类似于:redis,clickhouse,mongodb,canss

2021-07-17 09:05:27 1320 1

原创 用mrjava代码把文件传到hbase一文中把本地地址改到网络地址报错

Exception in thread "main" java.lang.IllegalArgumentException: Pathname /D:/maven/apache-maven-3.6.3/apache-maven-3.6.3/repository/org/apache/hbase/hbase-client/1.3.6/hbase-client-1.3.6.jar from hdfs://qianfeng01:8020/D:/maven/apache-maven-3.6.3/apache-m..

2021-07-17 09:02:00 138 1

原创 打开hbase查看表报错

ERROR: org.apache.hadoop.hbase.PleaseHoldException: Master is initializing at org.apache.hadoop.hbase.master.HMaster.checkInitialized(HMaster.java:2485) at org.apache.hadoop.hbase.master.MasterRpcServices.getTableNames(MasterRpcServices.jav...

2021-07-17 08:18:49 435

原创 用mrjava代码把文件上传到hbase

HbaseUtil.javaimport org.apache.hadoop.conf.Configuration;import org.apache.hadoop.hbase.Cell;import org.apache.hadoop.hbase.CellUtil;import org.apache.hadoop.hbase.HBaseConfiguration;import org.apache.hadoop.hbase.client.*;import org.apache.hadoo.

2021-07-16 23:17:49 295 1

原创 hiveserver2报错

Exception in thread "main" java.lang.NoSuchMethodError: org.apache.hive.common.util.HiveStringUtils.startupShutd ownMessage(Ljava/lang/Class;[Ljava/lang/String;Lorg/apache/commons/logging/Log;)Vjar包冲突,可能是在hive的lib中添加了其他的jar包,导致系统找jar包时...

2021-07-14 11:15:22 363

原创 hive-3

⼆级分区⼆级分区指的是在⼀张表中有两个分区,创建和插⼊时都要指定两个分区名,最常⻅的就是下⾯案例的年和⽉,创建的语法和流程都是和⼀级分区⼀样,只是多⼀个分区⽽已.create table if not exists part2(id int,name string)partitioned by (year string,month string)row format delimited fields terminated by ',';load data local inpath

2021-07-13 19:09:03 571 1

原创 udtf自定义函数

package hive;import org.apache.hadoop.hive.ql.exec.UDFArgumentException;import org.apache.hadoop.hive.ql.metadata.HiveException;import org.apache.hadoop.hive.ql.udf.generic.GenericUDTF;import org.apache.hadoop.hive.serde2.objectinspector.ObjectInspec.

2021-07-12 21:29:08 255 1

原创 udaf自定义函数

package hive;import org.apache.hadoop.hive.ql.exec.Description;import org.apache.hadoop.hive.ql.exec.UDAF;import org.apache.hadoop.hive.ql.exec.UDAFEvaluator;import org.apache.hadoop.io.IntWritable;//注解方法的描述@Description(value = "findmax(col)",name .

2021-07-12 21:27:23 181

原创 hive自定义类

配置xml<dependency> <groupId>org.apache.hive</groupId> <artifactId>hive-exec</artifactId> <version>2.3.7</version> </dependency>在java中写代码package hive;.

2021-07-12 12:19:20 93

原创 hive-2

数据库基本操作-库、表规则语法注释语法:-- 单⾏注释// 单⾏注释/* * 多⾏注释*/⼤⼩写规则:1. Hive的数据库名、表名都不区分⼤⼩写2. 建议关键字⼤写命名规则:1. 名字不能使⽤数字开头2. 不能使⽤关键字3. 尽量不使⽤特殊符号4. 如果表⽐较多,那么表名和字段名可以定义规则加上前缀.快速创建库和表:-- hive有⼀个默认的数据库default,如果不明确的说明要使⽤哪个库,则使⽤默认数据库。hive> create datab

2021-07-09 22:10:45 222 2

原创 进入hive时卡住

Logging initialized using configuration in jar:file:/opt/soft/hive-2.3.7/lib/hive-common-2.3.7.jar!/hive-log4j2.properties Async: trueOperation category READ is not supported in state standby启动顺序有问题,环境:zookeeper高可用,yarn高可用先开zookeeperzkServer.sh

2021-07-07 08:36:59 2351

原创 hive-1

Hive出现原因Hive最早来源于FaceBook ,因为FaceBook⽹站每天产⽣海量的结构化⽇志数据,为 了对这些数据进⾏管理,并且因为机器学习的需求,产⽣了Hive这⻔技术,并继续发 展成为⼀个成功的Apache项⽬。定义Hive是⼀个基于 Hadoop 的数据仓库⼯具,可以将结构化的数据⽂件映射成⼀张数据 表,并可以使⽤类似SQL的⽅式来对数据⽂件进⾏读写以及管理。这套Hive SQL 简 称HQL。Hive的执⾏引擎可以是MR、Spark、Tez。本质Hive的本质是将H

2021-07-06 23:18:56 115 1

原创 MapReduce

MapReduceMapReduce为什么要学习MapReduce单机版:内存受限,磁盘受限,运算能⼒受限⽽⼀旦将单机版程序扩展到集群来分布式运⾏,将极⼤增加程序的复杂度和开发难度引⼊MapReduce框架后,开发⼈员可以将绝⼤部分⼯作集中在业务逻辑的开发上,⽽将分布式计算中的复杂性交由框架来处理MapReduce简介MapReduce是Apache Hadoop项⽬的⼀个核⼼模块MapReduce是⼀个运⾏在hdfs上的分布式运算程序的编程框架,⽤于⼤规模数据集(⼤于1

2021-07-06 23:04:00 267

原创 Zookeeper&YARN

Zookeeper&YARNZookeeper的概述Zookeeper是什么1. zookeeper是⼀个为分布式应⽤程序提供的⼀个分布式开源协调服务框架。是Google的Chubby的⼀个开源实现,是Hadoop和Hbase的重要组件。主要⽤于解决分布式集群中应⽤系统的⼀致性问题。2. 提供了基于类似Unix系统的⽬录节点树⽅式的数据存储。3. 可⽤于维护和监控存储的数据的状态的变化,通过监控这些数据状态的变化,从⽽达到基于数据的集群管理4. 提供了⼀组原语(机器指令),提供了

2021-07-06 22:27:04 353

原创 yarn高可用队列报错

submitted by user root to unknown queue: qfuserINFO client.ConfiguredRMFailoverProxyProvider: Failing over to rm2原因在于默认的节点并不处于active状态,解决方法,找到现在处于active状态的resourcemanagerkilljps 查看运行的服务kill -9 要杀死的idyarn-deamon.sh start resourcemanager重启resour.

2021-07-05 22:15:55 5518

手机流量上行下行数据.7z

单机运行

2021-07-06

springboot mybatis mysql echarts疫情表单.7z

使用mybatis和echarts做的一个网页表单

2021-06-23

ckpt-24ccccc.7z

存放的中英翻译的模型数据,一个模型大概在220Mb左右,还有一些小的参数文件,共分为4个文件统一放在trainingzh_en_checkpoings\ckpt目录下

2020-04-11

ckpt-23cccccccccc.7z

存放的中英翻译的模型数据,一个模型大概在220Mb左右,还有一些小的参数文件,共分为4个文件统一放在trainingzh_en_checkpoings\ckpt目录下

2020-04-11

ckpt-22cccccccccc.7z

存放的中英翻译的模型数据,一个模型大概在220Mb左右,还有一些小的参数文件,共分为4个文件统一放在trainingzh_en_checkpoings\ckpt目录下

2020-04-11

中英翻译模型数据 中英互译语料

存放的中英翻译的模型数据,一个模型大概在220Mb左右,还有一些小的参数文件,共分为4个文件统一放在trainingzh_en_checkpoings\ckpt目录下

2020-04-11

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除