自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(30)
  • 资源 (2)
  • 收藏
  • 关注

原创 Hbase在hadoop高可以切换时死掉的情况

hadoop高可用有nn1和nn2,两个之间是active和Standby两种状态。但是当状态从active切换为standby时。会造成hbase中regionserver死掉的情况目前没有好办法-----------------------------------------------------------------------------------------------...

2018-08-14 15:28:38 171

原创 如何复盘和选股

股票复盘:一、今天操作:早上-10低吸预制菜前龙头国联水产,盈利4个点。思路:早盘医药股龙二 龙三都水下下跌。九安低于预期,医药今天走衰退。昨天预判指数在这里有反弹需求。那么就有两个思路,低吸大盘股银行证券白酒,另外一个博弈资金选择新题材预制菜。目前看市场今天没有否定也没有承认。而是走出一个次新股的行情。衰退周期猫一天狗一天。不能去追,埋伏前期题材,等待轮动衰退。今天操作70分,可以吸的更低点。二、今天复盘指数上涨,个股下跌,跌停63家,市场情绪衰退。昨日涨停-0.4 昨日连板-2.4

2022-01-19 00:39:53 1004

原创 第三方jar包引入项目工程方法

方法一:再idea中直接用maven引入命令如下:mvn install:install-file -Dfile=G:\code\bd\branches\bigdata-project-zuoke\app-logs-spark\src\lib\phoenix-4.7.0-clabs-phoenix1.3.0-client.jar -DgroupId=org.apache.phoen...

2020-03-11 14:59:58 668

原创 数据预处理与特征工程

数据预处理与特征工程缺失值处理缺失值处理通常有如下的方法: 对于unknown值数量较少的变量,包括job和marital,删除这些变量是缺失值(unknown)的行; 如果预计该变量对于学习模型效果影响不大,可以对unknown值赋众数,这里认为变量都对学习模型有较大影响,不采取此法; 可以使用数据完整的行作为训练集,以此来预测缺失值,变量housing,loa...

2019-10-25 17:59:41 664

原创 log4j发送日志给flume,并通过过滤器,将日志存入hdfs中,通过日期分区存放

一、log4j配置文件修改需要在发送端引入依赖包<dependency> <groupId>org.apache.flume.flume-ng-clients</groupId> <artifactId>flume-ng-log4jappender</artifactId> <version>1....

2019-06-05 18:54:14 371

转载 在linux安装nodejs,配置好环境变量后,node -v出错: bash: /usr/local/node/bin/node: /lib/ld-linux.so.2: bad ELF inte

在linux安装nodejs,配置好环境变量后,node -v出错:bash: /usr/local/node/bin/node: /lib/ld-linux.so.2: bad ELF interpreter: 没有那个文件或目录按照提示的意思是解释器出了问题,度娘了一下,应该这样能解决:##切忌不要输入此命令,我自己给自己挖的坑,后面就能看到sudo yum install g...

2019-02-28 15:49:46 3485 1

原创 开发bug问题

1、hue 和 oozie 的权限控制hive和sqoop在服务器本地运行没有问题,hive在hue里面执行也么有问题。但是sqoop执行会有问题,sqoop可以连接的上mysql。但是在写入hdfs的时候就会出现一种Launcher ERROR, reason: Main class [org.apache.oozie.action.hadoop.SqoopMain], exit cod...

2018-12-07 17:35:23 175

原创 hive sql 优化

hive的查询注意事项以及优化总结 .Hive是将符合SQL语法的字符串解析生成可以在Hadoop上执行的MapReduce的工具。使用Hive尽量按照分布式计算的一些特点来设计sql,和传统关系型数据库有区别,所以需要去掉原有关系型数据库下开发的一些固有思维。基本原则:1:尽量尽早地过滤数据,减少每个阶段的数据量,对于分区表要加分区,同时只选择需要使用到的字段select...

2018-11-15 10:45:05 2961

转载 sprintboot2注解

SpringBoot(2)配置文件1    yml文件 和 properties文件的配置:SpringBoot使用一个全局的配置文件,配置文件名是固定的;•application.properties•application.yml同样配置tomcat服务器的端口号,看一下配置方式的比较:yml文件:server:  port: 8081Spring中的XML文件:&...

2018-11-14 11:49:27 302

原创 sprintboot 构架详解

一、系统要求1、Spring Boot 2.1.1.BUILD-SNAPSHOT需要Java 8,并且与Java 11兼容(包括在内)。 还需要Spring Framework 5.1.2.RELEASE或更高版本。需要maven3.3以上版本做构架支持2、Servlet容器tomcat 9.0    servlet 版本4。还可以将Spring Boot应用程序部署到任何Servle...

2018-11-07 10:07:01 522

转载 CentOS 7 安装 CDH 5.12.1

准备4台机器,内存,磁盘尽量给足node1(master)          192.168.231.128                  内存16G,磁盘50Gnode2                         192.168.231.129                  内存3G,磁盘50Gnode3                         192.168....

2018-10-18 15:05:27 923

翻译 CHD 5.15 包版本详细

CDH 5.15.1 Packaging and TarballsComponent Package Version Tarball Release Notes Changes File Apache Avro avro-1.7.6+cdh5.15.1+140 Tarball Release notes Changes Apache Cr...

2018-10-12 15:06:59 904

原创 spark遇到的坑

一。提示内存不足在代码里面添加set("spark.testing.memory","512000000")内存容量val conf :SparkConf = new SparkConf().setAppName("SparkWordCount").setMaster("local[1]").set("spark.testing.memory","512000000")二

2018-08-16 15:30:28 698

原创 Spark踩坑:JsonMappingException: Incompatible Jackson version: 2.9.6

在Spark2中,如果使用了kafka库,则很容易产生如下错误:Exception in thread "main" java.lang.ExceptionInInitializerError at org.apache.spark.streaming.dstream.InputDStream.&lt;init&gt;(InputDStream.scala:80) at or...

2018-08-16 14:28:36 1349

原创 Hbase api

一、几个主要 Hbase API 类和数据模型之间的对应关系:1、 HBaseAdmin关系: org.apache.hadoop.hbase.client.HBaseAdmin作用:提供了一个接口来管理 HBase 数据库的表信息。它提供的方法包括:创建表,删 除表,列出表项,使表有效或无效,以及添加或删除表列族成员等。2、 HBaseConfiguration关系: ...

2018-08-14 14:56:23 572

原创 hadoop本地测试链接idea问题

链接又出现bug需要修改源码的

2018-08-13 16:43:00 175

原创 mysql错误集合

myqsl初始化时候,出现的错误[root@hadoop mysql]# ./bin/mysqld --user=mysql --basedir=/home/mysql/ --datadir=/home/mysql/data/解决办法 :./bin/mysqld --initialize --user=mysql --basedir=/home/mysql/ --datadir=/home...

2018-07-20 15:29:38 376

原创 mysql修改my.cnf文件后,编码格式改变后无法启动

inux下老版本的Mysql修改数据库编码的方法是修改my.cnfvi /etc/my.cnf在[client]下添加default-character-set=utf8在[mysqld]下添加default-character-set=utf8在新的版本中如果这样修改的话,会造成无法启动的错误,结果方法是在[mysqld]下把default-character-set=ut...

2018-07-19 19:17:07 4350 4

转载 centos 7 linux系统安装 mysql5.7.17(glibc版)

 centos 7 linux系统安装 mysql5.7.17(glibc版)前言:经过一天半的折腾,终于把 mysql 5.7.17 版本安装上了 centos 7 系统上,把能参考的博客几乎都看了一遍,终于发现这些细节问题,然而翻了无数的文章,基本上都没有提到这些,所以小生尽量把这些细节写下来,一方面是供初学者们参考,另一方面也是对自己花这么长时间的摸索的一个总结,如有不足之处欢迎各路...

2018-07-18 20:16:46 242

原创 linux虚拟机centos7 搭建

1、搭建centos 7系统分区:选择手动分区,点击done挂载好如图同理添加交换分区swap分区给他 8096M 的空间,和跟分区开通网卡    centos7 的系统在用mini模式安装的时候,一定要打开网络结案eth33,否则不能联网查看ip地址命令是:ip addr    我感觉没有ifconfi和vim特别不舒服,就安装了下,需...

2018-07-18 18:07:12 153

原创 hadoop集群免密登陆

1、免密登陆的目的。在hadoop集群中,master需要ssh方式登陆slave进行操作2、免密登陆其实就是我自己的linux服务器产生一对密码。把一个密码发给其他人。比如我产生一对暗号:亲爱的   小洁儿 我把亲爱的发给其他服务器,他拿着这个钥匙来找我,我自己一对,和自己留着的小洁儿正好匹配。放行他登陆。3、开始操作命令:ssh-keygen中间直接回车就好,看到他生成...

2018-07-17 19:34:07 810

原创 hadoop集群搭建

一、基本配置   ip   hadoop01 192.168.32.131   hadoop02 192.168.32.132   hadoop03 192.168.32.133   二、环境配置1、安装jdk三、hadoop安装配置1、修改hadoop-env.sh2、修改core.site.xml...

2018-07-16 14:34:38 131

原创 linux虚拟机centos7 搭建

1、搭建centos 7系统    centos7 的系统在用mini模式安装的时候,一定要打开网络结案eth33,否则不能联网    我感觉没有ifconfi和vim特别不舒服,就安装了下,需要的也可以自己安装;    yum search ifconfig 找到版本号 yum install net-tools.x86_64    同样yum search vim 找到版本号 ...

2018-07-16 10:39:44 117

原创 HBase安装使用以及bug点提醒

1、hbase提醒java not set2、hbase必须和hadoop版本对应的原因3、hosts文件配置犯错误4、块丢失的另外一种原因

2018-07-04 17:52:34 135

原创 hadoop namenode format失败 或者无法执行的情况

在第一次启动hadoop集群的时候,如果不按照顺序来启动的时候,会出现datanode连接失败的情况。而且hdfs zkfc -formatZK这个命令在复制粘贴的时候,经常会发生变形,造成执行的语句出现意外。很奇怪他不会失败但是会出现执行异常的情况。所以一定要手动输入...

2018-06-28 18:56:53 3237

原创 阿里云搭建hadoop集群ssh端口问题

2018-06-28 17:50:18 447

原创 kafka来读取flume的数据

一、查看kafka topic ./kafka-topics.sh --list --zookeeper  bigdata-test-3:2181, bigdata-test-2:2181, bigdata-test-1:2181, bigdata-test-4:2181, bigdata-test-5:2181./kafka-topics.sh  --delete  --zookeeper bi...

2018-05-24 20:38:08 2368

原创 kafka 集群搭建

一. 配置zookeeper环境kafka实现分布式需要zookeeper的分布式管理默认现在zookeeper的集群已经安装完毕了。通过启动zookeeper的客户端,查看下现在有点多少个节点如果没有安装过kafka的话。应该只有下面两个。也不排除你安装的其他的哈。其他的乱七八糟的东西就是kafka在zookeeper下面建的节点,你看人家hadoo都是规规矩矩的,就这个家伙,不单独建个文件夹。...

2018-05-24 18:23:56 190

原创 大数据处理工具优劣分析

1、hadoop使用mapreduce的分布式处理工具2、没有使用mapreduce的分布式处理工具3、当不需要使用分布式集群时,而且处理的数据集比较小的时候,或者对计算的时间并不苛刻的时候还可以选择一些小型工具...

2018-05-11 10:52:24 546

原创 MapReduce概述

一、MapReduce是一种分布式计算模型,由Google提出,主要用于搜索领域,解决海量数据的计算问题。Apache对其做了开源实现,整合在hadoop中实现通用分布式数据计算。MR由两个阶段组成:Map和Reduce,用户只需要实现map()和reduce()两个函数,即可实现分布式计算,非常简单。大大简化了分布式并发处理程序的开发。二、...

2018-04-10 14:41:12 218

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除