自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

arne's Blog

不断学习、不断实践、不断总结,做一个学有所用的开发者

  • 博客(43)
  • 资源 (5)
  • 收藏
  • 关注

原创 Scala-基础知识

1.var,val和def三个关键字之间的区别?Scala声明变量有两种方式,一个用val,一个用var。val / var 变量名 : 变量类型 = 变量值。val定义的值是不可变的,它不是一个常量,是不可变量,或称之为只读变量。var 定义变量,val定义不可变量(val是java的final不可变变量,var是java的普通变量),变量和常量类型可以省略不写,自动推断;在main...

2019-07-16 20:37:05 471

原创 Python基础知识问答

1.列表和元组之间的区别是?列表和元组都是python内置的集合类型,列表用list表示,元组用tuple表示list是有序的动态数组,引用不可变但是可以改变元素的个数,列表元素下标从0开始,列表用[ ] 表示,列表相关操作的方法有append(),len(),extend(+),insert(index, object)等等。元组与列表类似,但是元组的元素不能修改,用()表示,Python...

2019-07-15 20:23:40 1801

原创 Python基础知识+计算器练习

1.列出python中的标识符命名规则标示符由字母、下划线和数字组成,且数字不能开头。不能是关键字,不能有特殊符号:,/,;,#等#关键字>>> import keyword>>> keyword.kwlist['False', 'None', 'True', 'and', 'as', 'assert', 'break', 'class', 'cont...

2019-07-12 20:25:40 548

原创 Sqoop架构原理及常用命令参数

1. 简介Sqoop:SQL–to–HadoopApache Sqoop是用来实现结构型数据(如关系数据库)和Hadoop之间进行数据迁移的工具。它充分利用了MapReduce的并行特点以批处理的方式加快数据的传输,同时也借助MapReduce实现了容错。Sqoop支持的数据库:Databaseversion–direct support?connect string ...

2019-07-09 11:21:10 644

原创 java中生成1000~10000之间的随机数

要生成在[min,max]之间的随机整数,可使用Random类进行相关运算:Random random = new Random();int s = random.nextInt(max)%(max-min+1) + min;random.nextInt(max)表示生成[0,max]之间的随机数,然后对(max-min+1)取模。以生成[1000,10000]随机数为例,首先生成0...

2019-07-03 21:58:23 16477 1

原创 HBase性能优化方法总结

4.1 HBase性能优化方法总结(一):表的设计4.1.1 Pre-Creating Regions默认情况下,在创建HBase表的时候会自动创建一个region分区,当导入数据的时候,所有的HBase客户端都向这一个region写数据,直到这个region足够大了才进行切分。一种可以加快批量写入速度的方法是通过预先创建一些空的regions,这样当数据写入HBase时,会按照region分...

2019-07-03 08:26:07 371

原创 Hbase原理解析

一、HBase简介Hbase是什么HBase是一种构建在HDFS之上的分布式、面向列、多版本、非关系型的数据库。在需要实时读写、随机访问超大规模数据集时,可以使用HBase。HBase 是Google Bigtable 的开源实现。HBase的特点大:一个表可以有上亿行,上百万列。面向列:面向列(组)的存储和权限控制,列(组)独立检索。稀疏:对于为空(NULL)的列,并不占用存储空间,...

2019-07-02 09:01:55 295

原创 大数据Hive系列之Hive用户权限管理

1. 角色创建角色create role role_name;显示角色show roles;删除角色drop role role_name;2. 用户* 用户进入admin角色权限set hive.users.in.admin.role;set role admin;查看某用户的所有角色show role grant user user_name给角色添加用户gran...

2019-06-28 20:15:32 4951 1

原创 大数据Hive的案例-统计出掉线率最高的前10基站

需求:统计出掉线率最高的前10基站数据:record_time:通话时间imei:基站编号cell:手机编号drop_num:掉话的秒数duration:通话持续总秒数测试数据:数据格式:--基础数据表create table cell_base( record_time string, imei string, cell string, ph_num int, c...

2019-06-28 09:29:35 865

原创 Hive实现wordCount

a. 创建一个数据库create database word;b. 建表create external table word_data(line string) row format delimited fields terminated by '\n' stored as textfile location '/home/hadoop/worddata';这里假设我们的数据存放在had...

2019-06-27 18:04:54 317

原创 java.lang.RuntimeException: HRegionServer Aborted

HRegionServer无法启动,启动hbase后马上挂掉的问题Caused by: org.apache.hadoop.hbase.ipc.RemoteWithExtrasException(org.apache.hadoop.hbase.ClockOutOfSyncException): org.apache.hadoop.hbase.ClockOutOfSyncException: Se...

2019-06-26 19:58:09 1245

原创 kafka基础知识

分布式集群消息队列kafka集群有多个Broker服务器组成,每个类型的消息被定义为topic。同一topic内部的消息按照一定的key和算法被分区(partition)存储在不同的Broker上。消息生产者producer和消费者consumer可以在多个Broker上生产/消费topic概念理解:Topics and Logs:Topic即为每条发布到Kafka集群的消息都有一个...

2019-06-25 20:15:33 219

原创 关于storm的一些知识点

详述storm系统架构Nimbus:是整个集群的控管核心,负责topology的提交、运行状态监控、任务重新分配等工作。zookeeper就是一个管理者,监控者,Storm的所有的状态信息都是保存在Zookeeper里面,nimbus通过在zookeeper上面写状态信息来分配任务,supervisor,task通过从zookeeper中读状态来领取任务,同时supervisor, task...

2019-06-25 19:50:38 1045

原创 storm架构原理及集群部署

Storm 流式计算1. 概念1.1 离线计算和实时计算离线计算:批量获取数据、批量传输数据、周期性批量计算数据、数据展示​ 代表技术:Sqoop批量导入数据、HDFS批量存储数据、MapReduce批量计算数据、Hive批量计算数据、zookeeper任务调度1、hivesql2、调度平台3、Hadoop集群运维4、数据清洗(脚本语言)5、元数据管理6、数据稽...

2019-06-24 20:28:37 940

原创 storm使用过程中出现的错误:Caused by: java.net.UnknownHostException: storm: 未知的名称或服务

environment:user.dir=/opt/storm_serv/storm022019-06-24 19:32:54.126 b.s.u.Utils [INFO] Using defaults.yaml from resources2019-06-24 19:32:54.167 b.s.u.Utils [INFO] Using storm.yaml from resources20...

2019-06-24 19:45:48 884

原创 Storm电子书

Storm分布式实时计算模式 中文PDF扫描版[32MB]http://pan.baidu.com/s/1c5ggpCStorm技术内幕与大数据实践(陈敏敏 等著)完整版PDF(带书签目录)http://pan.baidu.com/s/1dFcZ5ux颠覆大数据分析:基于StormSpark等Hadoop替代技术的实时应用 完整版PDFhttp://pan.baidu.com/s/1eR...

2019-06-22 15:04:33 644 1

原创 ElasticSearch基础知识

### 1.基本概念ElasticSearch是一个开源的分布式搜索引擎,具备高可靠性,设计用于云计算中,能够达到实时搜索,稳定,可靠,快速,安装使用方便。基于RESTful接口。像Solr4一样,是基于Lucene构建的。支持时间时间索引和全文检索。官网:http://www.elasticsearch.orgElasticSearch对比Solr的优点在于:轻量级:安装启动方便,下载文...

2019-06-21 20:08:39 303

原创 ElasticSearch java客户端更新时出现的错误:NoNodeAvailableException[None of the configured nodes are available

// 存放html文件的目录 public static String DATA_DIR = "F:\\data"; public static Client client; static { Settings settings = Settings.settingsBuilder().put("cluster.name", "bd-es").build(); try { ...

2019-06-21 19:39:28 276

原创 zookeeper基础知识

理解什么是CAP定理可用性、一致性、分区容错性一致性分布式系统下的一致性是指如果对节点A进行更新操作并且更新成功后,其他的节点上的副本数据也应该是节点A更新后的最新数据,如果客户端在访问其他节点读取到在节点A更新后更旧的值,那就是出现了数据不一致的情况。在更新完后就能够访问到最新的值,这样的一致性叫做强一致性或者叫做严格一致性。可用性可用性是指系统提供的服务必须一直处于可用的状态...

2019-06-20 19:08:21 215

原创 初识redis

理解为什么要使用redis,redis解决了什么问题redis是一种支持Key-Value等多种数据结构的存储系统。可用于缓存,事件发布或订阅,高速队列等场景。该数据库使用 C语言编写,支持网络,提供字符串,哈希,列表,队列,集合结构直接存取,基于内存,可持久化。redis的优点性能极高 – Redis能读的速度是110000次/s,写的速度是81000次/s 。丰富的数据类型 –...

2019-06-20 08:56:30 174

原创 Caused by: java.io.EOFException at java.io.DataInputStream.readInt(DataInputStream.java:392)

报错原因是因为在自定义WritableComparable的时候 重写 public void write(DataOutput out) 时没有指明正确的类型

2019-06-18 21:50:54 4412

转载 MapReduce案例:好友推荐简单实现

一、好友推荐算法在实际的社交环境中应用较多,比如qq软件中的“你可能认识的好友”或者是Facebook中的好友推介。常见的好友推介算法有六度分割理论,三元闭包论和最基本的好友推介算法。学习和分享好友推介算法。假设用户A有好友A1,A2,A3,则A1,A2,A3相互之间都可能通过好友A认识,是潜在的好友关系。如果用户B有好友A1,A2,B1,则A1,A2,B1相互之间都可能通过好友B认识。如下图...

2019-06-18 18:59:43 3023

原创 Yarn分布式集群环境部署

YARN配置在Hadoop-HA高可用分布式环境中改造NN-1NN-2DNZKZKFCJNNRMNMnode01***node02******node03*****node04****node01:1)mapred-site.xml<!--开启mapreduce....

2019-06-14 17:20:45 888

转载 学习MapReduce的计算原理

1、MapReduce定义​ 1)分布式运算程序的编程框架,是用户基于“Hadoop的数据应用”的核心框架​ 2)核心功能是将用户编写的业务逻辑代码和自带的默认组件整合成一个完整的分布式运算程序,并发运行在Hadoop集群2、MapReduce的优缺点​ 2.1、优点​ 1)易于编程​ 2)良好的扩展性​ 3)高容错性​ 4)适合PB以上的海量数据离线处理​ 2....

2019-06-13 20:08:56 1307

原创 hadoop-HA高可用集群部署

HA 高可用集群部署节点设置,4个虚拟机,且完成SSH免密钥登陆,jdk安装NN-1NN-2DNZKZKFCJNNbd001***bd002*****bd003***bd004**Active NameNode : 一个集群只有一个Active,接受客户端的读写请求,记录edits日志(元...

2019-06-12 19:11:13 285

原创 HDFS命令操作和高可用

HDFS命令操作和高可用学习目标掌握:HDFS的命令行操作hdfs dfs -ls",“hdfs dfs -cat”,“hdfs dfs -mkdir”,“hdfs dfs -put”,“hdfs dfs -get” “-chmod” ,“-chown”等1. 文件操作(1) 列出HDFS下的文件/usr/local/hadoop$bin/hadoop dfs -ls(2)...

2019-06-12 19:08:53 412

原创 初识hadoop及伪集群部署

hadoop:包含分布式文件系统和分布式计算的一个框架。 HDFS,mapreduceHDFS的架构:三种节点:NN,SNN,DN。不可替代存放海量的数据。数据 --》----》文件—》存放HDFS—》数据文件(元数据,内容数据)—》元数据在NN,内容数据形成block在DN。非常兼容各种分布式计算HDFS:分布式文件存储系统,提供了 高可靠性、高扩展性和高吞吐率...

2019-06-11 19:32:44 295

原创 初步学习nginx

nginx的基本配置Location(难点):location指令的作用是根据用户请求的URI来执行不同的应用,也就是根据用户请求的网站URL进行匹配,匹配成功即进行相关的操作。一个配置属性:根据用户的请求地址,去服务器上匹配文件配置格式: location [符号] 请求地址(模糊地址)里面还有一个配置属性: root 文件(目录)路径反向代理的配置...

2019-06-10 20:07:13 203

原创 linux-shell初体验

快速有效的学习,思想核心是“以建立知识体系为核心”,具体方法是“守破离”。反复练习。​ 应用:​ 1、写一些shell脚本来调用大数据的程序​ 2、可以看懂大数据平台各个分布式节点运行的机制知识准备:解释器:bash 。bash :命令行类型的shell。 shell :计算机和用户的交互接口。包括用户交互输入和文本文件输入;运行任何一个脚本都是启动一个新的bash去运行;脚本的...

2019-06-09 15:15:58 205

原创 linux安装tengine和python和配置阿里yum及本地yum

编译安装tengine1.上传文件并解压[root@bd002 ~]#tar -zxvf tengine-2.1.0.tar.gz2.安装依赖1.安装C语言编译器 [root@bd002 ~]#yum install -y gcc ## (gun+cc)1.查看pcre [root@bd002 ~]#yum search PCRE2.安装pcre [root@...

2019-06-05 15:24:10 588

原创 linux-正则-文本分析-用户权限

vi、vim命令的三种模式模式编辑命令模式,按键具有编辑文本功能:默认打开进入编辑模式输入按键本身意义末行接受用户命令输入编辑–>输入i在当前光标所在字符的前面,转为输入模式a在当前光标所在字符的后面,转为输入模式o在当前光标所在行的下方,新建一行,并转为输入模式O在当前光标所在行的上方,新建一行,...

2019-06-04 18:02:15 183

原创 大数据学习-vi命令

vi命令简单总结打开文件vim /path/to/somefilevim +# :打开文件,并定位于第#行vim +:打开文件,定位至最后一行vim +/PATTERN : 打开文件,定位至第一次被PATTERN匹配到的行的行首关闭文件末行模式::q 退出 没有动过文件:wq 保存并退出 动过了,不后悔:q! 不保存并退出 动过了,后悔了:w 保存:w! 强行保存...

2019-06-03 18:58:55 285

原创 大数据学习-linux初始化

大数据学习-linux初始化linux安装1.新建、安装linux虚拟机2.linux初始化配置linux安装工具:VMware11.1.2 build-2780323 、CentOS-6.8-x86_64-minimal.iso1.新建、安装linux虚拟机选择自定义,然后下一步即可默认,直接下一步选择稍后安装系统,然后下一步选择版本设置虚拟机名称和存...

2019-06-03 18:43:30 432

原创 使用IDEA创建maven聚合项目

使用IDEA创建web聚合项目--maven多模块创建parent项目创建moduleeclipse 用的多了,IDEA还不太熟悉,记录一下IDEA 创建maven聚合项目创建parent项目打开IDEA,不要勾选模板,需要的文件夹自己来创建。直接点击下一步。填入项目信息,直接下一步接着选择项目存储路径,finish父项目主要管理依赖,src文件夹直接删掉即可。...

2019-04-23 17:55:27 1035

原创 修改Linux系统操作语言

修改Linux系统操作语言我安装Centos6.5时选择了中文,到了后面在使用过程中出现了部分命令行无法正常显示的情况:所以就把Linux的操作系统语言改回英语(尽管英语不怎么好,但必须要英语环境,时间久了就习惯了)命令: vim /etc/sysconfig/i18n 然后将 LANG="zh_CN.UTF-8" 改为: LANG="en_...

2019-04-22 19:21:28 389

原创 Myeclipse启动Tomcat报错:Could not load the Tomcat server configuration

Myeclipse启动Tomcat报错,Tomcat闪退,无法正常启动:Could not load the Tomcat server configuration at E:\tomcat-7.0.56\conf.The configuration may be corrupt or incomplete. Invalid byte 2 of 2-byte UTF-8 sequence....

2019-02-19 13:04:57 829

原创 2019-从头开始

2019重新捡起JAVA加油

2019-02-19 08:37:04 148

原创 java--流程控制

Java流程控制包括顺序控制、条件控制和循环控制

2017-02-21 09:17:13 380

转载 JAVA 例子--输入三个整数,按由小到大的顺序进行排序

import java.util.Scanner;//导包 Scannerpublic class Inputdata { public static void main(String[] args) {Scanner sc = new Scanner(System.in);// 创建对象 // 接收 System.out.println("请输入第一个数

2017-02-20 20:13:31 7106

转载 Java例子:判断输入的年份是否为闰年

import java.util.Scanner;public class year { public static void main(String[] args) { Scanner scan=new Scanner(System.in); System.out.println("请输入一个年份"); long year;

2017-02-20 20:09:06 4989

大数据技术之Hive

非常全面的hive学习笔记,出自尚硅谷。

2019-06-27

测试数据-cdr_summ_imei_cell_info

测试数据--统计出掉线率最高的前10基站----统计出掉线率最高的前10基站测试数据

2019-06-27

03-Hadoop-MapReduce.docx

尚硅谷大数据技术之Hadoop-Mapreduce

2019-06-18

02-Hadoop-HDFS.docx

尚硅谷大数据技术之Hadoop-HDFS

2019-06-18

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除