- 博客(44)
- 收藏
- 关注
转载 hadoop日志数据分析开发步骤及代码
日志数据分析:1.背景1.1 hm论坛日志,数据分为两部分组成,原来是一个大文件,是56GB;以后每天生成一个文件,大约是150-200MB之间;1.2 日志格式是apache common日志格式;每行记录有5部分组成:访问ip、访问时间、访问资源、访问状态、本次流量;27.19.74.143 - - [30/May/2013:17:38:20 +0800] “GET /static/im...
2018-11-12 20:49:28 666
转载 shell编程快速入门及实战
shell编程:对于hadoop程序员,通常需要熟悉shell编程,因为shell可以非常方便的运行程序代码。1、shell文件格式:xxx.sh#!/bin/sh —shell文件第一行必须这么写#井号后面的内容是注释echo ‘abcd’ ----echo是输出,回显在hadoop0:mkdir shellfilecd shellfilelsvi test.sh#!/bin...
2018-11-12 20:03:50 318
转载 date命令使用文档
date命令的帮助信息[root@localhost source]# date --help用法:date [选项]… [+格式] 或:date [-u|–utc|–universal] [MMDDhhmm[[CC]YY][.ss]]以给定的格式显示当前时间,或是设置系统日期。-d,–date=字符串 显示指定字符串所描述的时间,而非当前时间-f,–file=日期文件 类似–date...
2018-11-12 19:55:54 234
转载 Flume分布式日志收集系统
1.flume是分布式的日志收集系统,把收集来的数据传送到目的地去。2.flume里面有个核心概念,叫做agent。agent是一个java进程,运行在日志收集节点。通过agent接收日志,然后暂存起来,再发送到目的地。3.agent里面包含3个核心组件:source、channel、sink。 3.1 source组件是专用于收集日志的,可以处理各种类型各种格式的日志数据,包括avro、...
2018-11-12 19:07:45 768
转载 Sqoop的安装及简单使用
SQOOP是用于对数据进行导入导出的。(1)把MySQL、Oracle等数据库中的数据导入到HDFS、Hive、HBase中 (2)把HDFS、Hive、HBase中的数据导出到MySQL、Oracle等数据库中SQOOP的安装(在hadoop0上) 解压缩 tar -zxvf sqoop… 重命名 mv sqoop… sqoop 设置环境变量 v...
2018-11-11 13:27:34 541
转载 Hive的安装和使用
1.Hive1.1 在hadoop生态圈中属于数据仓库的角色。他能够管理hadoop中的数据,同时可以查询hadoop中的数据。 本质上讲,hive是一个SQL解析引擎。Hive可以把SQL查询转换为MapReduce中的job来运行。hive有一套映射工具,可以把SQL转换为MapReduce中的job,可以把SQL中的表、字段转换为HDFS中的文件(夹)以及文件中的列。这套映射工具称...
2018-11-11 13:20:00 168
转载 HBase集群的搭建 与
HBase集群的搭建(在《HBase伪分布式安装》基础上搭建)1 集群结构,主节点(hmaster)是hadoop0,从节点(region server)是hadoop1和hadoop22 修改hadoop0上的hbase的几个文件 (1)修改hbase-env.sh的最后一行export HBASE_MANAGES_ZK=false (2)修改hbase-site.xml文件的hba...
2018-11-11 13:12:21 348
转载 HBase的JavaAPI操作 与
复制代码1 package hbase;23 import org.apache.hadoop.conf.Configuration;4 import org.apache.hadoop.hbase.HBaseConfiguration;5 import org.apache.hadoop.hbase.HColumnDescriptor;6 import org.apache.hado...
2018-11-11 13:08:49 205
转载 HBase伪分布式安装 与
HBase伪分布安装(前提条件:本机或集群环境下hadoop.1.1.2已经安装成功《hadoop集群的搭建(分布式安装)》 )1 解压缩、重命名、设置环境变量vi /etc/profile export HBASE_HOME=/usr/local/hbase export PATH=.:HBASE H OME/bin: HBASEHOME/bin:… ...
2018-11-11 13:06:20 142
转载 HBase的基础知识
1.HBase(NoSQL:不是关系型数据库)的逻辑数据模型HBase – Hadoop Database,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。HBase利用Hadoop HDFS作为其文件存储系统,利用Hadoop MapReduce来处理HBase中的海量数据,利用Zookeeper作为协调工具。...
2018-11-11 13:00:38 202
转载 Zookeeper服务器集群的搭建与操作
ZooKeeper作用:Zookeeper 可以用来保证数据在zk集群之间的数据的事务性一致(原子操作)。介绍:Zookeeper 是 Google 的 Chubby一个开源的实现,是 Hadoop 的分布式协调服务。它包含一个简单的原语集,分布式应用程序可以基于它实现同步服务,配置维护和命名服务等。特性:简单的、富有表现力的、具有高可用性、采用松耦合交互方式、是一个资源库。如何搭建Z...
2018-11-11 12:57:21 143
转载 hadoop集群的搭建(分布式安装)
集群•计算机集群是一种计算机系统,他通过一组松散集成的计算机软件和硬件连接起来高度紧密地协同完成计算工作。•集群系统中的单个计算机通常称为节点,通常通过局域网连接。•集群技术的特点:1、通过多台计算机完成同一个工作。达到更高的效率2、两机或多机内容、工作过程等完全一样。如果一台死机,另一台可以起作用hadoop集群的物理分布hadoop的分布式安装大致过程(在《伪分布式安装Hado...
2018-11-11 12:56:05 222
转载 自定义分组 与
自定义分组job.setGroupingComparatorClass(MyGroupingComparator.class); //按照第一列进行分组,然后找出每个分组中的第二列中的最小值为什么要自定义分组?业务要求分组是按照第一列分组,但是NewK2的比较规则决定了不能按照第一列分。只能自定义分组比较器。复制代码1 package group;23 import java.io....
2018-11-11 12:52:34 882
转载 MapReduce常见算法 与自定义排序及Hadoop序列化
MapReduce常见算法•单词计数•数据去重•排序•Top K•选择 以求最值为例,从100万数据中选出一行最小值•投影 以求处理手机上网日志为例,从其11个字段选出了五个字段(列)来显示我们的手机上网流量•分组 相当于分区,以求处理手机上网日志为例,喊手机号和非手机号分为两组•多表连接•单表关联使用TopK算法找出文件中的最大数:复制代码1 package sua...
2018-11-11 12:49:28 631
转载 Partitioner 分区
使用自定义partitioner来处理手机上网日志信息为什么要使用分区?1.根据业务需要,产生多个输出文件 2.多个reduce任务在运行,提高整体job的运行效率复制代码1 package partitioner;23 import java.io.DataInput;4 import java.io.DataOutput;5 import java.io.IOExcepti...
2018-11-10 13:02:41 496
转载 自定义Counter使用 与
自定义计数器的使用(记录敏感单词)复制代码1 package counter;23 import java.net.URI;4 import org.apache.hadoop.conf.Configuration;5 import org.apache.hadoop.fs.FileSystem;6 import org.apache.hadoop.fs.Path;7 impor...
2018-11-10 13:00:21 530
转载 老的API实现WordCount 和
使用Hadoop版本0.x实现单词统计复制代码1 package old;23 import java.io.IOException;4 import java.net.URI;5 import java.util.Iterator;67 import org.apache.hadoop.conf.Configuration;8 import org.apache.hadoop....
2018-11-10 12:57:04 165
转载 Hadoop自定义类型处理手机上网日志
job提交源码分析在eclipse中的写的代码如何提交作业到JobTracker中的哪?(1)在eclipse中调用的job.waitForCompletion(true)实际上执行如下方法 connect(); info = jobClient.submitJobInternal(conf);(2)在connect()方法中,实际上创建了一个JobClient对象。 在调用该对...
2018-11-10 12:53:31 191
转载 MapReduce的原理及执行过程
MapReduce简介1.MapReduce是一种分布式计算模型,是Google提出的,主要用于搜索领域,解决海量数据的计算问题。2.MR有两个阶段组成:Map和Reduce,用户只需实现map()和reduce()两个函数,即可实现分布式计算。MapReduce执行流程MapReduce原理MapReduce的执行步骤:1、Map任务处理1.1 读取HDFS中的文件。每一行解析成...
2018-11-10 12:49:24 820
转载 HDFS的Java操作方式
在eclipse中调用JavaAPI实现HDFS中的相关操作1、创建一个java工程2、右键工程,在属性里添加上hadoop解压后的相关jar包(hadoop目录下的jar包和lib目录下的jar包)3、调用相关代码,实现相关hdfs操作复制代码1 package hdfs;23 import java.io.InputStream;4 import java.net.URL;...
2018-11-10 12:40:04 310
转载 HDFS的体系结构和操作
HDFS fs 常用命令1.对hdfs操作的命令格式是hadoop fs 1.1 -ls 表示对hdfs下一级目录的查看hadoop fs -ls hdfs://chaoren:9000/ ----对HDFS的根目录进行查看(Linux下:ls /) path:这个可以使用more core-site.xml进行查看,发现里面配置有这个path的值为hdfs://chaoren:...
2018-11-10 12:32:25 190
转载 伪分布式安装Hadoop
Hadoop简单介绍Hadoop:适合大数据分布式存储与计算的平台。Hadoop两大核心项目:1、HDFS:Hadoop分布式文件系统 HDFS的架构: 主从结构: 主节点,只有一个:namenode 1、接收用户操作请求 2、维护文件系统的目录结构 ...
2018-11-10 12:31:32 111
转载 hadoop学习之Linux使用
Hadoop学习前准备工作1、安装虚拟机(常用虚拟机:VirtualBox、VMWare)2、安装Linux操作系统(可以直接将打包好的Linux操作系统的镜像文件拿来用,鼠标右键打开,打开方式选择一个虚拟机即可。)常见Linux操作系统:Redhat、centos、ubuntu3、打开虚拟机后,要进行虚拟机的设置:内存设置:512M网络设置:这里选用仅主机模式。(仅主机模式:虚拟机和...
2018-11-10 12:28:36 640
转载 ContentProvider
使用ContentProvider(内容提供者)共享数据ContentProvider 在android中的作用是对外共享数据,也就是说你可以通过ContentProvider把应用中的数据共享给其他应用访问,其他应用可以通过ContentProvider 对你应用中的数据进行添删改查。关于数据共享,以前我们学习过文件操作模式,知道通过指定文件的操作模式为Context.MODE_WORLD_R...
2018-11-10 12:27:12 131
转载 Service
什么是服务?windows下的服务:没有界面、长期运行在后台的应用程序;android下的服务:应用程序的一个组件,没有界面activity,长期运行在后台;进程:是应用程序运行的载体。进程与应用程序之间的关系: linux操作系统创建一个进程,这个进程负责运行dalvik虚拟机,Android的应用程序都是运行在dalvik虚拟机上的。进程的生命周期:1、应用程序一启动的时候就创建了...
2018-11-09 21:28:01 154
转载 BroadcastReceiver
广播的概念:Android中,系统会产生某一个事件时发送广播,应用程序使用广播接受者接收这个广播,就知道系统产生了什么事件。Android系统在运行的过程中,会产生很多事件,比如:开机、电量改变、收发短信、拨打电话、屏幕解锁等。IP拨号器:接收拨打电话的广播布局文件:View CodeMainActivity:View CodeCallerReceiver:View Code清单...
2018-11-09 21:27:07 137
转载 XUtils开源框架的使用(HttpUtils支持多线程断点续传)
XUtils项目下载地址:https://github.com/wyouflf/xUtils•XUtils中包含的四大模块:1、DbUtils模块2、ViewUtils模块3、HttpUtils模块:◦支持同步,异步方式的请求;◦支持大文件上传,上传大文件不会oom;◦支持GET,POST,PUT,MOVE,COPY,DELETE,HEAD,OPTIONS,TRACE,CONNECT...
2018-11-09 21:26:20 314
转载 带断点续传的多线程下载
多线程下载原理:服务器CPU分配给每条线程的时间片相同,服务器带宽平均分配给每条线程,所以客户端开启的线程越多,就能抢占到更多的服务器资源,所以使用多线程下载的话,速度会更快。JavaSE实现带断点续传的多线程下载步骤:1、发送http请求至下载地址,获取要下载的资源文件的大小2、根据资源文件的大小,创建一个长度一样的临时文件,用来抢占磁盘空间3、计算每个线程要下载的数据大小和开始位置、...
2018-11-09 21:25:27 269
转载 android网络编程
•通过浏览器查看Tomcat服务器中的图片1、将要查看的图片dd.jpg存放到Tomcat的webapps/ROOT/目录下2、启动服务器3、打开浏览器,输入:http://172.23.7.240:8080/dd.jpg•网络图片查看器(带有缓存功能)View Code1、主线程不能被阻塞,所有很多的耗时操作都不能放在主线程中运行,否则会发生ANR异常(application not...
2018-11-09 21:23:46 181
转载 SQLite数据库、ListView控件的使用
android下数据库的创建(重点)在Android平台上,集成了一个轻量级嵌入式关系型数据库—SQLite,SQLite3支持 NULL、INTEGER、REAL(浮点数字)、TEXT(字符串文本)和BLOB(二进制对象)数据类型,也接受varchar(n)、char(n)、decimal(p,s) 等数据类型, SQLite最大的特点是你可以把各种类型的数据保存到任何字段中,而不用关心字段声...
2018-11-09 21:22:01 1675
转载 单元测试+内存、SD卡、SP读写+XmlPullParser
测试:•测试的相关概念1、根据是否知道源代码分类:黑盒测试: a - b - c 边值测试 测试逻辑业务白盒测试: 根据源代码写测试方法 或者 测试用例;2、根据测试的粒度分类:方法测试:写完一个方法后就测试单元测试:测试一个能够独立运行的业务逻辑单元;集成测试:整体测试项目 联调系统测试:对整个系统进行测试3、根据测试的暴力程度:冒烟测试:高频次的点击软件压力测试:使用测...
2018-11-09 21:19:30 274
转载 Android应用程序签名打包(AS)
使用Android studio对Android应用签名步骤:第一步:第二步:第三步:第四步:数字证书创建完成后,点击OK----->点击Next------>Finish。注意:生成后的数字证书千万不能丢失,还有密码也不能忘记了。因为这些东西对app以后的版本升级至关重要!!!利用已有的数字证书进行签名步骤:第一步:第二步:浏览到已有的数字证书以后,然后输...
2018-11-09 21:14:00 877
转载 Android studio代码实现打电话+点击事件四种方式
?Android系统架构(重点)第一层:应用层Application第二层:应用框架层Application Framework第三层:Android底层类库层 Libraries、Dalvik虚拟机第四层:linux内核层 linux kernelAndroid是运行在Linux内核基础之上的。Google官方上提供了一张Android系统架构图(四层)。?两种虚拟机的不同 (重点...
2018-11-09 21:11:30 6206
转载 Android Studio常用快捷键
?查找快捷键:Ctrl+Shift+A?格式化代码:Ctrl+Alt+L?清除无效引用包:Ctrl+Alt+O?大小写切换:Ctrl+Shift+U?重构-重命名:Shift+F6?复制当前行或代码块:Ctrl+D?删除当前行或代码块:Ctrl+X, Ctrl+Y?上(下)移行:Alt+Shift+↑ (↓)?上(下)移代码块:Ctrl+Shift+↑(↓)?代码补全:Ctrl+...
2018-11-09 21:07:00 68
原创 LINUX的一些基本命令与基本配置
**一:git 命令**pwd 查看当前所在文件路径ls 查看文件夹下文件mkdir 创建文件夹touch 创建文件git status 查看文件夹状态git add 添加文件ls 查看文件夹下文件mkdir 创建文件夹touch 创建文件git st...
2018-10-27 12:53:30 336
原创 表单中获取数据及cookie的一些方法
一:从表单中获取数据public class Demo01 extends HttpServlet {public void doGet(HttpServletRequest request, HttpServletResponse response) throws ServletException, IOException { response.setContentType("tex...
2018-10-10 21:24:13 2063
原创 servlet配置及域对象
一:ServletConfig(servlet配置信息)配置信息需要web.xml进行配置是以键值对形式配置 key=value在Servlet初始化时配置注意:1.每个Servlet都一个属于自己的ServletConfig对象2.ServletConfig对象内部维护一个map集合public class Demo001 extends HttpSer...
2018-10-09 21:40:28 256
原创 TomCat服务器的配置及使用
一 :用户如何访问网站??1.通过一个网址(URL)访问网站(发出一个请求)2.实际上访问网站 就是访问该网站的服务器访问服务器上面的什么??(代码)静态资源 html div+css(不管什么用户访问 内容不会改变)动态资源 jsp+servlet(根据不同的用户 返回不同的内容)JavaWEB程序员干啥的??不是编写服务器的(有服务器厂商...
2018-10-08 21:04:37 354
原创 数据库的查询与链接
这里写自定义目录标题欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入欢迎使用Ma...
2018-09-28 21:04:48 607
原创 JAVA之反射
一:获取class文件对象1.通过对象获取2.通过类获取3.通过class中的静态方法获取(Class.ForName()常用)//通过对象获取Person p=new Person();//获取Person类的class文件对象Class<? extends Person> c1 = p.getClass();//全类名System.out.println(c1);...
2018-09-25 21:39:10 113
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人