自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(75)
  • 资源 (6)
  • 收藏
  • 关注

原创 maven详解

仓库 1.1. 存放插件和依赖的地方 1.2. 项目运行时,先从本地仓库查找,若没有,则从远程下载到本地。 1.3. 参考博文:https://www.cnblogs.com/duanxz/p/5210189.html 1.4. 分类 本地仓库远程仓库 中央仓库私服 一种特殊的远程仓库,架设在局域网内的仓库服务,供局域网内的maven用户使用镜像 如果仓库x可

2018-01-05 15:41:52 234

原创 Spark快速大数据分析

学习时间:2017.10.10-2017.10.17 学习内容:第一~八章 学习总结:

2017-10-20 14:57:54 340

原创 HBase表跨集群迁移

需求:存在两个集群集群1、集群2,将集群1中Hbase数据表复制到集群2中,此时两个集群HBase版本一致。 解决思路: 一. 将集群1HBase表数据复制到集群2的HBase中 1. 分别查看集群1和集群2中hbase表的存储路径。hbase表数据存储路径在hbase-site.xml文件中指定,该xml文件通常在hbase安装目录下./conf/hbase-site.xml。 命令行

2017-10-11 16:05:07 1502 1

原创 maven配置文件setting.xml、pom.xml

maven项目配置文件maven项目主要的配置文件有setting.xml、pom.xml两个、setting.xml配置maven自身的一些设置,全局性的配置,,如maven仓库地址等。pom.xml配置项目中的一些设置,如项目所需的jar包等。下文以setting为例详解文档内容。setting.xml文档详解setting.xml可能存储路径: Maven安装路径: ${maven.hom

2017-09-21 15:45:10 650

原创 Hadoop权威指南笔记二

第十四章 关于Flume设计宗旨是向Hadoop批量导入基于事件的海量数据。典型例子:利用Flume从一组web服务器中收集日志文件,然后把这些文件中的日志事件转移到一个新的HDFS汇总文件中以作进一步处理,其终点通常为HDFS。Flume也可以将数据写到其他系统中,如HBase或Solr第十五章 关于SqoopSqoop用来在Hadoop和关系型数据库中传递数据。通过Sqoop,可以方便

2017-09-19 15:25:42 433

转载 Hadoop权威指南笔记一

第三章 Hadoop分布式文件系统3.1 HDFS的设计引言Hadoop 分布式文件系统(HDFS)被设计成适合运行在通用硬件上的分布式文件系统。它是一个高度容错性的系统,适合部署在廉价的机器上,能提供高吞吐量的数据访问,适合大规模数据集上的应用。前提和设计目标硬件错误硬件错误是常态而不是异常,因此错误检测和快速、自动的回复是HDFS最核心的架构目标。流式数据访问运行在HDFS上的应用和普通的应用不

2017-09-12 18:14:08 354

原创 Spark join与cogroup算子

参考链接 join算子 http://blog.csdn.net/zhousishuo/article/details/73292428 join的优化 https://zhuanlan.zhihu.com/p/24331170join与cogroup算子 http://blog.csdn.net/wo334499/article/details/51689563遗留问题,两个rdd如

2017-09-11 11:06:13 738

原创 hadoop集群的三种模式

单机模式在一台单机上运行,没有分布式文件系统,而是直接读写本地操作系统的文件系统。 用来检测代码是否有错误。伪分布模式这种模式也是在一台单机上运行,但用不同的java进程模仿分布式运行中的各类结点:(nameNode,dataNode,jobTracker,taskTracker,SecondaryNameNode)完全分布模式真正的分布式,由3个及以上的实体或者虚拟机组件的集群。在一台服务器上虚

2017-09-01 10:03:07 1896

原创 第二章 关于MapReduce

第一章 初识Hadoop1.      hadoop2.x的新特性-         新增yarn系统。Yarn是一个通用的用于运行分布式应用的资源管理器。-         HDFS联邦管理。将HDFS的命名空间分散到多个namenode中以支持大规模集群。-         HDFS的高可用性,简称HA。针对系统崩溃而启用备用的namenode来避免namenode的单点故障。

2017-08-19 22:49:11 294

原创 scala正则表达式

最近在做人物画像,要对url进行分析、抽取关键值,所以常常写好多正则表达式。记录一下 1. 几种常见的正则符号及区别 - [\w]与[\W] - [\s]与[\S] - [\d]与[\D] - 详情见scala教程http://www.runoob.com/scala/scala-regular-expressions.html 2. 几种常见的量词 - *:表示0次或多次 - +:

2017-08-18 17:41:58 328

原创 第一章 初识Hadoop

1.Hadoop1.x与Hadoop2.x的区别2. x中引入了yarn—通用的用于运行分布式应用的资源管理器HDFS联邦管理。该管理将HDFS的命名空间分散到多个namenode中以支持包含有大规模数据文件的集群。HDFS的高可用性,即HA。针对系统崩溃而启用备用的namenode来避免namenode的单点故障。HA主要指的是同时启动2个namenode。其中一个处于工作(Acti

2017-08-17 22:19:10 204

原创 从本地读数据并转为Map格式

从本地路径下读取目录下所有k-v格式字典,返回数据格式为Array[Map[String, String]], Map[String, Int] 实现代码:/*** 获取本地指定目录下所有字典数据* @date Aug 4, 2017* @author hyp* @param dicDirPath* @return*/def dicToMapXcarLocal(dicDirPath:

2017-08-11 16:15:29 459

原创 从hdfs读数据并转为Map格式

读取目录下所有k-v格式字典,返回数据格式为Array[Map[String, String]], Map[String, Int] 实现代码:/*** 获取hdfs指定目录下所有字典数据* @author hyp* @param spark* @param dicPath hdfs字典目录路径* @return (Array[Map[String, String]], Map[Stri

2017-08-11 15:48:01 430

原创 scala处理json文件

读取json数据处理并保存输入文件数据为json格式,csid.txt{"bid": "1","品牌":"奥迪","厂商":"一汽-大众奥迪","csid":"5"}{"bid": "1","品牌":"奥迪","厂商":"奥迪(进口)","csid":"63"}{"bid": "1","品牌":"奥迪","厂商":"奥迪RS","csid":"276"}{"bid": "56","品

2017-08-11 14:48:34 6967

原创 ERROR LiveListenerBus: Listener EventLoggingListener threw an exception

在集群上跑任务的时候,有时会出现这个 ERROR LiveListenerBus: Listener EventLoggingListener threw an exception java.util.ConcurrentModificationException错误,查看了资料发现,这是spark2.0.1的一个bug,建议升级一下spark2.0.2/2.1.0 就可以了。我的spark版本是

2017-08-11 13:31:21 5022 1

原创 Array与ArrayBuffer的区别

最近编码过程中遇到Array与ArrayBuffer,有些不太清楚,网上查了一下。参考资料:http://www.cnblogs.com/HeQiangJava/p/6706951.htmlhttp://blog.csdn.net/bdmh/article/details/50070013主要区别:Array是长度不可变数组,ArrayBuffer是长度可变数组。熟悉一些常用方法的使用。

2017-07-07 15:51:09 2210

原创 windows数据导入到hive表

需求说明:将windows系统下数据存入hive表中windows下数据源是压缩格式,即.zip本文中本地环境是指linux环境实例:逻辑: 建表(根据数据源或需求建普通表或分区表)—>加载数据—>将windows中.zip数据复制到本地—>本地解压zip数据—>执行hive命令建数据库。 hive创建数据库testdbCREATE DATABASE IF NOT EXISTS tes

2017-06-21 14:45:26 1126

原创 scala合并文件,删除具有相同字段的记录

合并结构相同,内容格式为json的两个文件,用scala代码实现。 编译环境:Scala IDE for Eclipse1.下面是详细的代码:package hypimport scala.util.parsing.json._import com.common.pinyinimport scala.io.Sourceimport scala.collection.mutable.Set

2017-06-15 14:51:41 1627

原创 ClosedChannelException

遗留问题:在secureCRT上跑spark代码时偶尔会报错:ClosedChannelException 错误信息:17/05/26 17:34:09 INFO YarnClientSchedulerBackend: Stopped17/05/26 17:34:09 INFO MapOutputTrackerMasterEndpoint: MapOutputTrackerMasterEndpo

2017-06-02 16:40:36 2561 1

原创 RejectedExecutionException

遗留问题:在SecureCRT中跑spark项目有时会出现异常:RejectedExecutionException,但是此昂木还是跑成功了,不知道是为什么? 异常信息:17/05/27 10:09:04 INFO YarnClientSchedulerBackend: Stopped17/05/27 10:09:04 INFO MapOutputTrackerMasterEndpoint: M

2017-06-02 16:37:57 4219 5

原创 operation category read is not supported in state standby

myeclipse配置Hadoop环境,配置了两个集群,但是一个连接成功,一个报错:operation category read is not supported in state standby ,集群是待机状态,不支持读操作。 解决方法:

2017-06-02 16:28:00 729

转载 server ipc version 9 cannot communicate with client version 3

myEclipse中配置Hadoop环境,按照网上的教程配置后,DFS连接失败,报错:server ipc version 9 cannot communicate with client version 3,意思是Hadoop server端和client端版本不匹配。解决方法:1. 查看server端Hadoop版本:由于使用的是secureCRT,执行命令行:hadoop version输出

2017-06-02 16:19:41 2445

原创 PrintWriter FileNotFoundException

scala写入文件:val percentPath="test/percent.txt"val bw = new PrintWriter(new FileWriter(percentPath))//val bw = new PrintWriter(new FileWriter("test/percent.txt"))bw.write("test" )bw.close()在集群上运行时报异常

2017-05-26 17:07:59 708 1

原创 Spark开发笔记(二)

jdk,jre,jvm的区别 参考http://java-mzd.iteye.com/blog/838514做Java开发的,就要做Java环境的搭建,而Java环境根据需要又分为:开发环境和运行环境。开发环境需要安装JDK, 运行环境需要安装JRE(如果安装了JDK,则无需再安装JRE)刷新与clear build的区别 在scalaIDE中编写代码时找不到jar包,找不到类,重新clea

2017-05-19 15:13:10 324

原创 Spark开发笔记(2017-05-04)

在一个rdd操作中是不能同时操作另一个rdd的。你是想 valuesRdd 里面每个值 对于dicRdd 进行过滤,但是在分布式系统里面,每个RDD数据集都切割分发到各个分布式机器虚拟机jvm里,每一个jvm里的数据集不一样,所以,从jvm的角度来看,它是没办法在一块数据集里面操作另外一个整体的RDDvaluesRdd.foreach { i =>val samevalueKeys = dicRd

2017-05-05 16:51:35 614

原创 Spark笔记

spark程序的工作流程 从外部数据创建出输入RDD使用诸如filter()这样的转化操作对RDD进行转化,已定义新的RDD告诉Spark对需要被重用的中间结果RDD执行peisist()操作使用行动操作(例如count()和first()等)来触发一次并行操作,Spark会对计算进行优化后再执行向spark传递函数传递的函数及其引用的数据需要时可序列化的(实现了java的Serializ

2017-05-05 16:21:44 399

原创 项目积累

项目名称:convertpytohive.scala功能:将已经打过标签的数据存储到一个hive表中,partition字段值为category_param,category值为文件中类别值,param为要传进去的值。开发中遇到问题:在rdd中不能给外部变量赋值var contentstr="default"// 1.spark从hdfs中读取多个文件val spark = sparkConf

2017-04-25 17:47:12 252

原创 Android知识积累

1.      android studio的使用,gradle构建不同版本apkstudio中文社区:http://www.android-studio.org/构建不同版本apk:https://www.zhihu.com/question/22842123Gradle命令:https://segmentfault.com/a/1190000002464822http://

2017-04-10 13:15:37 414

原创 RDD学习

基本概念:RDD( Resilient Distributed Datasets )弹性分布式数据集 - 在Spark中,对数据的操作不外乎创建RDD、转化已有RDD以及调用RDD操作求值 - RDD将操作分为两类:transformation与action。 - 无论执行了多少次transformation操作,RDD都不会真正执行运算,只有当action操作被执行时,运算才会触发。创建RD

2017-04-07 17:23:52 421

原创 Spark开发问题记录

环境:scala ide开发Spark 问题: 1. xx build path is cross-compiled with an incompatible version of Scala (2.10.0). In case this report is mistaken, this check can be disabled in the compiler preference page

2017-04-01 15:59:12 1316

原创 Spark学习

Spark基本概念Spark一种与 Hadoop 相似的通用的集群计算框架,通过将大量数据集计算任务分配到多台计算机上,提供高效内存计算 Spark 是在 Scala 语言中实现的功能目前支持Scala,Java和Python三种语言的 API,并正在逐步支持其他语言(例如R语言);能够与Hadoop生态系统和数据源(HDFS,Amazon S3,Hive,HBase,Cassandra等

2017-04-01 15:29:47 464

原创 Hive学习

分布式数据仓库HiveHive的数据存储模型在Hive中使用了4中主要的数据存储模型:表(Table)、外部表(External Table)、分区(Partition)、桶(Bucket).表Hive表逻辑上由两部分组成:第一部分为真实数据。第二部分为母爱书表格中数据形式的元数据。在物理实现上,Hive的每个表的数据存储在HDFS目录下,二描述表格中数据形式的元数据存储在关系型数据库中Hiv

2017-04-01 15:26:56 319

原创 scala学习

scala是基于java语言开发的,但是也有与java不一样的地方: 1. 区分大小写 2. 类名首字母大写,若由多个单词组成,则每个单词首字母大写 3. 程序文件的名称和对象名称相同 4. def main(args:Array[String]){}Scala程序的入口 5. 变量声明不一定要赋初值。 6. 传值调用与传名调用 7. 函数方法名结构 1. def m

2017-04-01 15:00:21 240

原创 Hadoop学习

Hadoop是Apache开源组织的一个分布式计算开源框架,提供了一个分布式文件系统HDFS(Hadoop Distributed File System)和支持MapReduce分布式计算的软件架构Hadoop的基本框架一个HDFS文件系统包括一个主控节点NameNode和一组DataNode从节点。NameNode是一个主服务器,用来管理整个文件系统的命名空间和元数据,以及处理来自外界的文件

2017-04-01 14:44:19 334

原创 listview下拉加载后点击item报 java.lang.IndexOutOfBoundsException异常

问题描述:listview下拉加载数据,刷新,点击item后项目崩掉,报异常 java.lang.IndexOutOfBoundsException。出错原因:假定listview加载数据每次请求10条,界面显示数据的List list21.进入当前页面时第一次请求数据此时数据总数count=10;2.再次下拉请求一次数据,3.把请求的10条数据添加到list2中4

2016-07-06 11:47:00 914

原创 Android单元测试(一)——概述

学习了一段时间的单元测试,翻了好多资料,遇到踩了好多坑,记录总结,希望有用。单元测试单元测试是开发者编写的一小段代码,用于检验被测代码中的一个很明确的功能是否正确。其中,单元指的是测试的最小模块。通常而言,一个单元测试是用于判断某个特定条件(或者场景)下某个特定函数的行为。单元测试的代码不会被编译进入APK中。目的检查它是否实现了规定的模块功能和算法,测试用户界面的风格是否

2016-06-12 17:06:27 535

原创 Android环境搭建

电脑重新装系统了,然后要重新安装Android studio,搜索一个不错的教程,以备以后使用。http://ask.android-studio.org/?/question/789

2016-06-09 12:42:26 289

原创 Android架构学习MVC、MVP、MVVM(二)

基于上篇文章对MVC、MVP、MVVM的学习,结合代码区别三个架构的不同。MVC项目结构:1.MainActivity既是view也是controller。2.代码的耦合性太高,3.当业务较多时MainActivity将会很复杂。mvp项目结构:1.MainActivity属于view2.负责view与model两者交互的那部分放在presenter

2016-05-26 16:18:55 382

原创 Android架构学习MVC、MVP、MVVM(一)

一直在敲代码,最近看了Android架构方面的知识,做下总结记录。主要有MVC、MVP、MVVP。MVX(MVC 、MVP 、MVVM等的统称)根据M与V的数据传递流程不同。MVC ---》MVP--》MVVMMVC(模型-视图-控制器、Model View Controller)运行机制:如下图。箭头方向表示数据交互传递的方向。优点:把业务逻辑全部

2016-05-26 15:36:32 604

原创 AndroidStudio新增文件提交到SVN时不显示

开发项目时,AndroidStudio 、svn一直都是好好的,提交、更新都没问题。不知道点到哪里了,提交文件到SVN时,修改的和删除的文件都显示可以提交,但是新增的文件却没显示,也提交不到SVN上。如下图1中不显示新增的文件。解决方法:在androidStudio中选中新增的文件--->右击--->Subversion--->Add to VCS。操作步骤如下图。好了,这

2016-04-15 11:36:12 3169 1

android mvc、mvp、mvvm项目源码

分别用mvc,mvp,mvvm三种架构实现同一功能的android项目,比较三个架构的不同及优缺点。

2016-05-26

Lifecycle.rar

fragment与Activity生命周期的详细描述,以及包含有fragment的Activity,动态添加Fragment的Activity等

2016-01-20

三级listview

一个页面实现多级listview,向右滑动隐藏listview.一般用来实现多级分组的展示。

2016-01-08

BeanCompare

所属相同的类对象进行比较,比如id等属性不需要比较时,可以进行筛选,排除这这不需要比较的字段。

2015-12-11

reflection给相同对象赋值

已知一个类对象,给相同类的另一个对象赋值

2015-12-11

计算机组成原理(白中英)课件

计算机基础知识入门,配套教材,资料详尽,简明易懂,学习的好帮手,

2013-03-23

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除