蜡笔小新hyp-CSDN博客

原创 maven详解

仓库 1.1. 存放插件和依赖的地方 1.2. 项目运行时，先从本地仓库查找，若没有，则从远程下载到本地。 1.3. 参考博文：https://www.cnblogs.com/duanxz/p/5210189.html 1.4. 分类本地仓库远程仓库中央仓库私服一种特殊的远程仓库，架设在局域网内的仓库服务，供局域网内的maven用户使用镜像如果仓库x可

2018-01-05 15:41:52 241

原创 Spark快速大数据分析

学习时间：2017.10.10-2017.10.17 学习内容：第一~八章学习总结：

2017-10-20 14:57:54 349

原创 HBase表跨集群迁移

需求：存在两个集群集群1、集群2，将集群1中Hbase数据表复制到集群2中，此时两个集群HBase版本一致。解决思路：一. 将集群1HBase表数据复制到集群2的HBase中 1. 分别查看集群1和集群2中hbase表的存储路径。hbase表数据存储路径在hbase-site.xml文件中指定，该xml文件通常在hbase安装目录下./conf/hbase-site.xml。命令行

2017-10-11 16:05:07 1553 1

原创 maven配置文件setting.xml、pom.xml

maven项目配置文件maven项目主要的配置文件有setting.xml、pom.xml两个、setting.xml配置maven自身的一些设置，全局性的配置，，如maven仓库地址等。pom.xml配置项目中的一些设置，如项目所需的jar包等。下文以setting为例详解文档内容。setting.xml文档详解setting.xml可能存储路径： Maven安装路径: ${maven.hom

2017-09-21 15:45:10 658

原创 Hadoop权威指南笔记二

第十四章关于Flume设计宗旨是向Hadoop批量导入基于事件的海量数据。典型例子：利用Flume从一组web服务器中收集日志文件，然后把这些文件中的日志事件转移到一个新的HDFS汇总文件中以作进一步处理，其终点通常为HDFS。Flume也可以将数据写到其他系统中，如HBase或Solr第十五章关于SqoopSqoop用来在Hadoop和关系型数据库中传递数据。通过Sqoop，可以方便

2017-09-19 15:25:42 442

第三章 Hadoop分布式文件系统3.1 HDFS的设计引言Hadoop 分布式文件系统（HDFS）被设计成适合运行在通用硬件上的分布式文件系统。它是一个高度容错性的系统，适合部署在廉价的机器上，能提供高吞吐量的数据访问，适合大规模数据集上的应用。前提和设计目标硬件错误硬件错误是常态而不是异常，因此错误检测和快速、自动的回复是HDFS最核心的架构目标。流式数据访问运行在HDFS上的应用和普通的应用不

2017-09-12 18:14:08 366

原创 Spark join与cogroup算子

参考链接 join算子 http://blog.csdn.net/zhousishuo/article/details/73292428 join的优化 https://zhuanlan.zhihu.com/p/24331170join与cogroup算子 http://blog.csdn.net/wo334499/article/details/51689563遗留问题，两个rdd如

2017-09-11 11:06:13 747

原创 hadoop集群的三种模式

单机模式在一台单机上运行，没有分布式文件系统，而是直接读写本地操作系统的文件系统。用来检测代码是否有错误。伪分布模式这种模式也是在一台单机上运行，但用不同的java进程模仿分布式运行中的各类结点：（nameNode,dataNode,jobTracker,taskTracker,SecondaryNameNode）完全分布模式真正的分布式，由3个及以上的实体或者虚拟机组件的集群。在一台服务器上虚

2017-09-01 10:03:07 1908

原创第二章关于MapReduce

第一章初识Hadoop1. hadoop2.x的新特性- 新增yarn系统。Yarn是一个通用的用于运行分布式应用的资源管理器。- HDFS联邦管理。将HDFS的命名空间分散到多个namenode中以支持大规模集群。- HDFS的高可用性，简称HA。针对系统崩溃而启用备用的namenode来避免namenode的单点故障。

2017-08-19 22:49:11 304

原创 scala正则表达式

最近在做人物画像，要对url进行分析、抽取关键值，所以常常写好多正则表达式。记录一下 1. 几种常见的正则符号及区别 - [\w]与[\W] - [\s]与[\S] - [\d]与[\D] - 详情见scala教程http://www.runoob.com/scala/scala-regular-expressions.html 2. 几种常见的量词 - *：表示0次或多次 - +：

2017-08-18 17:41:58 339

原创第一章初识Hadoop

1.Hadoop1.x与Hadoop2.x的区别2. x中引入了yarn—通用的用于运行分布式应用的资源管理器HDFS联邦管理。该管理将HDFS的命名空间分散到多个namenode中以支持包含有大规模数据文件的集群。HDFS的高可用性，即HA。针对系统崩溃而启用备用的namenode来避免namenode的单点故障。HA主要指的是同时启动2个namenode。其中一个处于工作（Acti

2017-08-17 22:19:10 210

原创从本地读数据并转为Map格式

从本地路径下读取目录下所有k-v格式字典，返回数据格式为Array[Map[String, String]], Map[String, Int] 实现代码：/*** 获取本地指定目录下所有字典数据* @date Aug 4, 2017* @author hyp* @param dicDirPath* @return*/def dicToMapXcarLocal(dicDirPath:

2017-08-11 16:15:29 473

原创从hdfs读数据并转为Map格式

读取目录下所有k-v格式字典，返回数据格式为Array[Map[String, String]], Map[String, Int] 实现代码：/*** 获取hdfs指定目录下所有字典数据* @author hyp* @param spark* @param dicPath hdfs字典目录路径* @return (Array[Map[String, String]], Map[Stri

2017-08-11 15:48:01 454

原创 scala处理json文件

读取json数据处理并保存输入文件数据为json格式，csid.txt{"bid": "1","品牌":"奥迪","厂商":"一汽-大众奥迪","csid":"5"}{"bid": "1","品牌":"奥迪","厂商":"奥迪(进口)","csid":"63"}{"bid": "1","品牌":"奥迪","厂商":"奥迪RS","csid":"276"}{"bid": "56","品

2017-08-11 14:48:34 6983

原创 ERROR LiveListenerBus: Listener EventLoggingListener threw an exception

在集群上跑任务的时候，有时会出现这个 ERROR LiveListenerBus: Listener EventLoggingListener threw an exception java.util.ConcurrentModificationException错误，查看了资料发现，这是spark2.0.1的一个bug,建议升级一下spark2.0.2/2.1.0 就可以了。我的spark版本是

2017-08-11 13:31:21 5053 1

原创 Array与ArrayBuffer的区别

最近编码过程中遇到Array与ArrayBuffer，有些不太清楚，网上查了一下。参考资料：http://www.cnblogs.com/HeQiangJava/p/6706951.htmlhttp://blog.csdn.net/bdmh/article/details/50070013主要区别：Array是长度不可变数组，ArrayBuffer是长度可变数组。熟悉一些常用方法的使用。

2017-07-07 15:51:09 2227

原创 windows数据导入到hive表

需求说明：将windows系统下数据存入hive表中windows下数据源是压缩格式,即.zip本文中本地环境是指linux环境实例：逻辑：建表（根据数据源或需求建普通表或分区表）—>加载数据—>将windows中.zip数据复制到本地—>本地解压zip数据—>执行hive命令建数据库。 hive创建数据库testdbCREATE DATABASE IF NOT EXISTS tes

2017-06-21 14:45:26 1139

原创 scala合并文件,删除具有相同字段的记录

合并结构相同，内容格式为json的两个文件，用scala代码实现。编译环境：Scala IDE for Eclipse1.下面是详细的代码：package hypimport scala.util.parsing.json._import com.common.pinyinimport scala.io.Sourceimport scala.collection.mutable.Set

2017-06-15 14:51:41 1646

原创 ClosedChannelException

遗留问题：在secureCRT上跑spark代码时偶尔会报错：ClosedChannelException 错误信息：17/05/26 17:34:09 INFO YarnClientSchedulerBackend: Stopped17/05/26 17:34:09 INFO MapOutputTrackerMasterEndpoint: MapOutputTrackerMasterEndpo

2017-06-02 16:40:36 2573 1

原创 RejectedExecutionException

遗留问题：在SecureCRT中跑spark项目有时会出现异常：RejectedExecutionException，但是此昂木还是跑成功了，不知道是为什么？异常信息：17/05/27 10:09:04 INFO YarnClientSchedulerBackend: Stopped17/05/27 10:09:04 INFO MapOutputTrackerMasterEndpoint: M

2017-06-02 16:37:57 4235 5

原创 operation category read is not supported in state standby

myeclipse配置Hadoop环境，配置了两个集群，但是一个连接成功，一个报错：operation category read is not supported in state standby ，集群是待机状态，不支持读操作。解决方法：

2017-06-02 16:28:00 744

转载 server ipc version 9 cannot communicate with client version 3

myEclipse中配置Hadoop环境，按照网上的教程配置后，DFS连接失败，报错：server ipc version 9 cannot communicate with client version 3，意思是Hadoop server端和client端版本不匹配。解决方法：1. 查看server端Hadoop版本：由于使用的是secureCRT，执行命令行：hadoop version输出

2017-06-02 16:19:41 2459

原创 PrintWriter FileNotFoundException

scala写入文件：val percentPath="test/percent.txt"val bw = new PrintWriter(new FileWriter(percentPath))//val bw = new PrintWriter(new FileWriter("test/percent.txt"))bw.write("test" )bw.close()在集群上运行时报异常

2017-05-26 17:07:59 754 1

原创 Spark开发笔记（二）

jdk,jre,jvm的区别参考http://java-mzd.iteye.com/blog/838514做Java开发的，就要做Java环境的搭建，而Java环境根据需要又分为：开发环境和运行环境。开发环境需要安装JDK，运行环境需要安装JRE（如果安装了JDK，则无需再安装JRE）刷新与clear build的区别在scalaIDE中编写代码时找不到jar包，找不到类，重新clea

2017-05-19 15:13:10 333

原创 Spark开发笔记（2017-05-04)

在一个rdd操作中是不能同时操作另一个rdd的。你是想 valuesRdd 里面每个值对于dicRdd 进行过滤,但是在分布式系统里面,每个RDD数据集都切割分发到各个分布式机器虚拟机jvm里,每一个jvm里的数据集不一样,所以,从jvm的角度来看,它是没办法在一块数据集里面操作另外一个整体的RDDvaluesRdd.foreach { i =>val samevalueKeys = dicRd

2017-05-05 16:51:35 625

原创 Spark笔记

spark程序的工作流程从外部数据创建出输入RDD使用诸如filter()这样的转化操作对RDD进行转化，已定义新的RDD告诉Spark对需要被重用的中间结果RDD执行peisist()操作使用行动操作（例如count()和first（）等）来触发一次并行操作，Spark会对计算进行优化后再执行向spark传递函数传递的函数及其引用的数据需要时可序列化的（实现了java的Serializ

2017-05-05 16:21:44 412

原创项目积累

项目名称：convertpytohive.scala功能：将已经打过标签的数据存储到一个hive表中，partition字段值为category_param,category值为文件中类别值，param为要传进去的值。开发中遇到问题：在rdd中不能给外部变量赋值var contentstr="default"// 1.spark从hdfs中读取多个文件val spark = sparkConf

2017-04-25 17:47:12 260

原创 Android知识积累

1. android studio的使用,gradle构建不同版本apkstudio中文社区：http://www.android-studio.org/构建不同版本apk:https://www.zhihu.com/question/22842123Gradle命令：https://segmentfault.com/a/1190000002464822http://

2017-04-10 13:15:37 422

原创 RDD学习

基本概念：RDD( Resilient Distributed Datasets )弹性分布式数据集 - 在Spark中，对数据的操作不外乎创建RDD、转化已有RDD以及调用RDD操作求值 - RDD将操作分为两类：transformation与action。 - 无论执行了多少次transformation操作，RDD都不会真正执行运算，只有当action操作被执行时，运算才会触发。创建RD

2017-04-07 17:23:52 439

原创 Spark开发问题记录

环境：scala ide开发Spark 问题： 1. xx build path is cross-compiled with an incompatible version of Scala (2.10.0). In case this report is mistaken, this check can be disabled in the compiler preference page

2017-04-01 15:59:12 1320

原创 Spark学习

Spark基本概念Spark一种与 Hadoop 相似的通用的集群计算框架，通过将大量数据集计算任务分配到多台计算机上，提供高效内存计算 Spark 是在 Scala 语言中实现的功能目前支持Scala，Java和Python三种语言的 API，并正在逐步支持其他语言（例如R语言）；能够与Hadoop生态系统和数据源（HDFS，Amazon S3，Hive，HBase，Cassandra等

2017-04-01 15:29:47 468

原创 Hive学习

分布式数据仓库HiveHive的数据存储模型在Hive中使用了4中主要的数据存储模型：表（Table）、外部表(External Table)、分区(Partition)、桶(Bucket).表Hive表逻辑上由两部分组成：第一部分为真实数据。第二部分为母爱书表格中数据形式的元数据。在物理实现上，Hive的每个表的数据存储在HDFS目录下，二描述表格中数据形式的元数据存储在关系型数据库中Hiv

2017-04-01 15:26:56 322

原创 scala学习

scala是基于java语言开发的，但是也有与java不一样的地方： 1. 区分大小写 2. 类名首字母大写，若由多个单词组成，则每个单词首字母大写 3. 程序文件的名称和对象名称相同 4. def main(args:Array[String]){}Scala程序的入口 5. 变量声明不一定要赋初值。 6. 传值调用与传名调用 7. 函数方法名结构 1. def m

2017-04-01 15:00:21 246

原创 Hadoop学习

Hadoop是Apache开源组织的一个分布式计算开源框架，提供了一个分布式文件系统HDFS（Hadoop Distributed File System）和支持MapReduce分布式计算的软件架构Hadoop的基本框架一个HDFS文件系统包括一个主控节点NameNode和一组DataNode从节点。NameNode是一个主服务器，用来管理整个文件系统的命名空间和元数据，以及处理来自外界的文件

2017-04-01 14:44:19 343

原创 listview下拉加载后点击item报 java.lang.IndexOutOfBoundsException异常

问题描述：listview下拉加载数据，刷新，点击item后项目崩掉，报异常 java.lang.IndexOutOfBoundsException。出错原因：假定listview加载数据每次请求10条，界面显示数据的List list21.进入当前页面时第一次请求数据此时数据总数count=10；2.再次下拉请求一次数据，3.把请求的10条数据添加到list2中4

2016-07-06 11:47:00 929

原创 Android单元测试（一）——概述

学习了一段时间的单元测试，翻了好多资料，遇到踩了好多坑，记录总结，希望有用。单元测试单元测试是开发者编写的一小段代码，用于检验被测代码中的一个很明确的功能是否正确。其中，单元指的是测试的最小模块。通常而言，一个单元测试是用于判断某个特定条件(或者场景)下某个特定函数的行为。单元测试的代码不会被编译进入APK中。目的检查它是否实现了规定的模块功能和算法，测试用户界面的风格是否

2016-06-12 17:06:27 543

原创 Android环境搭建

电脑重新装系统了，然后要重新安装Android studio，搜索一个不错的教程，以备以后使用。http://ask.android-studio.org/?/question/789

2016-06-09 12:42:26 296

原创 Android架构学习MVC、MVP、MVVM(二)

基于上篇文章对MVC、MVP、MVVM的学习，结合代码区别三个架构的不同。MVC项目结构：1.MainActivity既是view也是controller。2.代码的耦合性太高，3.当业务较多时MainActivity将会很复杂。mvp项目结构：1.MainActivity属于view2.负责view与model两者交互的那部分放在presenter

2016-05-26 16:18:55 388

原创 Android架构学习MVC、MVP、MVVM（一）

一直在敲代码，最近看了Android架构方面的知识，做下总结记录。主要有MVC、MVP、MVVP。MVX（MVC 、MVP 、MVVM等的统称）根据M与V的数据传递流程不同。MVC ---》MVP--》MVVMMVC（模型－视图－控制器、Model View Controller)运行机制：如下图。箭头方向表示数据交互传递的方向。优点：把业务逻辑全部

2016-05-26 15:36:32 615

原创 AndroidStudio新增文件提交到SVN时不显示

开发项目时，AndroidStudio 、svn一直都是好好的，提交、更新都没问题。不知道点到哪里了，提交文件到SVN时，修改的和删除的文件都显示可以提交，但是新增的文件却没显示，也提交不到SVN上。如下图1中不显示新增的文件。解决方法：在androidStudio中选中新增的文件--->右击--->Subversion--->Add to VCS。操作步骤如下图。好了，这

2016-04-15 11:36:12 3184 1

android mvc、mvp、mvvm项目源码

Lifecycle.rar

三级listview

BeanCompare

reflection给相同对象赋值

空空如也