自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(23)
  • 资源 (3)
  • 收藏
  • 关注

原创 kafka-Api消费数据

在IDEA中通过api获取kafka消费的数据1、创建KafkaConsumerpackage kafka;import org.apache.kafka.clients.consumer.ConsumerRecord;import org.apache.kafka.clients.consumer.ConsumerRecords;import org.apache.kafka.clie...

2019-02-27 23:49:57 820

原创 1、电信客服项目之数据采集

学完大数据的基本组件后需要用项目实践下,电信客服项目是对用户通话记录的数据分析。数据内容包括呼叫方手机号,呼叫方姓名,接收方手机号,接收方姓名,通话建立时间,通话时间1、模拟通话记录数据,用java程序生产数据package producer;import java.io.FileNotFoundException;import java.io.FileOutputStream;impo...

2019-02-27 18:17:01 1129

原创 IDEA创建Maven工程配置settings.xml

1、在https://maven.apache.org/网站下载apache maven下载完成后解压到任意目录,配置系统环境变量M2_HOME:C:\apache-maven-3.6.0-bin\apache-maven-3.6.0Path:%M2_HOME%\bin打开命令行输入 mvn -version测试是否配置成功打开IDEAFile->Settings->Ma...

2019-02-26 22:23:13 18515

原创 spark Streaming实时处理流式数据

1、创建SparkContextval conf:SparkConf = new SparkConf().setAppName("streamwc").setMaster("local[2]")val sc:SparkContext = new SparkContext(conf)2、创建StreamingContextval ssc:StreamingContext = new St...

2019-02-25 15:39:38 1289

原创 spark json,csv作为数据源操作

1、sparkSQL操作需要创建SparkSessionval sparkSession:SparkSession = SparkSession.builder().appName("JdbcSource").master("local[2]").getOrCreate()2、读取json,csv数据源val jread:DataFrame = sparkSession.read.j...

2019-02-24 23:43:30 435

原创 spark mysql作为数据源读取数据操作

1、sparkSQL操作需要创建SparkSession,sparkRDD操作需要创建SparkContext。这里使用sparkSessionval sparkSession:SparkSession = SparkSession.builder().appName("JdbcSource").master("local[2]").getOrCreate()2、加载数据源url:...

2019-02-24 22:58:28 999

原创 spark join操作

1、创建SparkSessionval sparkSession:SparkSession = SparkSession.builder().appName("SparkSqlJoin").master("local[2]").getOrCreate()2、创建DataSet数据集val datas1:Dataset[String] = sparkSession.createData...

2019-02-24 17:43:11 10412

原创 sparksql实现单词计数

1、创建SparkSessionval sparkSession = SparkSession.builder() .appName("SparkWordCount") .master("local[2]") .getOrCreate()2、加载数据,使用dataset处理数据集read来读取可以直接返回DataSet[String],这是个比RDD更高级的数据集它返回一个列名为...

2019-02-24 16:06:11 1216

原创 spark中使用Ordered自定义排序规则-模式匹配

定义一个数组val girl: Array[String] = Array(“reba,18,80”,“mimi,22,70”,“liya,30,80”,“jingtian,18,85”)按照年龄和体重进行排序年龄小的排前面,如果年龄相同,体重大的排前面,有两个排序条件定义样例类实现排序方式当一个类被定义成为case类后,Scala会自动帮你创建一个伴生对象实例化不需要new关键字c...

2019-02-22 16:11:12 705

原创 spark中使用Ordered自定义排序规则-封装类

scala中用于排序的有两个特质 Ordered和Ordering,Ordered继承了java中的Comparable接口,Ordering继承了java的Comparator接口trait Ordered[A] extends scala.Any with java.lang.Comparable[A]trait Ordering[T] extends java.lang.Object w...

2019-02-22 15:19:47 825

原创 spark中cache和checkpoint使用

1)cachecache是为了追求计算的速度spark中计算任务在内存中,但是结果是存储在磁盘中的,所以首次运行会慢,之后会拿磁盘中的计算结果,所以后面会快很多通过对结果的RDD分布式数据集进行cache,将计算结果缓存在内存中,这样会比缓存在磁盘中更快的读取。比如计算log文件的行数scala> val rdd1 = sc.textFile("hdfs://192.168.252...

2019-02-22 11:50:17 846

原创 spark中jdbcRDD操作mysql的用法

spark中提供了jdbcRDD连接mysql数据库操作import java.sql.DriverManagerimport org.apache.spark.rdd.JdbcRDDimport org.apache.spark.{SparkConf, SparkContext}object JdbcRDDDemo { def main(args: Array[String]): ...

2019-02-21 22:01:37 1170

原创 idea中spark处理数据存储到mysql

1)首先idea中新建maven工程SparkWC在pom.xml中导入配置<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance...

2019-02-21 18:31:21 1724

原创 Idea中pom.xml在project标签处报错:Failed to read artifact descriptor for xxx:jar

如题,出现这样的问题,一般是jar包下载出错。解决方法是删除该jar包。手动下载一下,然后重新导入一下jar包即可。解决方案:根据报错提示到 C:\Users\Administrator.m2\repository\ 下找到下载出错的jar包。比如我这里是spark-core_2.11-2.2.0.jarC:\Users\Administrator.m2\repository\org\a...

2019-02-19 14:23:01 16041 4

原创 idea new 新文件没有scala菜单解决方法

在idea中新建scala工程,需要先安装scala插件。1)File->setting->Plugins,然后搜索scala插件 安装。安装完成后重启idea2)设置scala sdkFile->Project Structure->Libraries->+3)新建scala工程现在就可以新建scala类了...

2019-02-15 20:48:14 6799 1

原创 svn提交提示失败,clean up 也失败的解决方法

在svn坐在目录文件夹打开命令行窗口输入命令:sqlite3 .svn/wc.db "delete from work_queue"然后再执行clean up就可以了

2019-02-15 18:25:27 477

原创 win7修改VMware Network Adapter VMnet8为静态ip地址

win7上面用虚拟机学习大数据,有时候本地VMware虚拟网卡的ip会突然被重新分配。导致SecureCRT连接到虚拟服务器失败。突然就遇到了,这里被重新配置了IPv4地址,导致原来SecureCRT的session连接失败了。所以要给这个虚拟网卡配一个静态ip。右键电脑底部网络图标,打开网络与共享中心-》更改适配器设置找到这个虚拟网卡。右键这个虚拟网卡-》选择属性打开DNS服务器...

2019-02-02 16:02:21 5552 5

原创 hbase相关需求

需求1:对hbase中一张表yangme的rowkey进行计数1)导入环境变量export HBASE_HOME=/root/hd/hbase-1.3.0export HADOOP_HOME=/root/hd/hadoop-2.8.5export HADOOP_CLASSPATH=${HBASE_HOME}/bin/hbase mapredcp2)启动hbase-mr任务hadoop里...

2019-02-01 19:00:21 308

原创 hbase通过idea操作api

1)安装Intellij idea这款开发工具收费,要注册http://idea.lanyus.com/这里找注册码安装完成后输入注册码,然后需要在本地hosts文件修改C:\Windows\System32\drivers\etc\hosts加上这个0.0.0.0 account.jetbrains.com2)Intellij idea新建Maven工程在pom.xml中添加h...

2019-02-01 16:29:59 7183 1

原创 Hbase数据库入门

Hbase概述Apache Hbase是hadoop数据库,是一个分布式,可扩展的大数据存储。当您需要对大数据进行随机,实时读/写访问时,请使用Apache HBase。该项目的目标是托管非常大的表-数十亿行x百万列-在商品硬件集群上。Apache HBase是一个开源的,分布式的,版本化的非关系数据库,模仿Google的Bigtable;Chang等人的结构化数据分布式存储系统。正如Bigt...

2019-02-01 16:23:32 245

原创 Azkaban工作流管理入门

Azkaban概述Azkaban是一个分布式工作流管理器,在LinkedIn上实现,以解决Hadoop作业依赖性问题,我们有需要按顺序运行的工作,从ETL工作到数据分析产品。特点:1)给用户提供了一个非常友好的可视化界面 2)非常方便的上传工作流 -》打成压缩包jar包3)设置任务间的关系4)权限设置 5)模块化 6)随时停止和启动任务 7)可以查看日志记录8)与O...

2019-02-01 16:22:35 410

原创 sqoop数据迁移入门

Sqoop概述1)官网 http://sqoop.apache.org2)场景 传统型缺点,分布式存储。把传统型数据库数据迁移 Apache Sqoop是一种用于在Apache Hadoop和结构化数据存储(如关系数据库)之间高效传输批量数据的工具 Sqoop安装部署1)下载安装包 2)解压tar -xzvf .tar3)修改配置 vi sqoop-env....

2019-02-01 16:21:32 260

原创 Flume入门

1)flume概述Flume是一种分布式,可靠且可用的服务,用于有效的收集,聚合和移动大量日志数据,它具有基于流数据的简单灵活的架构,它具有可靠的可靠性机制和许多故障转移和恢复机制,具有强大的容错能力,它使用简单的可扩展数据模型,允许在线分析应用程序。2)为什么需要flume数据从哪里来?-》爬虫-》日志数据-》传统型数据库 sqoop(数据迁移)3)flume架构source...

2019-02-01 16:20:36 126

ImageLoader jar包

是最新的ImageLoader开源框架工具jar包,

2015-11-27

ImageLoaderDemo

使用了ImageLoader开源框架处理图片的三级缓存

2015-11-27

android_mvp架构demo

该demo详细展示了android中mvp架构的运用,帮助同学们,理解mvp架构的模式

2015-11-11

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除