2019年02月_方兵兵

原创 kafka-Api消费数据

在IDEA中通过api获取kafka消费的数据1、创建KafkaConsumerpackage kafka;import org.apache.kafka.clients.consumer.ConsumerRecord;import org.apache.kafka.clients.consumer.ConsumerRecords;import org.apache.kafka.clie...

2019-02-27 23:49:57 820

原创 1、电信客服项目之数据采集

学完大数据的基本组件后需要用项目实践下，电信客服项目是对用户通话记录的数据分析。数据内容包括呼叫方手机号，呼叫方姓名，接收方手机号，接收方姓名，通话建立时间，通话时间1、模拟通话记录数据，用java程序生产数据package producer;import java.io.FileNotFoundException;import java.io.FileOutputStream;impo...

2019-02-27 18:17:01 1129

原创 IDEA创建Maven工程配置settings.xml

1、在https://maven.apache.org/网站下载apache maven下载完成后解压到任意目录，配置系统环境变量M2_HOME:C:\apache-maven-3.6.0-bin\apache-maven-3.6.0Path:%M2_HOME%\bin打开命令行输入 mvn -version测试是否配置成功打开IDEAFile->Settings->Ma...

2019-02-26 22:23:13 18515

原创 spark Streaming实时处理流式数据

1、创建SparkContextval conf:SparkConf = new SparkConf().setAppName("streamwc").setMaster("local[2]")val sc:SparkContext = new SparkContext(conf)2、创建StreamingContextval ssc:StreamingContext = new St...

2019-02-25 15:39:38 1289

原创 spark json,csv作为数据源操作

1、sparkSQL操作需要创建SparkSessionval sparkSession:SparkSession = SparkSession.builder().appName("JdbcSource").master("local[2]").getOrCreate()2、读取json,csv数据源val jread:DataFrame = sparkSession.read.j...

2019-02-24 23:43:30 435

原创 spark mysql作为数据源读取数据操作

1、sparkSQL操作需要创建SparkSession，sparkRDD操作需要创建SparkContext。这里使用sparkSessionval sparkSession:SparkSession = SparkSession.builder().appName("JdbcSource").master("local[2]").getOrCreate()2、加载数据源url:...

2019-02-24 22:58:28 999

原创 spark join操作

1、创建SparkSessionval sparkSession:SparkSession = SparkSession.builder().appName("SparkSqlJoin").master("local[2]").getOrCreate()2、创建DataSet数据集val datas1:Dataset[String] = sparkSession.createData...

2019-02-24 17:43:11 10412

原创 sparksql实现单词计数

1、创建SparkSessionval sparkSession = SparkSession.builder() .appName("SparkWordCount") .master("local[2]") .getOrCreate()2、加载数据，使用dataset处理数据集read来读取可以直接返回DataSet[String],这是个比RDD更高级的数据集它返回一个列名为...

2019-02-24 16:06:11 1216

原创 spark中使用Ordered自定义排序规则-模式匹配

定义一个数组val girl: Array[String] = Array(“reba,18,80”,“mimi,22,70”,“liya,30,80”,“jingtian,18,85”)按照年龄和体重进行排序年龄小的排前面，如果年龄相同，体重大的排前面，有两个排序条件定义样例类实现排序方式当一个类被定义成为case类后，Scala会自动帮你创建一个伴生对象实例化不需要new关键字c...

2019-02-22 16:11:12 705

scala中用于排序的有两个特质 Ordered和Ordering，Ordered继承了java中的Comparable接口，Ordering继承了java的Comparator接口trait Ordered[A] extends scala.Any with java.lang.Comparable[A]trait Ordering[T] extends java.lang.Object w...

2019-02-22 15:19:47 825

原创 spark中cache和checkpoint使用

1）cachecache是为了追求计算的速度spark中计算任务在内存中，但是结果是存储在磁盘中的，所以首次运行会慢，之后会拿磁盘中的计算结果，所以后面会快很多通过对结果的RDD分布式数据集进行cache，将计算结果缓存在内存中，这样会比缓存在磁盘中更快的读取。比如计算log文件的行数scala&gt; val rdd1 = sc.textFile("hdfs://192.168.252...

2019-02-22 11:50:17 846

原创 spark中jdbcRDD操作mysql的用法

spark中提供了jdbcRDD连接mysql数据库操作import java.sql.DriverManagerimport org.apache.spark.rdd.JdbcRDDimport org.apache.spark.{SparkConf, SparkContext}object JdbcRDDDemo { def main(args: Array[String]): ...

2019-02-21 22:01:37 1170

原创 idea中spark处理数据存储到mysql

1）首先idea中新建maven工程SparkWC在pom.xml中导入配置<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance...

2019-02-21 18:31:21 1724

原创 Idea中pom.xml在project标签处报错：Failed to read artifact descriptor for xxx:jar

如题，出现这样的问题，一般是jar包下载出错。解决方法是删除该jar包。手动下载一下，然后重新导入一下jar包即可。解决方案：根据报错提示到 C:\Users\Administrator.m2\repository\ 下找到下载出错的jar包。比如我这里是spark-core_2.11-2.2.0.jarC:\Users\Administrator.m2\repository\org\a...

2019-02-19 14:23:01 16041 4

原创 idea new 新文件没有scala菜单解决方法

在idea中新建scala工程，需要先安装scala插件。1）File->setting->Plugins，然后搜索scala插件安装。安装完成后重启idea2）设置scala sdkFile->Project Structure->Libraries->+3）新建scala工程现在就可以新建scala类了...

2019-02-15 20:48:14 6799 1

原创 svn提交提示失败，clean up 也失败的解决方法

在svn坐在目录文件夹打开命令行窗口输入命令：sqlite3 .svn/wc.db "delete from work_queue"然后再执行clean up就可以了

2019-02-15 18:25:27 477

原创 win7修改VMware Network Adapter VMnet8为静态ip地址

win7上面用虚拟机学习大数据，有时候本地VMware虚拟网卡的ip会突然被重新分配。导致SecureCRT连接到虚拟服务器失败。突然就遇到了，这里被重新配置了IPv4地址，导致原来SecureCRT的session连接失败了。所以要给这个虚拟网卡配一个静态ip。右键电脑底部网络图标，打开网络与共享中心-》更改适配器设置找到这个虚拟网卡。右键这个虚拟网卡-》选择属性打开DNS服务器...

2019-02-02 16:02:21 5552 5

原创 hbase相关需求

需求1：对hbase中一张表yangme的rowkey进行计数1）导入环境变量export HBASE_HOME=/root/hd/hbase-1.3.0export HADOOP_HOME=/root/hd/hadoop-2.8.5export HADOOP_CLASSPATH=${HBASE_HOME}/bin/hbase mapredcp2）启动hbase-mr任务hadoop里...

2019-02-01 19:00:21 308

原创 hbase通过idea操作api

1）安装Intellij idea这款开发工具收费，要注册http://idea.lanyus.com/这里找注册码安装完成后输入注册码，然后需要在本地hosts文件修改C:\Windows\System32\drivers\etc\hosts加上这个0.0.0.0 account.jetbrains.com2）Intellij idea新建Maven工程在pom.xml中添加h...

2019-02-01 16:29:59 7183 1

原创 Hbase数据库入门

Hbase概述Apache Hbase是hadoop数据库，是一个分布式，可扩展的大数据存储。当您需要对大数据进行随机，实时读/写访问时，请使用Apache HBase。该项目的目标是托管非常大的表-数十亿行x百万列-在商品硬件集群上。Apache HBase是一个开源的，分布式的，版本化的非关系数据库，模仿Google的Bigtable;Chang等人的结构化数据分布式存储系统。正如Bigt...

2019-02-01 16:23:32 245

原创 Azkaban工作流管理入门

Azkaban概述Azkaban是一个分布式工作流管理器，在LinkedIn上实现，以解决Hadoop作业依赖性问题，我们有需要按顺序运行的工作，从ETL工作到数据分析产品。特点：1）给用户提供了一个非常友好的可视化界面 2）非常方便的上传工作流 -》打成压缩包jar包3）设置任务间的关系4）权限设置 5）模块化 6）随时停止和启动任务 7）可以查看日志记录8）与O...

2019-02-01 16:22:35 410

原创 sqoop数据迁移入门

Sqoop概述1）官网 http://sqoop.apache.org2）场景传统型缺点，分布式存储。把传统型数据库数据迁移 Apache Sqoop是一种用于在Apache Hadoop和结构化数据存储（如关系数据库）之间高效传输批量数据的工具 Sqoop安装部署1）下载安装包 2）解压tar -xzvf .tar3）修改配置 vi sqoop-env....

2019-02-01 16:21:32 260

原创 Flume入门

1）flume概述Flume是一种分布式，可靠且可用的服务，用于有效的收集，聚合和移动大量日志数据，它具有基于流数据的简单灵活的架构，它具有可靠的可靠性机制和许多故障转移和恢复机制，具有强大的容错能力，它使用简单的可扩展数据模型，允许在线分析应用程序。2）为什么需要flume数据从哪里来？-》爬虫-》日志数据-》传统型数据库 sqoop(数据迁移）3）flume架构source...

2019-02-01 16:20:36 126

会飞的鱼