大数据
方兵兵
大数据开发工程师
展开
-
hdfs常用api
1)hdfs 的客户端1.网页形式->测试用http://192.168.252.121:500702.命令行形式->测试用3.企业形式2)查看帮助hdfs dfs -help3)查看当前目录信息hdfs dfs -ls /4)上传文件hdfs dfs -put /本地路径/本地路径5)剪切文件hdfs dfs -moveFromLocal a.txt /aa....原创 2019-01-02 02:01:00 · 475 阅读 · 0 评论 -
idea new 新文件没有scala菜单解决方法
在idea中新建scala工程,需要先安装scala插件。1)File->setting->Plugins,然后搜索scala插件 安装。安装完成后重启idea2)设置scala sdkFile->Project Structure->Libraries->+3)新建scala工程现在就可以新建scala类了...原创 2019-02-15 20:48:14 · 6799 阅读 · 1 评论 -
idea中spark处理数据存储到mysql
1)首先idea中新建maven工程SparkWC在pom.xml中导入配置<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance...原创 2019-02-21 18:31:21 · 1724 阅读 · 0 评论 -
spark中jdbcRDD操作mysql的用法
spark中提供了jdbcRDD连接mysql数据库操作import java.sql.DriverManagerimport org.apache.spark.rdd.JdbcRDDimport org.apache.spark.{SparkConf, SparkContext}object JdbcRDDDemo { def main(args: Array[String]): ...原创 2019-02-21 22:01:37 · 1170 阅读 · 0 评论 -
搭建hadoop集群
1)关闭防火墙(进行远程连接)systemctl stop firewalld.servicesystemctl -disable firewalld.service2)永久修改设置主机名vi /etc/hostname3)配置映射文件vi /etc/hostsip 主机名4)配置jdk5)配置免密登录6)配置core-site.xml7)配置hadoop-env.xml...原创 2019-01-02 00:46:35 · 133 阅读 · 0 评论 -
spark中cache和checkpoint使用
1)cachecache是为了追求计算的速度spark中计算任务在内存中,但是结果是存储在磁盘中的,所以首次运行会慢,之后会拿磁盘中的计算结果,所以后面会快很多通过对结果的RDD分布式数据集进行cache,将计算结果缓存在内存中,这样会比缓存在磁盘中更快的读取。比如计算log文件的行数scala&gt; val rdd1 = sc.textFile("hdfs://192.168.252...原创 2019-02-22 11:50:17 · 846 阅读 · 0 评论 -
spark中使用Ordered自定义排序规则-封装类
scala中用于排序的有两个特质 Ordered和Ordering,Ordered继承了java中的Comparable接口,Ordering继承了java的Comparator接口trait Ordered[A] extends scala.Any with java.lang.Comparable[A]trait Ordering[T] extends java.lang.Object w...原创 2019-02-22 15:19:47 · 826 阅读 · 0 评论 -
spark中使用Ordered自定义排序规则-模式匹配
定义一个数组val girl: Array[String] = Array(“reba,18,80”,“mimi,22,70”,“liya,30,80”,“jingtian,18,85”)按照年龄和体重进行排序年龄小的排前面,如果年龄相同,体重大的排前面,有两个排序条件定义样例类实现排序方式当一个类被定义成为case类后,Scala会自动帮你创建一个伴生对象实例化不需要new关键字c...原创 2019-02-22 16:11:12 · 705 阅读 · 0 评论 -
1、电信客服项目之数据采集
学完大数据的基本组件后需要用项目实践下,电信客服项目是对用户通话记录的数据分析。数据内容包括呼叫方手机号,呼叫方姓名,接收方手机号,接收方姓名,通话建立时间,通话时间1、模拟通话记录数据,用java程序生产数据package producer;import java.io.FileNotFoundException;import java.io.FileOutputStream;impo...原创 2019-02-27 18:17:01 · 1129 阅读 · 0 评论 -
kafka-Api消费数据
在IDEA中通过api获取kafka消费的数据1、创建KafkaConsumerpackage kafka;import org.apache.kafka.clients.consumer.ConsumerRecord;import org.apache.kafka.clients.consumer.ConsumerRecords;import org.apache.kafka.clie...原创 2019-02-27 23:49:57 · 820 阅读 · 0 评论 -
sparksql实现单词计数
1、创建SparkSessionval sparkSession = SparkSession.builder() .appName("SparkWordCount") .master("local[2]") .getOrCreate()2、加载数据,使用dataset处理数据集read来读取可以直接返回DataSet[String],这是个比RDD更高级的数据集它返回一个列名为...原创 2019-02-24 16:06:11 · 1216 阅读 · 0 评论 -
Idea中pom.xml在project标签处报错:Failed to read artifact descriptor for xxx:jar
如题,出现这样的问题,一般是jar包下载出错。解决方法是删除该jar包。手动下载一下,然后重新导入一下jar包即可。解决方案:根据报错提示到 C:\Users\Administrator.m2\repository\ 下找到下载出错的jar包。比如我这里是spark-core_2.11-2.2.0.jarC:\Users\Administrator.m2\repository\org\a...原创 2019-02-19 14:23:01 · 16041 阅读 · 4 评论 -
spark mysql作为数据源读取数据操作
1、sparkSQL操作需要创建SparkSession,sparkRDD操作需要创建SparkContext。这里使用sparkSessionval sparkSession:SparkSession = SparkSession.builder().appName("JdbcSource").master("local[2]").getOrCreate()2、加载数据源url:...原创 2019-02-24 22:58:28 · 999 阅读 · 0 评论 -
spark json,csv作为数据源操作
1、sparkSQL操作需要创建SparkSessionval sparkSession:SparkSession = SparkSession.builder().appName("JdbcSource").master("local[2]").getOrCreate()2、读取json,csv数据源val jread:DataFrame = sparkSession.read.j...原创 2019-02-24 23:43:30 · 435 阅读 · 0 评论 -
spark Streaming实时处理流式数据
1、创建SparkContextval conf:SparkConf = new SparkConf().setAppName("streamwc").setMaster("local[2]")val sc:SparkContext = new SparkContext(conf)2、创建StreamingContextval ssc:StreamingContext = new St...原创 2019-02-25 15:39:38 · 1289 阅读 · 0 评论 -
IDEA创建Maven工程配置settings.xml
1、在https://maven.apache.org/网站下载apache maven下载完成后解压到任意目录,配置系统环境变量M2_HOME:C:\apache-maven-3.6.0-bin\apache-maven-3.6.0Path:%M2_HOME%\bin打开命令行输入 mvn -version测试是否配置成功打开IDEAFile->Settings->Ma...原创 2019-02-26 22:23:13 · 18517 阅读 · 0 评论 -
配置服务器集群时间同步
配置NTP服务(所有节点)集群中所有主机必须保持时间同步,如果时间相差较大会引起各种问题,例如主机运行状态不良等。 具体思路如下:master节点作为ntp服务器与外界对时中心同步时间,随后对所有datanode节点提供时间同步服务。所有datanode节点以master节点为基础同步时间。所有节点安装相关组件:yum install ntp。完成后,配置开机启动:chkconfig nt...原创 2019-04-09 14:32:28 · 704 阅读 · 0 评论 -
win7修改VMware Network Adapter VMnet8为静态ip地址
win7上面用虚拟机学习大数据,有时候本地VMware虚拟网卡的ip会突然被重新分配。导致SecureCRT连接到虚拟服务器失败。突然就遇到了,这里被重新配置了IPv4地址,导致原来SecureCRT的session连接失败了。所以要给这个虚拟网卡配一个静态ip。右键电脑底部网络图标,打开网络与共享中心-》更改适配器设置找到这个虚拟网卡。右键这个虚拟网卡-》选择属性打开DNS服务器...原创 2019-02-02 16:02:21 · 5552 阅读 · 5 评论 -
安装zookeeper集群
hadoop生态圈的管理员Apache Zookeeper 致力于开发和维护开源服务器,实现高度可靠的分布式协调。2)什么是ZooKeeper?Zookeeper是一种集中式的服务,用于维护配置信息,命名,提供分布式同步和提供组服务。所有这些类型的服务都以分布式应用程序的某种形式使用。每次实施它们都需要做很多工作来修复不可避免的错误和竞争条件。由于难以实现这些类型的服务,应用程序最初通常会吝...原创 2019-01-16 22:45:57 · 124 阅读 · 0 评论 -
yarn集群的搭建
大数据中除了hadoop集群外,还有个yarn集群,这个集群用来处理各种计算任务需要分配的cup和内存。1)首先配置yarn-site.xml文件<configuration><!-- Site specific YARN configuration properties --> <property> &l...原创 2019-01-06 16:40:55 · 532 阅读 · 0 评论 -
MapReduce框架统计单词次数
在eclipse中新建java工程mapreduce1)导入包如下hadoop-2.8.5\share\hadoop\hdfs\hadoop-hdfs-2.8.5.jarhadoop-2.8.5\share\hadoop\hdfs\lib\\*hadoop-2.8.5\share\hadoop\common\hadoop-common-2.8.5.jarhadoop-2.8.5\shar...原创 2019-01-06 19:08:57 · 546 阅读 · 1 评论 -
MapReduce编程规范
用户编写MapReduce程序主要分为三个部分:Mapper,Reducer,Driver1.Mapper阶段1)用户自定义mapper类要继承父类Mapper2)Mapper的输入数据的kv对形式(kv类型可以自定义)3)Mapper的map方法的重写(加入业务逻辑)4)Mapper的数据的出kv对的形式(kv类型可以自定义)5)map方法(maptask进程)对每个<k,v&...原创 2019-01-06 20:18:31 · 362 阅读 · 0 评论 -
hadoop数据类型及序列化
JAVA类型 HADOOP类型int IntWritablefloat FloatWritablelong LongWritabledouble DoubleWritablestring Textboolean BooleanWritablebyt...原创 2019-01-06 21:11:27 · 321 阅读 · 1 评论 -
MapReduce任务提交到yarn集群中执行
将本地在eclipse执行的任务要提交到服务器hadoop集群中执行需要修改将任务驱动类第6步,输入的路径和输出的路径由本地改成hdfs文件系统目录public class WordCoutDriver { public static void main(String[] args) throws IOException, ClassNotFoundException, Interru...原创 2019-01-07 00:24:09 · 2956 阅读 · 1 评论 -
window本地用eclipse调用api操作hadoop集群
1、下载ecplice安装2、选择hadoop2.8.5下载到window本地3、在eclipse中新建java工程4、添加hadoop中的jar包到java工程右键工程->Build Path->Add Libraries->User Library依赖jar包都在hadoop2.8.5文件夹中的share目录中,选择其中的share/hadoop/com...原创 2019-01-03 01:22:22 · 508 阅读 · 0 评论 -
mapreduce之mapjoin
mapjoin指的是在mapreduce的map阶段先加载一个文件缓存到内存当中,这个文件可能是从磁盘读取的或网络请求的都可以。map(key,value,context)方法中读取的数据key和value,这两个数据和先前缓存到内存中的数据一起做处理后再context.write()到reduce阶段。mapjoin相当于在map阶段写数据到reduce阶段前对数据做了处理。比如有两个tx...原创 2019-01-13 17:02:08 · 1406 阅读 · 2 评论 -
mapreduce之reducejoin
有两个文件pd.txt01 mac02 huawei03 xiaomi第一列是订单id,第二列是商品名称order.txt201801 01 1201802 02 2201803 03 3201804 01 4201805 02 5201806 03 6第一列是时间戳,第二列是订单id,第三列是数量这两个文件都在一个文件中需要处理后输出结果是订单id 商品名称 数量...原创 2019-01-13 17:49:29 · 263 阅读 · 0 评论 -
hive安装
Hive安装1)下载安装包 2)上传安装包 3)解压 4)修改配置文件 hive-env.shHADOOP_HOME=/root/hd/hadoop-2.8.5 export HIVE_CONF_DIR=/root/hd/hive/conf5)启动hive前启动hadoop集群 start-dfs.sh start-yarn.sh start-all.sh 启动...原创 2019-01-23 23:13:18 · 108 阅读 · 0 评论 -
hive基本操作
1)hive概述Apache Hive数据仓库软件有助于使用SQL读取,编写和管理驻留在分布式存储中的大型数据集,可以将结构投影到已存储的数据中,提供了命令行工具和JDBC驱动程序以将用户连接到Hive。数据计算:mapreduce分布式计算->难度大hive->SQL语句mysql简化开发减少学习成本2)优缺点优点: (1)操作接口采用了sql,简化开发,减少学习...原创 2019-01-23 23:16:04 · 220 阅读 · 0 评论 -
Flume入门
1)flume概述Flume是一种分布式,可靠且可用的服务,用于有效的收集,聚合和移动大量日志数据,它具有基于流数据的简单灵活的架构,它具有可靠的可靠性机制和许多故障转移和恢复机制,具有强大的容错能力,它使用简单的可扩展数据模型,允许在线分析应用程序。2)为什么需要flume数据从哪里来?-》爬虫-》日志数据-》传统型数据库 sqoop(数据迁移)3)flume架构source...原创 2019-02-01 16:20:36 · 126 阅读 · 0 评论 -
sqoop数据迁移入门
Sqoop概述1)官网 http://sqoop.apache.org2)场景 传统型缺点,分布式存储。把传统型数据库数据迁移 Apache Sqoop是一种用于在Apache Hadoop和结构化数据存储(如关系数据库)之间高效传输批量数据的工具 Sqoop安装部署1)下载安装包 2)解压tar -xzvf .tar3)修改配置 vi sqoop-env....原创 2019-02-01 16:21:32 · 260 阅读 · 0 评论 -
Azkaban工作流管理入门
Azkaban概述Azkaban是一个分布式工作流管理器,在LinkedIn上实现,以解决Hadoop作业依赖性问题,我们有需要按顺序运行的工作,从ETL工作到数据分析产品。特点:1)给用户提供了一个非常友好的可视化界面 2)非常方便的上传工作流 -》打成压缩包jar包3)设置任务间的关系4)权限设置 5)模块化 6)随时停止和启动任务 7)可以查看日志记录8)与O...原创 2019-02-01 16:22:35 · 410 阅读 · 0 评论 -
Hbase数据库入门
Hbase概述Apache Hbase是hadoop数据库,是一个分布式,可扩展的大数据存储。当您需要对大数据进行随机,实时读/写访问时,请使用Apache HBase。该项目的目标是托管非常大的表-数十亿行x百万列-在商品硬件集群上。Apache HBase是一个开源的,分布式的,版本化的非关系数据库,模仿Google的Bigtable;Chang等人的结构化数据分布式存储系统。正如Bigt...原创 2019-02-01 16:23:32 · 245 阅读 · 0 评论 -
hbase通过idea操作api
1)安装Intellij idea这款开发工具收费,要注册http://idea.lanyus.com/这里找注册码安装完成后输入注册码,然后需要在本地hosts文件修改C:\Windows\System32\drivers\etc\hosts加上这个0.0.0.0 account.jetbrains.com2)Intellij idea新建Maven工程在pom.xml中添加h...原创 2019-02-01 16:29:59 · 7183 阅读 · 1 评论 -
hbase相关需求
需求1:对hbase中一张表yangme的rowkey进行计数1)导入环境变量export HBASE_HOME=/root/hd/hbase-1.3.0export HADOOP_HOME=/root/hd/hadoop-2.8.5export HADOOP_CLASSPATH=${HBASE_HOME}/bin/hbase mapredcp2)启动hbase-mr任务hadoop里...原创 2019-02-01 19:00:21 · 308 阅读 · 0 评论 -
ERROR StatusLogger No log4j2 configuration file found.
idea报日志错误ERROR StatusLogger No log4j2 configuration file found. Using default configuration: logging only errors to the console.pom.xml中加上配置 <dependency> <groupId>org.apache.loggi...原创 2019-06-11 19:16:25 · 11790 阅读 · 0 评论