- 博客(66)
- 资源 (1)
- 收藏
- 关注
转载 java.lang.NoClassDefFoundError: net/jpountz/util/SafeUtils
https://mvnrepository.com/artifact/net.jpountz.lz4/lz4/1.3.0,这是因为缺少包,直接在pom.xml中<!-- https://mvnrepository.com/artifact/net.jpountz.lz4/lz4 --><dependency> <groupId>net.jp...
2019-01-29 19:53:56 1269
转载 MapReduce论文中文版--The Google File System
摘要MapReduce是一个编程模型,也是一个处理和生成超大数据集的算法模型的相关实现。用户首先创建一个Map函数处理一个基于 key/value pair的数据集合,输出中间的基于key/value pair的数据集合;然后再创建一个Reduce函数用来合并所有的具有相同中间key值的中间value值。现实世界中有很多满足上述处理模型的例子, 本论文将详细描述这个模型。MapReduce...
2019-01-23 11:23:32 1391 1
转载 大数据性能测试工具Dew --转载自李智慧
网址:https://github.com/zhihuili/Dew #Dew# Big Data Cloud Management Plateform##Quick Start#####Start dew cluster### Build -- mvn clean install -Dhadoop-version=your_deployed_hadoop_version -...
2019-01-21 13:16:02 1152
转载 No suitable driver found for jdbc:mysql//localhost:3306/train?user=hive
出现这样的情况,一般有四种原因: 一:连接URL格式出现了问题(Connection conn=DriverManager.getConnection("jdbc:mysql://localhost:3306/XX","root","XXXX") 二:驱动字符串出错(com.mysql.jdbc.Driver) 最好用maven<dependency> <...
2019-01-16 12:52:42 2255
原创 mac环境下使用mysql插入中文都是??的问题,
ERROR 1366 (HY000): Incorrect string value: '\xE4\xB8\x8A\xE6\xB5\xB7' for column 'city' at row 1 在使用mac电脑中Mysql数据库的过程中,遇到一个问题,向一个数据表中插入数据时,由于其中一个字段的值是中文,数据库报错,无法插入。 mysql> insert into day_vid...
2019-01-11 18:07:44 468
原创 python数据分析-matplotlib核心包
###########matplotlibimport matplotlib.pyplot as pltplt.plot([1,2,3,4,5],[2,4,6,1,3],"o",label='LineA') ##折线图,o为点,o-为点加线plt.plot([5,4,3,2,1],[2,4,6,1,3],color='red',marker='v',label='LineB') plt...
2019-01-09 17:19:56 275
原创 python数据分析-pandas核心包
###series介绍#一种类似于以为数组的对象,由一组数据和一组与之相关的数据标签(索引)组成。import pandas as pdpd.Series([2,3,4,5])sr = pd.Series([2,3,4,5],index=['a','b','c','d'])pd.Series(np.arange(5))sr[0] #索引和标签都可以作为索引sr+2s...
2019-01-09 17:18:17 274
原创 python数据分析-numpy核心包
######创建arrayimport numpy as npnp.array([1,2,3])np.array([0]*10)a = np.zeros(10)a.dtypea = np.zeros(10,dtype = 'int')a = np.ones(10)a = np.empty(100)a#包前不包后np.arange(2,10,3)np.ara...
2019-01-09 17:17:13 201
原创 Scala并发编程模型AKKA
Spark使用底层通信框架 分布式 master/worker Hadoop使用的是RPC 1、akka简介 写并发程序很难,AKKA解决Spark这个问题。 akka构建在JVM平台上,是一种高并发,分布式,容错的应用工具包。 akka用scala语言编写同时提供了scala和ja...
2019-01-07 21:43:04 184
原创 Scala类型约束
Java 中Comparable Scala中的比较的特质: Ordered 上界(upper Bounds) java中: <T extends Person> 表示T类型是Person的子类型 <? extends Person> scala ...
2019-01-07 21:42:17 230
转载 idea 创建maven后无法创建scala
一:没有添加scala sdk解决:file=>project structure =>Global Libraries,添加scala-sdk:没有scala sdk的可以去网上下载。二:maven配置问题file=>settings=>Build,Excution=>Build Tools=>Maven 然后 去掉选中Execute go...
2019-01-07 15:57:41 613
原创 Scala(隐式转换)-第七天
1、隐式转换概述 需求:为一个已存在的类添加一个新的方法 java:动态代理 scala:隐式转换2、隐式转换实战 main{ //定义隐式转换函数即可 implicit def man2superman(man:Man):Superman = new Superman(man) val man =...
2019-01-02 13:08:17 122
原创 Scala(函数高级操作)-第六天
1、字符串高级操作 多行 val b = """ |这是一个多行字符串 |hello |world """.stripMargin Interpolation(插值) val name = "Messi" pri...
2019-01-02 13:06:47 233
原创 Scala(模式匹配)-第五天
1、基本数据类型模式匹配 java:对一个值进行条件判断,返回针对不同的条件进行不同的处理 switch case scala: 变量 match { case value1 => 代码1 case value2 => 代码2 ..... case - =&g...
2019-01-02 13:05:08 165
原创 scala(集合)-第四天
1、数组 定长数组 val a = new Array[String](5) //长度为五 a.length //5 a(1)="hello" //赋值 val b = Array("hadoop","spark") //底层调用的apply,在apply中调用new Array[]() ...
2019-01-01 13:07:21 127
原创 scala(对象)-第三天
1、面向对象概述 java: 封装:属性、方法封装到类中 User:int id,String name,Date birthday 继承: 多态:2、类的定义与使用 def main(args:Array[String]):Unit={ val person = new People()...
2019-01-01 13:06:02 129
原创 scala(函数)-第二天
1、方法的定义和使用 def max[函数名](x[参数]:Int[类型],y[参数]:Int[类型]):Int[函数返回值类型]={ if(x>y) x else y //大括号内的叫做方法体 //方法体内的最后一行为返回值,不需要使用return } ...
2019-01-01 13:03:50 135
原创 scala-第一天
1、val vs var val: 值 (不可变,final) val 值名称:数据类型=值 var: 变量 (可变) var 值名称:数据类型=值 Scala编译器会自动的推断类型 Unit:() 表示什么都没有,空2、lazy在Scala中的应用 scala> val i =1 i: Int ...
2019-01-01 13:02:39 126
原创 storm概述、集群安装和简单的命令行操作
http://storm.apache.orgApache Storm是一个免费的开源分布式实时计算系统。Storm可以轻松可靠地处理无限数据流,实现Hadoop对批处理所做的实时处理。Storm非常简单,可以与任何编程语言一起使用,并且使用起 来很有趣!Storm有许多用例:实时分析,在线机器学习,连续计算,分布式RPC,ETL等。风暴很快:一个基准测试表示每个节点每秒处理超过一百万个元...
2018-12-23 12:40:33 189
原创 数据库-事务-乐观锁-调优
关系型数据库基于关系代数理论缺点:表结构不直观,实现复杂,速度慢优点:健壮性高,社区庞大示例: product表 productId productName categoryId price 1 4 toyota 2 100000 2 ...
2018-12-18 20:46:03 261
原创 java程序设计语言基础,扼要复习
归类 类型检查 编译时:C,C++,Java,Go 运行时:python,Perl,JavaScript,Ruby 运行/编译 编译为机器代码运行:C,C++ 编译为中间代码,在虚拟机上运行,java,C# 解释执行:Python,Per...
2018-12-18 20:41:57 129
原创 kafka的拦截器API
拦截器 public class TimeInterceptor implements ProducerInterceptor<String, String>{ //设置信息 public void configure(Map<String, ?> configs) { } //业务逻辑 public ProducerRecord<Stri...
2018-12-18 12:03:46 141
原创 kafka的consumer
consumer psvm{ //1.配置生产者属性(指定多个参数) Properties prop = new Properties(); //配置属性 //服务器地址指定 prop.put("bootstrap.server","bigdata:9092"); //配置消费者组 prop.put("group.id","g1"); //配置是否自动确认偏移...
2018-12-18 12:03:01 248
原创 kafka自定义partition
自定义分区设置 class Partition implements Partitioner{ //设置 public void configure(Map<String, ?> configs) { } //分区逻辑 public int partition(String topic, Object key, byte[] keyBytes, Object...
2018-12-18 12:02:04 535
原创 kafka的生产者API
kafkaAPI producer { //配置生产者属性(指定多个参数) Properties prop = new Properties(); //参数配置 //kafka节点的地址 prop.put("bootstrap.servers","bigdata:9092"); //发送消息是否等待应答 prop.put("acks","all"); //配...
2018-12-18 12:00:54 179
原创 kafka shell 命令行操作
kafka的命令行操作 1、产看当前集群中已存在的主题topic bin/kafka-topics.sh --list --zookeeper bigdata:2181 2、创建主题topic bin/kafka-topics.sh --create --zookeeper bigdata:2181 --replication-factor 1 -...
2018-12-18 11:59:28 403
原创 kafka概述与安装
Kafka概述 hadoop -> 离线计算(hdfs/mapreduce) yarn zookeeper -> 分布式协调(动物管理员) hive -> 数据仓库(离线计算/sql)easy coding flume -> 数据采集 sqoop -> 数据迁移 mysql -> hdfs/hive hdfs/...
2018-12-18 11:58:40 145
原创 kafka-streams进行简单的数据清洗
package com.terry.kafkastream; import org.apache.kafka.streams.KafkaStreams; import org.apache.kafka.streams.StreamsConfig; import org.apache.kafka.streams.Topology; import org.apache.kafka.stre...
2018-12-18 11:57:45 1220
原创 Java集合-Map(简单概述和案例)
Map Map和Collection存储数据的形式不同 Collection中的集合,元素时孤立存在的(理解为单身),想集合中存储元素采用一个个元素的方式存储。 Map中的集合,元素是成对存在的。每个元素由键和值两部分组成,通过键可以找所对应的值。 Collection中的集合称为单列集合,Map中的集合称为双列集合。 需要注...
2018-12-17 13:02:15 325
原创 Java集合-List,Set (简单概述和案例)
List 有序的collection。此接口的用户啊可以对列表中每个元素的插入位置进行精确的控制。用户可以根据元素的整数索引访问元素,并搜索列表中的元素。允许重复元素。 接口特点:有序,索引,可以重复元素 实现类,ArrayList,LinkedList List接口中的抽象方法,有一部分方法和他的父接口Collection是一样 List接口的自...
2018-12-16 21:55:57 412
原创 Hbase优化方案
1、预分区 真正存储数据的是region要维护一个区间段段rowkey startRow-endRowkey 1)手动设置与分区 create 'user_p', 'info', 'partition', SPLITS => ['101', '102', '103', '104'] 存在-∞和+∞,所以会存在5个区间 ...
2018-12-16 15:05:41 302
原创 hbase 读写数据流程----文字简介
hbase读取数据流程0、client发出请求1、访问zk2、zookeeper返回-ROOT-表所在的信息,返回的是位置信息-ROOT-表中存储了.META表的元数据信息.META表存储了Region的元数据-ROOT-:只对应一个region,不能切分,通过-ROOT-表可以读取到.META表中的元数据信息.META:可以存储在多个region中,访问的是存储业务数据的元数据信息...
2018-12-16 15:04:06 268 1
原创 hbase shell 命令-增删改查
hbase基础命令bin/hbase shelllist 看表1、查看服务器状态 status 'bigdata'2、查看当前有哪些表 list3、查看帮助 helphbase表操作1、创建表 create '表名', '列族'2、全表扫描 scan '表名' rowkey:行键:唯一 不重复 timestamp:时间戳 cell:单元格 数据存放位置...
2018-12-16 15:03:12 532
原创 Hbase简单介绍与安装
需要对大数据进行随机,实时读写访问时,请使用Apache Hbase。该项目的目标是托管非常大的表。开源的,分布式的,版本化的非关系数据库,模仿google的Bigtable.Just as Bigtable leverages the distributed data storage provided by the Google File System,Apache HBase pr...
2018-12-16 15:01:53 169
原创 sqoop安装与快速使用-----你想要的sqoop都在这里
场景传统型缺点,分布式存储。把传统型数据库数据迁移。Sqoop安装部署1)下载安装包2)解压tar -zxvf .tar3)修改配置vi sqoop-env.shexport HADOOP_COMMON_HOME=/root/hd/hadoop-2.8.4export HADOOP_MAPRED_HOME=/root/hd/hadoop-2.8.4export HIVE_HOM...
2018-12-16 11:40:13 249
原创 Flume介绍、框架、安装、及案例1、2、3
概述日志采集工具----可靠性机制、故障转移和恢复机制,容错能力。可扩展数据模型,允许在线分析应用程序。为什么需要flume?数据从哪里来?-》爬虫-》日志数据 flume—》传统型数据库 sqoopflume架构source:数据源产生数据流,同时source将产生的数据流传输到channelchannel:传输通道用于桥接source和sinkssinks:槽从cha...
2018-12-15 14:17:05 152
原创 Hive优化
-》压缩 (1)开启Map阶段输出压缩 开启输出压缩功能: set hive.exec.compress.intermediate=true; 开启map输出压缩功能: set mapreduce.map.output.compress=true; 设置压缩方式: set mapreduce.map.output.compress.codec=org.apache....
2018-12-15 14:14:53 181 2
原创 Hive高级查询
1)配置查询头信息 在hive-site.xmlhive.cli.print.headertrue</propertyhive.cli.print.current.dbtrue2)基本查询-》全表查询select * from empt;-》查询指定列select empt.empno,empt.empname from empt; -》列别名select e...
2018-12-15 14:14:28 240
原创 Hive的DDL数据定义和DML数据操作
Hive数据类型 Java数据类型 Hive数据类型 长度byte TINYINT 1byteshort SMALINT 2byteint INT 4bytelong BIGINT 8bytefloat FLOAT 单精度浮点数double DOUBLE 双精度浮点数string STRING 字符TIMESTAMP 时间类型BI...
2018-12-15 14:13:42 282
原创 Hive安装与配置
配置hive元数据到mysql1)驱动拷贝拷贝mysqlconnectorjava5.1.27bin.jar到/root/hd/hive/lib/下2)配置Metastore到MySql-》在/root/hd/hive/conf目录下创建一个hive-site.xml-》根据官方文档配置参数,拷贝数据到hive-site.xml文件中(hive/conf/下创建文件)<?...
2018-12-15 14:12:40 133
spark快速大数据分析
2018-12-02
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人