领悟大数据-CSDN博客

转载 java.lang.NoClassDefFoundError: net/jpountz/util/SafeUtils

https://mvnrepository.com/artifact/net.jpountz.lz4/lz4/1.3.0，这是因为缺少包，直接在pom.xml中<dependency> <groupId>net.jp...

2019-01-29 19:53:56 1183

转载 MapReduce论文中文版--The Google File System

摘要MapReduce是一个编程模型，也是一个处理和生成超大数据集的算法模型的相关实现。用户首先创建一个Map函数处理一个基于 key/value pair的数据集合，输出中间的基于key/value pair的数据集合；然后再创建一个Reduce函数用来合并所有的具有相同中间key值的中间value值。现实世界中有很多满足上述处理模型的例子，本论文将详细描述这个模型。MapReduce...

2019-01-23 11:23:32 1316 1

转载大数据性能测试工具Dew --转载自李智慧

网址：https://github.com/zhihuili/Dew #Dew# Big Data Cloud Management Plateform##Quick Start#####Start dew cluster### Build -- mvn clean install -Dhadoop-version=your_deployed_hadoop_version -...

2019-01-21 13:16:02 1087

转载 No suitable driver found for jdbc:mysql//localhost:3306/train?user=hive

出现这样的情况，一般有四种原因：一：连接URL格式出现了问题(Connection conn=DriverManager.getConnection("jdbc:mysql://localhost:3306/XX","root","XXXX") 二：驱动字符串出错(com.mysql.jdbc.Driver) 最好用maven<dependency> <...

2019-01-16 12:52:42 2127

原创 mac环境下使用mysql插入中文都是？？的问题，

ERROR 1366 (HY000): Incorrect string value: '\xE4\xB8\x8A\xE6\xB5\xB7' for column 'city' at row 1 在使用mac电脑中Mysql数据库的过程中，遇到一个问题，向一个数据表中插入数据时，由于其中一个字段的值是中文，数据库报错，无法插入。 mysql> insert into day_vid...

2019-01-11 18:07:44 418

原创 python数据分析-matplotlib核心包

###########matplotlibimport matplotlib.pyplot as pltplt.plot([1,2,3,4,5],[2,4,6,1,3],"o",label='LineA') ##折线图,o为点，o-为点加线plt.plot([5,4,3,2,1],[2,4,6,1,3],color='red',marker='v',label='LineB') plt...

2019-01-09 17:19:56 256

原创 python数据分析-pandas核心包

###series介绍#一种类似于以为数组的对象，由一组数据和一组与之相关的数据标签（索引）组成。import pandas as pdpd.Series([2,3,4,5])sr = pd.Series([2,3,4,5],index=['a','b','c','d'])pd.Series(np.arange(5))sr[0] #索引和标签都可以作为索引sr+2s...

2019-01-09 17:18:17 246

原创 python数据分析-numpy核心包

######创建arrayimport numpy as npnp.array([1,2,3])np.array([0]*10)a = np.zeros(10)a.dtypea = np.zeros(10,dtype = 'int')a = np.ones(10)a = np.empty(100)a#包前不包后np.arange(2,10,3)np.ara...

2019-01-09 17:17:13 174

原创 Scala并发编程模型AKKA

Spark使用底层通信框架分布式 master/worker Hadoop使用的是RPC 1、akka简介写并发程序很难，AKKA解决Spark这个问题。 akka构建在JVM平台上，是一种高并发，分布式，容错的应用工具包。 akka用scala语言编写同时提供了scala和ja...

2019-01-07 21:43:04 153

原创 Scala类型约束

Java 中Comparable Scala中的比较的特质： Ordered 上界（upper Bounds) java中： <T extends Person> 表示T类型是Person的子类型 <? extends Person> scala ...

2019-01-07 21:42:17 204

转载 idea 创建maven后无法创建scala

一：没有添加scala sdk解决：file=>project structure =>Global Libraries,添加scala-sdk:没有scala sdk的可以去网上下载。二：maven配置问题file=>settings=>Build,Excution=>Build Tools=>Maven 然后去掉选中Execute go...

2019-01-07 15:57:41 557

原创 Scala(隐式转换)-第七天

1、隐式转换概述需求：为一个已存在的类添加一个新的方法 java:动态代理 scala:隐式转换2、隐式转换实战 main{ //定义隐式转换函数即可 implicit def man2superman(man:Man):Superman = new Superman(man) val man =...

2019-01-02 13:08:17 103

原创 Scala(函数高级操作)-第六天

1、字符串高级操作多行 val b = """ |这是一个多行字符串 |hello |world """.stripMargin Interpolation(插值) val name = "Messi" pri...

2019-01-02 13:06:47 184

原创 Scala(模式匹配)-第五天

1、基本数据类型模式匹配 java:对一个值进行条件判断，返回针对不同的条件进行不同的处理 switch case scala：变量 match { case value1 => 代码1 case value2 => 代码2 ..... case - =&g...

2019-01-02 13:05:08 134

原创 scala(集合)-第四天

1、数组定长数组 val a = new Array[String](5) //长度为五 a.length //5 a(1)="hello" //赋值 val b = Array("hadoop","spark") //底层调用的apply，在apply中调用new Array[]() ...

2019-01-01 13:07:21 109

原创 scala(对象)-第三天

1、面向对象概述 java: 封装：属性、方法封装到类中 User:int id,String name,Date birthday 继承：多态：2、类的定义与使用 def main(args:Array[String]):Unit={ val person = new People()...

2019-01-01 13:06:02 107

原创 scala(函数)-第二天

1、方法的定义和使用 def max[函数名](x[参数]:Int[类型],y[参数]:Int[类型]):Int[函数返回值类型]={ if(x>y) x else y //大括号内的叫做方法体 //方法体内的最后一行为返回值，不需要使用return } ...

2019-01-01 13:03:50 103

原创 scala-第一天

1、val vs var val：值（不可变，final） val 值名称:数据类型=值 var：变量（可变） var 值名称:数据类型=值 Scala编译器会自动的推断类型 Unit:() 表示什么都没有,空2、lazy在Scala中的应用 scala> val i =1 i: Int ...

2019-01-01 13:02:39 103

原创 storm概述、集群安装和简单的命令行操作

http://storm.apache.orgApache Storm是一个免费的开源分布式实时计算系统。Storm可以轻松可靠地处理无限数据流，实现Hadoop对批处理所做的实时处理。Storm非常简单，可以与任何编程语言一起使用，并且使用起来很有趣!Storm有许多用例:实时分析，在线机器学习，连续计算，分布式RPC，ETL等。风暴很快:一个基准测试表示每个节点每秒处理超过一百万个元...

2018-12-23 12:40:33 151

原创数据库-事务-乐观锁-调优

关系型数据库基于关系代数理论缺点：表结构不直观，实现复杂，速度慢优点：健壮性高，社区庞大示例： product表 productId productName categoryId price 1 4 toyota 2 100000 2 ...

2018-12-18 20:46:03 222

原创 java程序设计语言基础，扼要复习

归类类型检查编译时：C，C++，Java，Go 运行时：python，Perl，JavaScript，Ruby 运行/编译编译为机器代码运行：C，C++ 编译为中间代码，在虚拟机上运行，java，C# 解释执行：Python，Per...

2018-12-18 20:41:57 108

原创 kafka的拦截器API

拦截器 public class TimeInterceptor implements ProducerInterceptor<String, String>{ //设置信息 public void configure(Map<String, ?> configs) { } //业务逻辑 public ProducerRecord<Stri...

2018-12-18 12:03:46 111

原创 kafka的consumer

consumer psvm{ //1.配置生产者属性（指定多个参数） Properties prop = new Properties(); //配置属性 //服务器地址指定 prop.put("bootstrap.server","bigdata:9092"); //配置消费者组 prop.put("group.id","g1"); //配置是否自动确认偏移...

2018-12-18 12:03:01 200

原创 kafka自定义partition

自定义分区设置 class Partition implements Partitioner{ //设置 public void configure(Map<String, ?> configs) { } //分区逻辑 public int partition(String topic, Object key, byte[] keyBytes, Object...

2018-12-18 12:02:04 514

原创 kafka的生产者API

kafkaAPI producer { //配置生产者属性（指定多个参数） Properties prop = new Properties(); //参数配置 //kafka节点的地址 prop.put("bootstrap.servers","bigdata:9092"); //发送消息是否等待应答 prop.put("acks","all"); //配...

2018-12-18 12:00:54 136

原创 kafka shell 命令行操作

kafka的命令行操作 1、产看当前集群中已存在的主题topic bin/kafka-topics.sh --list --zookeeper bigdata:2181 2、创建主题topic bin/kafka-topics.sh --create --zookeeper bigdata:2181 --replication-factor 1 -...

2018-12-18 11:59:28 376

原创 kafka概述与安装

Kafka概述 hadoop -> 离线计算（hdfs/mapreduce) yarn zookeeper -> 分布式协调(动物管理员) hive -> 数据仓库(离线计算/sql)easy coding flume -> 数据采集 sqoop -> 数据迁移 mysql -> hdfs/hive hdfs/...

2018-12-18 11:58:40 129

原创 kafka-streams进行简单的数据清洗

package com.terry.kafkastream; import org.apache.kafka.streams.KafkaStreams; import org.apache.kafka.streams.StreamsConfig; import org.apache.kafka.streams.Topology; import org.apache.kafka.stre...

2018-12-18 11:57:45 1165

原创 Java集合-Map(简单概述和案例)

Map Map和Collection存储数据的形式不同 Collection中的集合，元素时孤立存在的（理解为单身），想集合中存储元素采用一个个元素的方式存储。 Map中的集合，元素是成对存在的。每个元素由键和值两部分组成，通过键可以找所对应的值。 Collection中的集合称为单列集合，Map中的集合称为双列集合。需要注...

2018-12-17 13:02:15 279

原创 Java集合-List,Set (简单概述和案例）

List 有序的collection。此接口的用户啊可以对列表中每个元素的插入位置进行精确的控制。用户可以根据元素的整数索引访问元素，并搜索列表中的元素。允许重复元素。接口特点：有序，索引，可以重复元素实现类，ArrayList，LinkedList List接口中的抽象方法，有一部分方法和他的父接口Collection是一样 List接口的自...

2018-12-16 21:55:57 344

原创 Hbase优化方案

1、预分区真正存储数据的是region要维护一个区间段段rowkey startRow-endRowkey 1）手动设置与分区 create 'user_p', 'info', 'partition', SPLITS => ['101', '102', '103', '104'] 存在-∞和+∞，所以会存在5个区间 ...

2018-12-16 15:05:41 263

原创 hbase 读写数据流程----文字简介

hbase读取数据流程0、client发出请求1、访问zk2、zookeeper返回-ROOT-表所在的信息，返回的是位置信息-ROOT-表中存储了.META表的元数据信息.META表存储了Region的元数据-ROOT-:只对应一个region，不能切分，通过-ROOT-表可以读取到.META表中的元数据信息.META:可以存储在多个region中，访问的是存储业务数据的元数据信息...

2018-12-16 15:04:06 228 1

原创 hbase shell 命令-增删改查

hbase基础命令bin/hbase shelllist 看表1、查看服务器状态 status 'bigdata'2、查看当前有哪些表 list3、查看帮助 helphbase表操作1、创建表 create '表名', '列族'2、全表扫描 scan '表名' rowkey:行键：唯一不重复 timestamp:时间戳 cell:单元格数据存放位置...

2018-12-16 15:03:12 480

原创 Hbase简单介绍与安装

需要对大数据进行随机，实时读写访问时，请使用Apache Hbase。该项目的目标是托管非常大的表。开源的，分布式的，版本化的非关系数据库，模仿google的Bigtable.Just as Bigtable leverages the distributed data storage provided by the Google File System,Apache HBase pr...

2018-12-16 15:01:53 156

原创 sqoop安装与快速使用-----你想要的sqoop都在这里

场景传统型缺点，分布式存储。把传统型数据库数据迁移。Sqoop安装部署1)下载安装包2)解压tar -zxvf .tar3)修改配置vi sqoop-env.shexport HADOOP_COMMON_HOME=/root/hd/hadoop-2.8.4export HADOOP_MAPRED_HOME=/root/hd/hadoop-2.8.4export HIVE_HOM...

2018-12-16 11:40:13 208

原创 Flume介绍、框架、安装、及案例1、2、3

概述日志采集工具----可靠性机制、故障转移和恢复机制，容错能力。可扩展数据模型，允许在线分析应用程序。为什么需要flume？数据从哪里来？-》爬虫-》日志数据 flume—》传统型数据库 sqoopflume架构source:数据源产生数据流，同时source将产生的数据流传输到channelchannel:传输通道用于桥接source和sinkssinks:槽从cha...

2018-12-15 14:17:05 137

原创 Hive优化

-》压缩 (1)开启Map阶段输出压缩开启输出压缩功能: set hive.exec.compress.intermediate=true; 开启map输出压缩功能: set mapreduce.map.output.compress=true; 设置压缩方式: set mapreduce.map.output.compress.codec=org.apache....

2018-12-15 14:14:53 139 2

原创 Hive高级查询

1)配置查询头信息在hive-site.xmlhive.cli.print.headertrue</propertyhive.cli.print.current.dbtrue2)基本查询-》全表查询select * from empt;-》查询指定列select empt.empno,empt.empname from empt; -》列别名select e...

2018-12-15 14:14:28 187

原创 Hive的DDL数据定义和DML数据操作

Hive数据类型 Java数据类型 Hive数据类型长度byte TINYINT 1byteshort SMALINT 2byteint INT 4bytelong BIGINT 8bytefloat FLOAT 单精度浮点数double DOUBLE 双精度浮点数string STRING 字符TIMESTAMP 时间类型BI...

2018-12-15 14:13:42 244

原创 Hive安装与配置

配置hive元数据到mysql1)驱动拷贝拷贝mysqlconnectorjava5.1.27bin.jar到/root/hd/hive/lib/下2)配置Metastore到MySql-》在/root/hd/hive/conf目录下创建一个hive-site.xml-》根据官方文档配置参数，拷贝数据到hive-site.xml文件中(hive/conf/下创建文件)<?...

2018-12-15 14:12:40 109

目录推荐序　　xi 译者序　　xiv 序　　xvi 前言　　xvii 第1章　Spark数据分析导论　　1 1.1　Spark是什么　　1 1.2　一个大一统的软件栈　　2 1.2.1　Spark Core　　2 1.2.2　Spark SQL　　3 1.2.3　Spark Streaming　　3 1.2.4　MLlib　　3 1.2.5　GraphX　　3 1.2.6　集群管理器　　4 1.3　Spark的用户和用途　　4 1.3.1　数据科学任务　　4 1.3.2　数据处理应用　　5 1.4　Spark简史　　5 1.5　Spark的版本和发布　　6 1.6　Spark的存储层次　　6 第2章　Spark下载与入门　　7 2.1　下载Spark　　7 2.2　Spark中Python和Scala的shell　　9 2.3　Spark 核心概念简介　　12 2.4　独立应用　　14 2.4.1　初始化SparkContext　　15 2.4.2　构建独立应用　　16 2.5　总结　　19 第3章　RDD编程　　21 3.1　RDD基础　　21 3.2　创建RDD　　23 3.3　RDD操作　　24 3.3.1　转化操作　　24 3.3.2　行动操作　　26 3.3.3　惰性求值　　27 3.4　向Spark传递函数　　27 3.4.1　Python　　27 3.4.2　Scala　　28 3.4.3　Java　　29 3.5　常见的转化操作和行动操作　　30 3.5.1　基本RDD　　30 3.5.2　在不同RDD类型间转换　　37 3.6　持久化( 缓存)　　39 3.7　总结　　40 第4章　键值对操作　　41 4.1　动机　　41 4.2　创建Pair RDD　　42 4.3　Pair RDD的转化操作　　42 4.3.1　聚合操作　　45 4.3.2　数据分组　　49 4.3.3　连接　　50 4.3.4　数据排序　　51 4.4　Pair RDD的行动操作　　52 4.5　数据分区（进阶）　　52 4.5.1　获取RDD的分区方式　　55 4.5.2　从分区中获益的操作　　56 4.5.3　影响分区方式的操作　　57 4.5.4　示例：PageRank　　57 4.5.5　自定义分区方式　　59 4.6　总结　　61 第5章　数据读取与保存　　63 5.1　动机　　63 5.2　文件格式　　64 5.2.1　文本文件　　64 5.2.2　JSON　　66 5.2.3　逗号分隔值与制表符分隔值　　68 5.2.4　SequenceFile　　71 5.2.5　对象文件　　73 5.2.6　Hadoop输入输出格式　　73 5.2.7　文件压缩　　77 5.3　文件系统　　78 5.3.1　本地/“常规”文件系统　　78 5.3.2　Amazon S3　　78 5.3.3　HDFS　　79 5.4　Spark SQL中的结构化数据　　79 5.4.1　Apache Hive　　80 5.4.2　JSON　　80 5.5　数据库　　81 5.5.1　Java数据库连接　　81 5.5.2　Cassandra　　82 5.5.3　HBase　　84 5.5.4　Elasticsearch　　85 5.6　总结　　86 第6章　Spark编程进阶　　87 6.1　简介　　87 6.2　累加器　　88 6.2.1　累加器与容错性　　90 6.2.2　自定义累加器　　91 6.3　广播变量　　91 6.4　基于分区进行操作　　94 6.5　与外部程序间的管道　　96 6.6　数值RDD 的操作　　99 6.7　总结　　100 第7章　在集群上运行Spark　　101 7.1　简介　　101 7.2　Spark运行时架构　　101 7.2.1　驱动器节点　　102 7.2.2　执行器节点　　103 7.2.3　集群管理器　　103 7.2.4　启动一个程序　　104 7.2.5　小结　　104 7.3　使用spark-submit 部署应用　　105 7.4　打代码与依赖　　107 7.4.1　使用Maven构建的用Java编写的Spark应用　　108 7.4.2　使用sbt构建的用Scala编写的Spark应用　　109 7.4.3　依赖冲突　　 111 7.5　Spark应用内与应用间调度　　111 7.6　集群管理器　　112 7.6.1　独立集群管理器　　112 7.6.2　Hadoop YARN　　115 7.6.3　Apache Mesos　　116 7.6.4　Amazon EC2　　117 7.7　选择合适的集群管理器　　120 7.8　总结　　121 第8章　Spark调优与调试　　123 8.1　使用SparkConf配置Spark　　123 8.2　Spark执行的组成部分：作业、任务和步骤　　127 8.3　查找信息　　131 8.3.1　Spark网页用户界面　　131 8.3.2　驱动器进程和执行器进程的日志　　134 8.4　关键性能考量　　135 8.4.1　并行度　　135 8.4.2　序列化格式　　136 8.4.3　内存管理　　137 8.4.4　硬件供给　　138 8.5　总结　　139 第9章　Spark SQL　　141 9.1　连接Spark SQL　　142 9.2　在应用中使用Spark SQL　　144 9.2.1　初始化Spark SQL　　144 9.2.2　基本查询示例　　145 9.2.3　SchemaRDD　　146 9.2.4　缓存　　148 9.3　读取和存储数据　　149 9.3.1　Apache Hive　　149 9.3.2　Parquet　　150 9.3.3　JSON　　150 9.3.4　基于RDD　　152 9.4　JDBC/ODBC服务器　　153 9.4.1　使用Beeline　　155 9.4.2　长生命周期的表与查询　　156 9.5　用户自定义函数　　156 9.5.1　Spark SQL UDF　　156 9.5.2　Hive UDF　　157 9.6　Spark SQL性能　　158 9.7　总结　　159 第10章　Spark Streaming　　161 10.1　一个简单的例子　　162 10.2　架构与抽象　　164 10.3　转化操作　　167 10.3.1　无状态转化操作　　167 10.3.2　有状态转化操作　　169 10.4　输出操作　　173 10.5　输入源　　175 10.5.1　核心数据源　　175 10.5.2　附加数据源　　176 10.5.3　多数据源与集群规模　　179 10.6　24/7不间断运行　　180 10.6.1　检查点机制　　180 10.6.2　驱动器程序容错　　181 10.6.3　工作节点容错　　182 10.6.4　接收器容错　　182 10.6.5　处理保证　　183 10.7　Streaming用户界面　　183 10.8　性能考量　　184 10.8.1　批次和窗口大小　　184 10.8.2　并行度　　184 10.8.3　垃圾回收和内存使用　　185 10.9　总结　　185 第11章　基于MLlib的机器学习　　187 11.1　概述　　187 11.2　系统要求　　188 11.3　机器学习基础　　189 11.4　数据类型　　192 11.5　算法　　194 11.5.1　特征提取　　194 11.5.2　统计　　196 11.5.3　分类与回归　　197 11.5.4　聚类　　202 11.5.5　协同过滤与推荐　　203 11.5.6　降维　　204 11.5.7　模型评估　　206 11.6　一些提示与性能考量　　206 11.6.1　准备特征　　206 11.6.2　配置算法　　207 11.6.3　缓存RDD以重复使用　　207 11.6.4　识别稀疏程度　　207 11.6.5　并行度　　207 11.7　流水线API　　208 11.8　总结　　209 作者简介　　210 封面介绍　　210

2018-12-02

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

spark快速大数据分析

空空如也