白茶清欢渡-CSDN博客

原创 Linux安装Python3

linux安装python3步骤转https://www.cnblogs.com/kimyeee/p/7250560.html

2019-04-13 15:13:55 146

转载机器学习之决策树

使用决策树做预测需要以下过程：收集数据：可以使用任何方法。比如想构建一个相亲系统，我们可以从媒婆那里，或者通过参访相亲对象获取数据。根据他们考虑的因素和最终的选择结果，就可以得到一些供我们利用的数据了。准备数据：收集完的数据，我们要进行整理，将这些所有收集的信息按照一定规则整理出来，并排版，方便我们进行后续处理。分析数据：可以使用任何方法，决策树构造完成之后，我们可以检查决策树图形是否符合...

2018-12-13 21:37:21 208

原创 azkaban源码编译安装

下载安装包：我用的：azkaban-3.40.0.tar.gz解压：tar -zxvf azkaban-3.40.0.tar.gz依赖包：gradle-4.1-all.zip一定要版本配合tar -zxvf azkaban-3.40.0.tar.gzcd azkaban-3.40.0/gradle/wrapper/#将gradle-4.1-all.zip放入此文件夹中vim g...

2018-11-22 22:31:24 412

原创 SQL总结

SQL 主机如果您想要您的网站存储数据在数据库并从数据库显示数据，您的 Web 服务器必须能使用 SQL 语言访问数据库系统。如果您的 Web 服务器托管在互联网服务提供商（ISP，全称 Internet Service Provider），您必须寻找 SQL 主机计划。最常见的 SQL 主机数据库是 MySQL、MS SQL Server 和 MS Access。您可以在 Windows...

2018-11-21 23:41:37 137

原创 SQL函数

“Websites” 表的数据：+----+--------------+---------------------------+-------+---------+| id | name | url | alexa | country |+----+--------------+--------------------------...

2018-11-21 23:33:15 189

原创 SQL的高级应用

“Websites” 表的数据：+----+---------------+---------------------------+-------+---------+| id | name | url | alexa | country |+----+---------------+-----------------------...

2018-11-21 23:06:11 1014

原创 SQL基础语法语句

SQL语法：use **; #使用数据库set names utf8; #设置使用的字符集SELECT * FROM Websites; #读取数据表的信息SQL语句命令作用SELECT从数据库中提取数据,UPDATE更新数据库中的数据DELETE从数据库中删除数据INSERT INTO向数据库中插入新数据CREATE DATAB...

2018-11-21 19:07:59 280

原创 pyspark的基本方法

引入Python中pyspark工作模块import pysparkfrom pyspark import SparkContext as scfrom pyspark import SparkConfconf=SparkConf().setAppName("miniProject").setMaster("local[*]")sc=SparkContext.getOrCreate(co...

2018-11-20 20:05:00 956

原创 Hive的高级操作

Hive的Join操作1，语法结构join_table:table_reference JOIN table_factor [join_condition]| table_reference {LEFT|RIGHT|FULL} [OUTER] JOIN table_reference join_condition| table_reference LEFT SEMI JOIN table_...

2018-11-18 22:07:33 607

原创机器学习的算法knn,贝叶斯,决策树

#sklearn数据集与估计器##数据集划分机器学习一般的数据集会划分为两个部分：训练数据：用于训练，构建模型测试数据：在模型检验时使用，用于评估模型是否有效##数据集划分APIsklearn.model_selection.train_test_splitsklearn.datasets加载获取流行数据集from sklearn.datasets import load_*d...

2018-11-18 21:04:11 1086

原创机器学习基础

#机器学习什么是机器学习?机器学习是从数据中自动分析获得规律（模型），并利用规律对未知数据进行预测机器学习的应用场景自然语言处理，无人驾驶，计算机视觉，推荐系统#Scikit_learn库Python语言的机器学习工具Scikit-learn包括许多知名的机器学习算法的实现Scikit-learn文档完善，容易上手，丰富的API，使其在学术界颇受欢迎。目前稳定版本0....

2018-11-18 20:59:02 557

原创 HDFS在Linux中操作命令

HDFS简介1，HDFS概念：分布式文件系统（1）文件系统：存储文件，目录树定位文件 hdfs://master:9000/soft/hadoop-2.6.5-centos-6.8.tar.gz（2）分布式：服务器集群，各个服务器都有各自清晰的角色定位功能：解决海量数据的存储问题2，设计思路（1）分而治之大文件切分成小文件，多台服务器共同管理一个文件小文件做备份，分散...

2018-11-18 20:53:35 9454

原创 Azkaban的安装及应用简述

Azkaban简述1，什么是 Azkaban？Azkaban是 Linkedin（领英）公司推出的一个开源的批量工作流任务调度用于在一个工作流内以一个特定的顺序运行一组工作和流程。使用 Job 配置文件建立任务之间的依赖关系，并提供一个易于使用的 Web 用户界面维护和跟踪你的工作流。2，为什么需要工作流调度器？1，一个完整的数据分析系统通常都是由大量任务单元组成：Shell 脚...

2018-11-16 22:44:56 485

原创 Flume的介绍与安装

flume简述Flume 是什么？Flume 是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。Flume 是 Cloudera 提供的分布式日志采集系统，支持在日志系统中定制各类数据发送方，用于收集数据，同时，Flume 提供对数据进行简单处理，并写到各种数据接收方（可定制，比如文本、HDFS、MySQL、HBase 等）。Flume 的核心概念Agent：使...

2018-11-16 20:30:48 279

原创 Hive的高级应用-视图-优化

3

2018-11-15 21:26:43 1215

原创 Hive--DDL，DML基本操作

2

2018-11-15 21:26:21 246

原创 Hive简介与搭建

1

2018-11-15 21:25:52 207

原创 Sqoop 原理剖析

Sqoop 数据导入原理Sqoop 导入原理图工作流程详解1，Sqoop 会通过 JDBC 来获取所需要的数据库元数据，例如：导入表的列名，数据类型等。2，这些数据库的数据类型（varchar、int 等）会被映射成 Java 的数据类型（String、int 等），根据这些信息， Sqoop 会生成一个与表名同名的类用来完成序列化工作，保存表中的每一行记录。3，Sqoop 启动 M...

2018-11-15 21:24:52 603

原创 Sqoop的数据处理方法

1，Sqoop 基本命令介绍1，帮助信息 sqoop help2，查看具体某个命令的使用方式 sqoop help command 例如：sqoop help import2，MySQL 数据准备1，开启 MySQL service mysql start-2 ，查看 MySQL 的数据Sqoop 数据导入MySQL 数据导入 HDFS1...

2018-11-15 21:19:42 1084

原创 Sqoop的简介与安装

1，Sqoop概述1，概念Sqoop：SQL–to–Hadoop，本质还是一个命令行工具。Apache旗下一款“Hadoop 和关系数据库之间传送数据”的工具。2，功能导入数据：将关系型数据库（MySQL、Oracle 等）数据导入到 Hadoop 的 HDFS、Hive、HBase 等数据存储系统中；导出数据：从 Hadoop 的文件系统中导出数据到关系数据库（MySQL、Or...

2018-11-15 20:30:22 130

原创 HBase的命令行

HBase命令1，指导手册hbase2，HBase Shell的一些基本操作命令基本操作1，进入 HBase 命令行界面 hbase shell #任意一台安装HBase的服务器节点- 2，查看帮助信息 hbase(main):001:0&gt; help #获取所有命令的帮助信息 hbase(main):001:0&gt; he...

2018-11-15 20:25:49 1694

原创 HBase的表存储结构

命令DDLDML

2018-11-15 14:48:44 701

原创 HBase简介和分布式集群的搭建

HBase1，HBase是什么？1，概念是一个高可靠性、高性能、可伸缩、分布式、基于列存储的非关系型（NoSQL）数据库。2，与Google Bigtable的不同之处文件存储系统海量数据计算框架应用程序协调服务Google Bigtable：GFSGoogle Bigtable：MapReduceGoogle Bigtable：ChubbyHBase...

2018-11-14 21:08:27 2571

原创 ZooKeeper 原理解析

ZooKeeper 整体架构1，角色描述server.id=主机名:2888:3888:observer2，架构图（1）每个Server在内存中存储了一份数据；（2）ZooKeeper启动时，从中选举一个Leader（Paxos协议）；（3）Leader负责处理数据更新等操作（Zab协议）；（4）一个更新操作成功，当且仅当大多数Server在内存中成功修改数据。ZooK...

2018-11-14 20:18:14 222

原创 ZooKeeper 集群搭建和使用

ZooKeeper 集群搭建1，ZooKeeper 集群搭建须知节点数奇数台2，下载安装包下载地址：http://mirrors.hust.edu.cn/apache/zookeeper/版本号：zookeeper-3.4.10.tar.gz3，上传并解压解压：tar -zxvf zookeeper-3.4.10.tar.gz4，修改配置文件zoo.cfg进入 ...

2018-11-14 19:47:38 647

原创 zookeeper

ZooKeeper概述什么是 ZooKeeper？zookeeper译名为“动物园管理员”。它是用来管理大象(Hadoop) 、蜜蜂(Hive) 、小猪(Pig) 的管理员， Apache HBase 和 Apache Solr 等项目中都用到了 ZooKeeper。ZooKeeper 是一个开源的分布式协调服务，就是为用户的分布式应用程序提供协调服务。ZooKeeper 功能（1）...

2018-11-14 18:58:01 415

原创 Storm的编程模式和架构

stormstorm是一个实时计算系统。适用于实时分析，在线机器学习，持续计算的流式计算系统。特点：速度快，每秒每节点处理数据百万tuple级别的工作形式： topology无状态，集群状态和分布式环境形式在zk中保存确保每个消息至少被消费一次storm和hadoop的区别storm用于实时计算，hadoop用于离线计算storm 处理的数据保存在内存中，源...

2018-11-14 00:14:25 337

原创 MapReduce 原理解析-Shuffle

概述MapReduce 中， Map 阶段处理的数据如何传递给 Reduce 阶段，是 - MapReduce 框架中最关键的一个流程，这个流程就叫 ShuffleShuffle：数据混洗 ——（核心机制：数据分区，排序，缓存）具体来说：就是将 MapTask 输出的处理结果数据，分发给 ReduceTask，并在分发的过程中，对数据按 key 进行了分区和排序。主要流程...

2018-11-07 23:05:53 153

原创 MapReduce的序列化和分区

流量项目的统计案例MapReduce的序列化序列化：把结构化对象转化为字节流反序列化：把字节流转换回结构化对象Java序列化重量级序列化框架，一个对象被序列化后，会附带很多额外信息（各种校验信息、header、继承体系等），不便在网络中高效传输，所以，Hadoop自己开发了一套序列化机制（Writable）Hadoop序列化Java序列化java对象实现Seriali...

2018-11-07 21:12:52 1285

原创 MapReduce基础

MapReducemapreduce：是一个分布式运算编程框架，是用户开发“基于Hadoop的数据分析应用”的核心框架核心功能：自带默认组件，用户编写的业务逻辑代码，整合成一个完整的分布式运算程序，并发运行在Hadoop集群上为什么需要MapReduce海量数据单机处理，硬件资源受限，所以无法胜任（硬盘读写速度、CPU处理速度等）单机版阔成分布式版，增加程序复杂度和开发难度为...

2018-11-07 20:35:43 262

原创 HDFS，NameNode，DataNode，SecondaryNameNode的工作机制

HDFS工作机制概述HDFS写数据流程HDFS读数据流程写数据的具体流程图读数据的具体流程图NameNode工作机制NameNode元数据管理管理方式元数据的 CheckPoint 机制CheckPoint 机制流程图CheckPoint 触发配置CheckPoint 附带作用DataNode工作机制SecondaryNameNode...

2018-11-02 22:09:23 680

原创 HDFS的Java API 操作

HDFS的JavaAPI操作1.Windows 下 eclipse 远程连接 Hadoop 集群（1）下载 eclipse 开发工具，解压并安装。下载网址：https://www.eclipse.org/downloads/（2）下载Hadoop Eclipse 插件 hadoop-eclipse-plugin-2.6.5.jar，将其放入 eclipse 安装目录 plugins 文件夹...

2018-11-02 21:36:48 383

原创 Hadoop--HDFS集群架构

Hadoop集群搭建服务器配置以及JDK的安装硬件准备（1）硬件准备服务器准备：VMware12/10/14CentOS6.8 下载网址：http://vault.centos.org/（2）网络环境准备：NAT方式：不需要做任何网络设置，只要宿主主机上网即可上网IP地址，子网掩码，网关，DNS（外网）LINUX系统环境准备：修改主机名： vim /etc/sysconfig/n...

2018-11-02 14:08:12 460

原创 matplotlib的使用

数据分析数据分析是用适当的方法对收集来的大量数据进行分析，帮助人们作出判断，以便采取适当行动。matplotib什么是matplotlib最流行的Python底层绘图库，主要做数据可视化图表,名字取材于MATLAB，模仿MATLAB构建。能将数据进行可视化,更直观的呈现使数据更加客观、更具说服力###matplotlib基本要点导包：from matplotlib import ...

2018-11-02 13:58:20 1136

白茶清欢的博客