Snowing_inhope-CSDN博客

原创 linux 常用扩展命令

目录linux 常用扩展命令1.Linux命令的分类2.用户和组账户管理User Group3.文件权限4.find命令5.grep命令搜索文件中匹配符6.top查看系统健康状态7.进程命令8.时间命令9.中文语言环境10.mail11.系统中7种运行级别linux 常用扩展命令1.Linux命令的分类内部命令：属于Shell解析器的一部分，也称为内建（Built-IN)指令。内部命令属于Shel...

2020-05-17 22:21:41 1544

原创 Haddoop大数据教程笔记_13_Spark基础

Spark基础Spark简介Spark是一种快速、通用、可扩展的大数据分析引擎，2009年诞生于加州大学伯克利分校AMPLab，2010年开源，2013年6月成为Apache孵化项目，2014年2月成为Apache顶级项目。目前，Spark生态系统已经发展成为一个包含多个子项目的集合，其中包含SparkSQL、Spark Streaming、GraphX、MLlib等子项...

2020-05-07 12:48:37 366

原创 Haddoop大数据教程笔记_12_Scala基础

目录Scala 安装及应用Scala简介Scala安装： 1.window安装： 2.Linux安装 3.启动：Scala基础应用 1.数据类型,变量,方法,函数 2.复杂函数 3.集合常用操作其他复杂操作：1.scala 单例对象Object2.scala 类,柱构造器,辅助构造器3....

2020-05-04 21:12:45 781

原创 Haddoop大数据教程笔记_11_Hadoop辅助工具——Flume&Sqoop

目录前言1. Flume日志采集框架1.1 Flume介绍1.1.1 概述1.1.2 运行机制1.1.4 Flume采集系统结构图1.2 Flume实战案例1.2.1 Flume的安装部署1.2.2 采集案例1.3 更多source和sink组件2. sqoop数据迁移工具2.1 概述2.2 工作机制2.3 sqoop实战及原理2.3.1...

2020-04-19 00:45:50 635

原创 Haddoop大数据教程笔记_010_HBASE安装及使用

目录HBASE安装及使用HBASE简介：HBASE是一个数据库----可以提供数据的实时随机读写HBASE相比于其他nosql数据库(mongodb、redis、cassendra、hazelcast)的特点：HBASE安装：HBASE是一个分布式系统安装准备：安装步骤：1.安装zookeeper(前文已述)2.安装hbase3.启动hbase集群(hd...

2020-04-17 19:16:15 903

原创 Haddoop大数据教程笔记_09_HIVEsql复杂用法举例

目录HIVEsql复杂用法举例1.保存select查询结果的几种方式：2.行转列,根据主键对某列进行合并3.列转行,将某列数据拆分成多行4.hive实现wordcount5.级联查询实现累积报表(笨办法)6-12均为9.hive 窗口分析函数6.窗口分析函数 sum() over() ：可以实现在窗口中进行逐行累加(简单办法)7.分组排序求topn8.各种...

2020-04-17 19:04:27 944

原创 Haddoop大数据教程笔记_08_Hive搭建及使用

目录Hive操作笔记Hive 安装1、Mysql安装(hive元数据记录可以使用内嵌derby数据库,但一般选择MySQL)2、hive安装：3.hive使用方式最基本使用方式启动一个hive交互shell启动hive服务使用脚本化运行4.hive建库建表与数据导入4.1.建库4.2.建表5.hive查询语法6.hive常见参数7.h...

2020-04-17 13:30:50 464

原创 Haddoop大数据教程笔记_07_Hadoop HA(高可用)集群搭建

目录hadoop的HA工作机制示意图：Hadoop HA(高可用)集群搭建集群节点配置基础:安装步骤：1.安装配置zooekeeper集群（在hadoop05上）2.安装配置hadoop集群（在hadoop00上操作）hadoop的HA工作机制示意图：Hadoop HA(高可用)集群搭建hadoop2.0已经发布了稳定版本了，增加了很多特性，比如...

2020-04-17 13:05:08 364

原创 Haddoop大数据教程笔记_06_Zookeeper简介及安装搭建

zookeeper的功能和应用场景图示：zookeeper集群结构示意图：zookeeper案例示意图：Hadoop之Zookeeper简介及安装Zookeeper简介Zookeeper: 是一个分布式的、开源的程序协调服务，是 hadoop 项目下的一个子项目,一个基础组件。主要提供2个服务：1)为客户端管理少量的数据kv(采用树状目录结...

2020-04-17 12:51:12 302

原创 Haddoop大数据教程笔记_05_Hadoop之MapReduce原理及Yarn相关

目录Hadoop之MapReduce原理及Yarn相关MapReduce简介自动化调度平台——YARNYARN集群启动mapreduce Java编程实例：1.extends Mapper类,并重写map(){}方法，实现map的逻辑：2.extends Reducer类,并重写reduce(){}方法，实现reduce的逻辑：3.job的客户端程序,提交mapre...

2020-04-17 12:43:36 410

原创 Haddoop大数据教程笔记_04_HDFS的核心工作原理

HDFS的核心工作原理及读写数据流程1.hdfs整体运行机制hdfs：分布式文件系统hdfs有着文件系统共同的特征：1)有目录结构，顶层目录是： /2)系统中存放的就是文件3)系统可以提供对文件的：创建、删除、修改、查看、移动等功能hdfs跟普通的单机文件系统有区别：1)单机文件系统中存放的文件，是在一台机器的操作系统中2)hdfs的文件系统会横跨N...

2020-04-17 12:19:31 408

原创 Haddoop大数据教程笔记_03_Hadoop安装部署及HDFS文件系统操作

目录1. Hadoop安装部署1.1 Hadoop安装包下载： 1.2 下载后上传文件并解压：2.HDFS文件系统操作2.1修改配置文件2.1.1 修改hadoop-env.sh 指定Java的安装目录2.1.2 修改core-site.xml --指定hadoop的默认文件系统2.1.3 修改hdfs-site.xml 指定namenode、d...

2020-04-16 12:58:49 747

原创 Haddoop大数据教程笔记_02_Hadoop生态圈简介

Hadoop生态圈简介目录Hadoop生态圈简介Hadoop生态圈：（一）Hdfs（二）Mapreduce（三）Hive（四）Hbase（五）Zookeeper（六）Sqoop（七）Pig（八）Mahout（九）Flume（十）Spark（十一）Storm（十二）Impala（十三）Kafka（十四）Yarn（十五）Hue...

2020-04-16 12:38:09 797

原创 Haddoop大数据教程笔记_01_集群搭建

Hadoop环境搭建笔记（一） ————集群服务器部署目录 1.服务器基础配置：1.1服务器以CentOS7-Minimal为例1.2修改CentOS7网络配置1.2.1修改原因1.2.2步骤：1.3关闭防火墙（便于集群通信）1.4 JDK安装（Hadoop体系中的各软件都是java开发的） 1.4.1JDK8下载地址...

2020-04-16 12:24:33 447

原创 pandas的read_csv（）函数读取的文件路径找不到报错

pandas的read_csv（）函数读取的文件路径找不到报错：表现：在python 需要读入路径的API 中经常会遇到这个问题。原因：这里因为win系统下，点击文件属性复制路径，路径在前面会有一个多余的奇怪字符。解决方法：重新手写路径或者在python project 目录处 copy path 然后再粘贴到read_csv（）里面就OK 了。报错如下

2017-11-29 21:26:27 17945 1

原创 dnspython 库出现的异常

dnspython 库出现的异常1.DNS解析，dnspython库，在python3中调用，出现一个系统语法报错。 File"C:\Python36\lib\site-packages\dns\message.py", line 175 return '' ^SyntaxError:invalid

2017-11-15 12:39:19 1362

原创 python scrapy request页面抓取异常报错及处理

scrapy.Request Missing scheme in request url：

2017-11-10 17:54:41 4245

Snowing_inhope的博客