- 博客(17)
- 收藏
- 关注
原创 linux 常用扩展命令
目录linux 常用扩展命令1.Linux命令的分类2.用户和组账户管理User Group3.文件权限4.find命令5.grep命令 搜索文件中匹配符6.top查看系统健康状态7.进程命令8.时间命令9.中文语言环境10.mail11.系统中7种运行级别linux 常用扩展命令1.Linux命令的分类 内部命令: 属于Shell解析器的一部分,也称为内建(Built-IN)指令。 内部命令属于Shel...
2020-05-17 22:21:41 1544
原创 Haddoop大数据教程笔记_13_Spark基础
Spark基础Spark简介Spark是一种快速、通用、可扩展的大数据分析引擎,2009年诞生于加州大学伯克利分校AMPLab,2010年开源,2013年6月成为Apache孵化项目,2014年2月成为Apache顶级项目。目前,Spark生态系统已经发展成为一个包含多个子项目的集合,其中包含SparkSQL、Spark Streaming、GraphX、MLlib等子项...
2020-05-07 12:48:37 366
原创 Haddoop大数据教程笔记_12_Scala基础
目录Scala 安装及应用Scala简介Scala安装: 1.window安装: 2.Linux安装 3.启动:Scala基础应用 1.数据类型,变量,方法,函数 2.复杂函数 3.集合常用操作其他复杂操作:1.scala 单例对象Object2.scala 类,柱构造器,辅助构造器3....
2020-05-04 21:12:45 781
原创 Haddoop大数据教程笔记_11_Hadoop辅助工具——Flume&Sqoop
目录前言1. Flume日志采集框架1.1 Flume介绍1.1.1 概述1.1.2 运行机制1.1.4 Flume采集系统结构图1.2 Flume实战案例1.2.1 Flume的安装部署1.2.2 采集案例1.3 更多source和sink组件2. sqoop数据迁移工具2.1 概述2.2 工作机制2.3 sqoop实战及原理2.3.1...
2020-04-19 00:45:50 635
原创 Haddoop大数据教程笔记_010_HBASE安装及使用
目录HBASE安装及使用HBASE简介:HBASE是一个数据库----可以提供数据的实时随机读写HBASE相比于其他nosql数据库(mongodb、redis、cassendra、hazelcast)的特点:HBASE安装:HBASE是一个分布式系统安装准备:安装步骤:1.安装zookeeper(前文已述)2.安装hbase3.启动hbase集群(hd...
2020-04-17 19:16:15 903
原创 Haddoop大数据教程笔记_09_HIVEsql复杂用法举例
目录HIVEsql复杂用法举例1.保存select查询结果的几种方式:2.行转列,根据主键对某列进行合并3.列转行,将某列数据拆分成多行4.hive实现wordcount5.级联查询实现累积报表(笨办法)6-12均为9.hive 窗口分析函数6.窗口分析函数 sum() over() :可以实现在窗口中进行逐行累加(简单办法)7.分组排序求topn8.各种...
2020-04-17 19:04:27 944
原创 Haddoop大数据教程笔记_08_Hive搭建及使用
目录Hive操作笔记Hive 安装1、Mysql安装(hive元数据记录可以使用内嵌derby数据库,但一般选择MySQL)2、hive安装:3.hive使用方式最基本使用方式启动一个hive交互shell启动hive服务使用脚本化运行4.hive建库建表与数据导入4.1.建库4.2.建表5.hive查询语法6.hive常见参数7.h...
2020-04-17 13:30:50 464
原创 Haddoop大数据教程笔记_07_Hadoop HA(高可用)集群搭建
目录hadoop的HA工作机制示意图:Hadoop HA(高可用)集群搭建集群节点配置基础:安装步骤:1.安装配置zooekeeper集群(在hadoop05上)2.安装配置hadoop集群(在hadoop00上操作)hadoop的HA工作机制示意图:Hadoop HA(高可用)集群搭建hadoop2.0已经发布了稳定版本了,增加了很多特性,比如...
2020-04-17 13:05:08 364
原创 Haddoop大数据教程笔记_06_Zookeeper简介及安装搭建
zookeeper的功能和应用场景图示:zookeeper集群结构示意图:zookeeper案例示意图:Hadoop之Zookeeper简介及安装Zookeeper简介Zookeeper: 是一个分布式的、开源的程序协调服务,是 hadoop 项目下的一个子项目,一个基础组件。主要提供2个服务:1)为客户端管理少量的数据kv(采用树状目录结...
2020-04-17 12:51:12 302
原创 Haddoop大数据教程笔记_05_Hadoop之MapReduce原理及Yarn相关
目录Hadoop之MapReduce原理及Yarn相关MapReduce简介自动化调度平台——YARNYARN集群启动mapreduce Java编程实例:1.extends Mapper类,并重写map(){}方法,实现map的逻辑:2.extends Reducer类,并重写reduce(){}方法,实现reduce的逻辑:3.job的客户端程序,提交mapre...
2020-04-17 12:43:36 410
原创 Haddoop大数据教程笔记_04_HDFS的核心工作原理
HDFS的核心工作原理及读写数据流程1.hdfs整体运行机制hdfs:分布式文件系统hdfs有着文件系统共同的特征:1)有目录结构,顶层目录是: /2)系统中存放的就是文件3)系统可以提供对文件的:创建、删除、修改、查看、移动等功能hdfs跟普通的单机文件系统有区别:1)单机文件系统中存放的文件,是在一台机器的操作系统中2)hdfs的文件系统会横跨N...
2020-04-17 12:19:31 408
原创 Haddoop大数据教程笔记_03_Hadoop安装部署及HDFS文件系统操作
目录1. Hadoop安装部署1.1 Hadoop安装包下载: 1.2 下载后上传文件并解压:2.HDFS文件系统操作2.1修改配置文件2.1.1 修改hadoop-env.sh 指定Java的安装目录2.1.2 修改core-site.xml --指定hadoop的默认文件系统2.1.3 修改hdfs-site.xml 指定namenode、d...
2020-04-16 12:58:49 747
原创 Haddoop大数据教程笔记_02_Hadoop生态圈简介
Hadoop生态圈简介目录Hadoop生态圈简介Hadoop生态圈:(一)Hdfs(二)Mapreduce(三)Hive(四)Hbase(五)Zookeeper(六)Sqoop(七)Pig(八)Mahout(九)Flume(十)Spark(十一)Storm(十二)Impala(十三)Kafka(十四)Yarn(十五)Hue...
2020-04-16 12:38:09 797
原创 Haddoop大数据教程笔记_01_集群搭建
Hadoop环境搭建笔记(一) ————集群服务器部署目录 1.服务器基础配置:1.1服务器以CentOS7-Minimal为例1.2修改CentOS7网络配置1.2.1修改原因1.2.2步骤:1.3关闭防火墙(便于集群通信)1.4 JDK安装(Hadoop体系中的各软件都是java开发的) 1.4.1JDK8下载地址...
2020-04-16 12:24:33 447
原创 pandas的read_csv()函数读取的文件路径找不到报错
pandas的read_csv()函数读取的文件路径找不到报错:表现:在python 需要读入路径的API 中经常会遇到这个问题。原因:这里 因为win系统 下 ,点击文件属性复制路径,路径在前面会有一个多余的奇怪字符。解决方法:重新手写路径或者在python project 目录处 copy path 然后再 粘贴到read_csv() 里面就OK 了。报错如下
2017-11-29 21:26:27 17945 1
原创 dnspython 库出现的异常
dnspython 库出现的异常1.DNS解析,dnspython库,在python3中调用,出现一个系统语法报错。 File"C:\Python36\lib\site-packages\dns\message.py", line 175 return '' ^SyntaxError:invalid
2017-11-15 12:39:19 1362
原创 python scrapy request页面抓取异常报错及处理
scrapy.Request Missing scheme in request url:
2017-11-10 17:54:41 4245
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人