
西行日记
Rich Dad
你若盛开,蝴蝶自来
-
原创 2021-03-04 大数据课程笔记 day43
@R星校长机器学习03【机器学习】主要内容数字聚类案例TF-IDF算法微博营销案例逻辑回归算法音乐分类案例学习目标第一节 数字聚类案例1. K-means 找中心点和数据点分类例子import numpy as np #将每行数据放入一个数组内列表,返回一个二维列表def loadDataSet(fileName): #建空列表 dataMat = [] fr = open(fileName) for li.2021-03-04 10:35:1819
0
-
原创 2021-03-03 大数据课程笔记 day42
@R星校长机器学习02【机器学习】主要内容朴素贝叶斯算法拉普拉斯估计KNN 最近邻算法Kmeans 聚类算法学习目标第一节 朴素贝叶斯算法朴素贝叶斯(Naive Bayes ,NB)算法是基于贝叶斯定理与特征条件独立假设的分类方法,该算法是有监督的学习算法,解决的是分类问题,是将一个未知样本分到几个预先已知类别的过程。朴素贝叶斯的思想就是根据某些个先验概率计算Y变量属于某个类别的后验概率,也就是根据先前事件的有关数据估计未来某个事件发生的概率。1. 举例: 一个学校内有60%.2021-03-03 12:22:3428
0
-
原创 开发 PySpark 的准备环境
@R星校长开发 PySpark 所需准备环境 1) 安装 python 环境 下载安装Anaconda。 详细见文档 “Anaconda安装及使用.docx”。 2) 安装 PyCharm 下载安装 PyCharm。 3) 官网下载 Spark 安装包 由于 PyCharm 开发 spark 需要本地 Spark 环境,所以要在官网中下载 Spark 安装包到本地(这里我们下载 Spark1.6 版本)。 A. 进入 Spark 官网,找到对应的 Spark 版本下载。 B..2021-03-02 16:47:549
0
-
原创 2021-03-02 大数据课程笔记 day41
@R星校长机器学习01【机器学习】主要内容Anconda安装使用python开发spark线性回归算法原理线性回归算法案例学习目标第一节 pySpark环境准备1).window配置python环境变量window安装python,配置python环境变量。安装python后,在环境变量path中加入安装的路径,cmd中输入python,检验python是否安装成功。 注意:如果使用的是anaconda安装的python环境,建议安装python3.5.x版本,这个版本和spar.2021-03-02 14:58:2429
0
-
原创 2021-03-01 大数据课程笔记 day40
@R星校长Spark优化【Spark优化内容】主要内容Spark资源优化Spark并行度优化Spark代码优化内存调优Sparkshuffle优化堆外内存优化解决数据倾斜第一节 资源优化 1) .搭建Spark集群的时候要给Spark集群足够的资源(core,memory) 在spark安装包的conf下spark-env.sh SPARK_WORKER_CORES SPARK_WORKER_MEMORY SPARK_WORKER_INSTANCE 2.2021-03-01 13:21:373
0
-
原创 2021-02-26~27~28 大数据课程笔记 day37day38day39
@R星校长音乐数据中心平台1.1 数据库与ER建模1.1.1 数据库(DataBase)数据库是按照数据结构来组织、存储和管理数据的仓库,是一个长期存储在计算机内的、有组织的、可共享的、统一管理的大量数据的集合。数据库是以一定方式储存在一起、能与多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合,可视为电子化的文件柜,存储电子文件的处所,用户可以对文件中的数据进行新增、查询、更新、删除等操作,数据组织主要是面向事务处理任务。1.1.2 数据库三范式关系型数据库设计时,遵照一定的.2021-02-28 23:45:16378
1
-
原创 2021-02-25 大数据课程笔记 day36
@R星校长Spark第八天【SparkStreaming内容】主要内容Kafka应用场景Kafka分布式消息系统原理Kafka集群搭建Kafka 操作命令Kafka Leader 均衡机制SparkStreaming与Kafka整合学习目标第一节 Kafka 介绍kafka是什么?使用场景?Kafka是一个高吞吐的分布式消息队列系统。特点是生产者消费者模式,先进先出(FIFO)保证顺序,自己不丢数据,默认每隔7天清理数据。消息列队常见场景:系统之间解耦合、峰值压力缓冲、异步.2021-02-25 18:50:2138
0
-
原创 2021-02-24 大数据课程笔记 day35
@R星校长Spark第七天【SparkSQL+SparkStreaming内容】主要内容SparkSQL开窗函数SparkSQL案例SparkStreaming&Strom区别SparkStreaming读取Socket数据SparkStreaming算子SparkStreaming Driver HA学习目标第一节 SparkSQL开窗函数开窗函数注意:row_number()开窗函数是按照某个字段分组,然后取另一字段的前几个的值,相当于 分组取topN,在MySq.2021-02-24 18:42:078
0
-
原创 2021-02-23 大数据课程笔记 day34
@R星校长Spark第六天【SparkSQL内容】主要内容SparkSQL的演变过程Spark on Hive & Hive on SparkSparkSQL DataFrame创建DataFrame的方式Spark on Hive自定义函数UDF & UDAF开窗函数学习目标第一节 SparkSQL 介绍1. SharkShark是基于Spark计算框架之上且兼容Hive语法的SQL执行引擎,由于底层的计算采用了Spark,性能比MapReduce的Hive.2021-02-23 18:31:3220
0
-
原创 2021-02-22 大数据课程笔记 day33
@R星校长Spark 第五天【SparkCore 内容】主要内容广播变量和累加器Spark webui 界面Spark 历史日志服务器配置Spark MasterHASpark ShuffleSpark Shuffle 文件寻址Spark 内存管理Spark Shuffle 优化第一节 Spark 广播变量和累加器广播变量广播变量理解图广播变量使用val conf = new SparkConf()conf.setMaster("local").setAppN.2021-02-22 18:15:4822
2
-
原创 2021-02-21 大数据课程笔记 day32
@R星校长Spark 第四天【SparkCore 内容】主要内容Spark Master 启动源码Spark Submit 任务提交源码Spark Driver 启动源码Spark Application 注册并分配资源Spark 资源调度结论Spark 任务调度Spark 二次排序问题Spark 分组取 topN 问题学习目标第一节 Spark Master 启动Spark 资源任务调度对象关系图集群启动过程Spark 集群启动之后,首先调用 $SPARK_HOME/.2021-02-21 10:45:1830
0
-
原创 2021-02-20 大数据课程笔记 day31
@R星校长Spark 第三天【SparkCore内容】主要内容Spark-Core中的术语RDD的宽窄依赖Spark Stage & Spark计算模式Spark资源调度和任务调度Spark补充算子Spark PV&UV 案例Spark-Submit提交参数学习目标第一节 术语与宽窄依赖术语解释窄依赖和宽依赖RDD 之间有一系列的依赖关系,依赖关系又分为窄依赖和宽依赖。窄依赖父 RDD 和子 RDD partition 之间的关系是一对一的。或者父 R.2021-02-20 18:11:5013
2
-
原创 2021-02-19 大数据课程笔记 day30
@R星校长Spark第二天【SparkCore内容】主要内容Spark集群搭建Spark Spark Pi任务提交Spark on Yarn 配置Spark基于Standalone任务提交两种模式Spark基于Yarn任务提交两种模式Spark部分Transformation算子Spark部分Action算子学习目标第一节 Spark 集群搭建Standalone 集群搭建与 Spark on Yarn 配置 StandaloneStandalone 集群是 Spark.2021-02-19 18:46:208
0
-
原创 2021-02-18 大数据课程笔记 day29
@R星校长Spark 第一天【 SparkCore 内容】主要内容Spark 概念Spark 技术栈内容Spark 与 MapReduce 区别Spark 运行模式Spark Java-Scala 混编 Maven 项目创建Spark 核心 RDDSpark 代码流程Spark 部分算子Spark 持久化算子学习目标第一节 Spark 初始什么是 SparkApache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark 是UC Berkeley A.2021-02-18 15:42:4118
0
-
原创 2021-02-17 大数据课程笔记 day28
@R星校长Scala第二天【Scala内容】主要内容Scala 迭代器模式处理数据ScalaTrait 特质特性Scala 模式匹配Scala 偏函数Scala 样例类Scala 隐式转换Scala Actor 通信模型Spark WordCount学习目标第一节 Scala 迭代器模式 + Trait 特质特性Scala迭代器模式处理数据scala 中创建集合需要内存,集合与集合之间的转换时,每次转换生成新的集合时,新的集合也需要内存。如果有一个非常大的初始集合,需要经过.2021-02-17 10:56:3337
0
-
原创 2021-02-16 大数据课程笔记 day27
@R星校长Scala 第一天【Scala内容】主要内容Scala介绍Scala安装使用Scala数据对象Scala类和对象Scala流程控制Scala方法与函数Scala字符串Scala集合学习目标第一节 Scala介绍为什么学习Scala语言Scala 是基于JVM 的语言,与 java 语言类似,Java 语言是基于 JVM 的面向对象的语言。Scala 也是基于 JVM ,同时支持面向对象和面向函数的编程语言。这里学习 Scala 语言的原因是后期我们会学习一个优.2021-02-16 22:48:0716
0
-
原创 2021-02-15 大数据课程笔记 day26
@R星校长Python 教程 day02第七章 类和对象面向对象编程介绍 面向对象编程——Object Oriented Programming,简称 OOP,是一种程序设计思想。OOP 把对象作为程序的基本单元,一个对象包含了数据和操作数据的函数。面向对象是一种对现实世界理解和抽象的方法。 “面向过程” (Procedure Oriented) 是一种以过程为中心的编程思想。“面向过程”也可称之为“面向记录”编程思想,他们不支持丰富的“面向对象”特性(比如继承、多态、封装),并且它们不允许.2021-02-15 22:12:33123
0
-
原创 2021-02-14 大数据课程笔记 day25
@R星校长Python教程第一章Python的介绍python介绍一种面向对象,面向函数的解释型计算机程序设计语言,由荷兰人Guido van Rossum(龟叔)于1989年发明,第一个公开发行版发行于1991年。Python是纯粹的自由软件, 源代码和解释器 CPython 遵循 GPL(GNU General Public License) 协议[2]. Python 语法简洁清晰,特色之一是强制用空白符(white space)作为语句缩进。Python 具有丰富和强大的库。它常被昵称为胶.2021-02-14 21:59:54173
1
-
原创 2021-02-13 大数据课程笔记 day24
@R星校长Lucene 与 ElasticSearch 概述Lucene 全文检索Lucene 概述Lucene 是一个全文搜索框架,而不是应用产品。因此它并不像http://www.baidu.com/ 或者 google Desktop 那么拿来就能用,它只是提供了一种工具让你能实现这些产品。lucene 能做什么 :本质就是给搜索内容定位要回答这个问题,先要了解lucene的本质。实际上lucene的功能很单一,说到底,就是你给它若干个字符串,然后它为你提供一个全文搜索服务,告诉你你.2021-02-13 21:52:40648
0
-
原创 2021-02-12 大数据课程笔记 day23
@R星校长redis 概述为什么使用 redis?什么是 Redis?Redis是用C语言开发的一个开源的高性能键值对(key-value)内存数据库。它提供六种数据类型来存储值:string 字符串类型、hash 散列类型、list 列表类型、set 集合类型、zset(SortedSet) 有序集合类型、stream 流类型。它是一种 NoSQL 数据库。Redis 历史发展2008 年,意大利的一家创业公司 Merzia 推出了一款基于 MySQL 的网站实时统计系统 LL.2021-02-12 16:59:23119
0
-
原创 2021-02-11 大数据课程笔记 day22
第3天 离线项目-3 新增用户数据处理时间维度浏览器维度平台维度KPI 一个工具维度通过以上四个维度的各种组合,计算它的新增用户指标课程大纲项目模块设计思路新增用户指标 mapper 开发新增用户指标 reducer 开发新增用户指标 Runner 开发MapReduce 结果存 MySQL新增用户指标运行结果hbaseuuid,servertime,browser,platform,kpi事件 lanuch 时间 浏览器 平台 kpi 模块 时间2021-02-11 20:44:57221
1
-
原创 2021-02-10 大数据课程笔记 day21
@R星校长离线项目第二天flume sinksHDFS Sink (使用较多)属性名称默认值说明channel-type-组件类型名称,必须是hdfshdfs.path-HDFS路径,如hdfs://mycluster/flume/mydatahdfs.filePrefixFlumeDataflume在hdfs目录中创建文件的前缀hdfs.fileSuffix-flume在hdfs目录中创建文件的后缀。hdfs.inUsePr.2021-02-10 18:41:2330
0
-
原创 2021-02-08/09 大数据课程笔记 day19day20 某大型网站日志分析离线系统
@R星校长某大型网站日志分析离线系统项目需求分析概述该部分的主要目标就是描述本次项目最终七个分析模块的界面展示。工作流 在我们的 demo 展示中,我们使用 jquery+echarts 的方式调用程序后台提供的 rest api 接口,获取 json 数据,然后通过 jquery+css 的方式进行数据展示。工作流程如下:分析总述在本次项目中我们分别从七个大的角度来进行分析,分别为:用户基本信息分析模块浏览器信息分析模块地域信息分析模块用户浏览深度分析模块外链数据分析模块.2021-02-10 00:54:21790
0
-
原创 2021-02-07 大数据课程笔记 day18
@R星校长初识 HBasehbase 介绍概述Welcome to Apache HBase™Apache HBase™ is the Hadoop database, a distributed, scalable, big data store.Use Apache HBase™ when you need random, realtime read/write access to your Big Data. This project’s goal is the hosting of v.2021-02-07 11:34:01119
0
-
原创 2021-02-06 大数据课程笔记 day17
@R星校长Hive Lateral View、视图与索引Hive Lateral ViewLateral View 用于和 UDTF 函数(explode、split)结合来使用。首先通过 UDTF 函数拆分成多行,再将多行结果组合成一个支持别名的虚拟表。主要解决在 select 使用 UDTF 做查询过程中,查询只能包含单个 UDTF,不能包含其他字段、以及多个 UDTF 的问题语法:LATERAL VIEW udtf(expression) tableAlias AS columnA.2021-02-06 19:42:4240
0
-
原创 2021-02-05 大数据课程笔记 day16
@R星校长Hive SQLHive SerDeHive SerDe - Serializer and DeserializerSerDe 用于做序列化和反序列化。构建在数据存储和执行引擎之间,对两者实现解耦。Hive 通过 ROW FORMAT DELIMITED 以及 SERDE 进行内容的读写。row_format: DELIMITED [FIELDS TERMINATED BY char [ESCAPED BY char]] [COLLEC.2021-02-05 20:28:1688
0
-
原创 mount: 在 /dev/sr0 上找不到媒体 & mount: 挂载点 /mnt/cdrom 不存在
@R星校长遇到两个问题:mount: 在 /dev/sr0 上找不到媒体mount: 挂载点 /mnt/cdrom 不存在问题 1:灰色显示表示这个没有连接上 可移动设备勾选启动时连接,如果设备是启动状态就还要勾选已连接 ,并且连接处要选择好ISO映像文件,点击浏览,选择电脑对应位置的镜像文件。问题 2:挂在目录不存在,说明缺少文件目录,我们这个时候需要新建目录,mkdir -p 中的 - p 表示 可以在父目录中创建子目录mkdir -p /mnt/cdrom.2021-02-04 21:16:0585
0
-
原创 2021-02-04 大数据课程笔记 day15
@R星校长HiveHive简介http://hive.apache.org/Apache Hive 数据仓库软件方便了使用 SQL 读取、写入和管理驻留在分布式存储中的大型数据集。结构可以投影到已经存储的数据上。提供命令行工具和 JDBC 驱动程序将用户连接到 Hive。Hive 产生的原因:非 java 编程者通过 SQL 语句对 hdfs 的数据做 mapreduce 操作。对比项Hive关系型数据库查询语音HQLSQL数据存储HDFSLocal FS .2021-02-04 14:01:4875
0
-
原创 2021-02-03 大数据课程笔记 day14
@R星校长MapReduce 实战2 案例-2课程内容PageRankTF-IDFitemCFPageRank概念PageRank 是 Google 提出的算法,用于衡量特定网页相对于搜索引擎索引中的其他网页而言的重要程度。是 Google 创始人拉里·佩奇和谢尔盖·布林于1997年创造的 PageRank 实现了将链接价值概念作为排名因素。GOOGLE PageRank 并不是唯一的链接相关的排名算法,而是最为广泛使用的一种。其他算法还有:1、 Hilltop 算法2、 Exper.2021-02-03 23:27:5736
0
-
原创 2021-02-02 大数据课程笔记 day13
@R星校长MapReduce实战案例-1课程内容好友推荐天气案例好友推荐需求该给 hadoop 推荐哪个间接好友呢?两个人之间不认识,但是共同好友数越多,推荐的可能性越大数据集QQ:tom hello hadoop cathadoop tom hive worldworld hadoop hello hivecat tom hivemr hive hellohive cat hadoop world hello mrhello tom world hive mr特点.2021-02-02 12:31:0220
0
-
原创 2021-02-01 大数据课程笔记 day12
@R星校长mapreduce 计算流程:首先将 block 块进行逻辑切片的计算,每个切片(split)对应一个 map 任务切片是为了将 block 数量和 map 任务数量解耦。map 读取切片数据,默认按行读取,作为键值对交给 map 方法,其中 key 是当前读取的行在文件中的字节偏移量,value 就是读取的当前行的内容。map 开始计算,自定义的逻辑。map 将输出的 kv 首先写到环形缓冲区,在写之前计算分区号(默认按照 key 的 hash 值对 reducer 的个数取模)。.2021-02-01 22:23:5427
0
-
原创 2021-01-31 大数据课程笔记 day11
@R星校长课程内容mapreduce 原语(独创)mapreduce 工作流程(重点)MR 作业提交流程(重点)YARN RM-HA 搭建(熟练)运行自带的 wordcount(了解)动手写 wordcount(熟练)MapReduce 概述Google 发表了两篇论文《Google File System》 《Google MapReduce》《Google File System》简称 GFS,是 Google 公司用于解决海量数据存储的文件系统。《Google MapRedu.2021-01-31 23:17:1236
0
-
原创 CentOS 7 链接克隆的虚拟机需要改那些配置?
@R星校长拿 node0 母机的配置和 node3 链接克隆机做对比,我们会发现,UUID 和 IPADDP ,HWADDR 都一样,所以我们需要改这三个地方,其中 IPADDP 是修改一下主机地址,HWADDR 需要改成网卡新生成的硬件地址,而 UUID 直接删除,使用 Esc 模式下,光标移动到对应位置然后敲击 dd,两下 d 删除光标所在行查看/etc/udev/rules.d/ 下 是否又 70-persistent-net.rules 文件 (我机子上没有,有也可以删除,这里介绍一种.2021-01-31 18:25:1121
0
-
原创 CentOS 7 开启防火墙及特定端口 & service iptables start 报 Redirecting to /bin/systemctl start iptables.service
@R星校长2021-01-31 13:25:1318
0
-
原创 service network restart 失败 & SSH远程登录失败 & 网卡命名
Google 给出的答案,跟系统自带的 NetworkManager 这个管理套件有关系,关掉就可以解决。systemctl stop NetworkManagersystemctl disable NetworkManager重新启动网络:systemctl start network.service最好重启虚拟机或重启 reboot,再次查看网络 systemctl status network。ip addr网络正常启动,访问正常。...2021-01-31 01:14:4928
0
-
原创 2021-01-30 大数据课程笔记 day10
@R星校长课程重点HDFS 完全分布式搭建(熟练)Hadoop 3.x 新特性(了解)Hadoop Federation(了解)Hadoop HA(掌握)Hadoop HA 集群搭建(熟练)java 客户端操作 HDFS(熟练)HDFS 完全分布式搭建规划node1node2node3node4NameNodeSecondaryNameNodeDataNode-1DataNode-2DataNode-3基础设置a) 网络b) ssh.2021-01-30 15:31:1751
0
-
原创 2021-01-22 大数据课程笔记 day2
安装vmware软件(已安装的不需要重启安装)上述两个版本,根据系统不同来安装,建议使用VMware12.5.6版本的VMware。win10版本在1903,则安装15版本的vmware而我用的版本是20H2,所以索性用15pro版本 Windows 10 专业版版本号 20H2安装日期 2020-11-03操作系统版本 19042.746体验 Windows Feature Experience Pack 120.2212.551.0安装Xshell.exe和Xftp.exe2021-01-22 20:29:3363
0
-
原创 2021-01-29 大数据课程笔记 day9
@R星校长hadoop 第一天Hadoop一共六天课程:分布式存储 两天MapReduce计算 两天案例 两天第一天内容安排1T文件操作(训练)hadoop起源(了解)HDFS架构(重点)数据块副本放置策略(重点)HDFS的权限(了解)hadoop的安全模式(理解)HDFS写文件流程(重点)HDFS读文件流程(重点)伪分布式搭建(熟练)热身1T文件操作的思考:分治思想单机处理大数据的问题集群分布式处理大数据的辩证分治思想引入案例十万个元素(数字或单词.2021-01-29 21:33:25104
0
-
原创 2021-01-28 大数据课程笔记 day8
@R星校长ZooKeeper 基础为什么使用 ZooKeeper?集群存在大量服务器时,出现故障时在所难免的,那么如何快速知道哪些服务器出现故障?Nginx 作为负载均衡管理大量服务器时,管理起来比较麻烦,可以通过 zookeeper 注册服务与发现服务协作管理。以前大部分应用需要开发私有的协调程序,缺乏一个通用的机制协调程序的反复编写浪费,且难以形成通用、伸缩性好的协调器使用分布式部署后,多线程安全的问题,以前学的同步代码块、重构锁、读写锁等通通失效,怎么办?ZooKeeper概述.2021-01-28 19:53:5628
0
-
原创 2021-01-27 大数据课程笔记 day7
@R星校长Nginx问题引入单个 tomcat 支持最高并发怎么解决高并发问题,解决单个服务器过载问题?Nginx概述Nginx 介绍1、 Nginx (“engine x”) 是一个高性能的 静态HTTP 和 反向代理 服务器,也是一个 IMAP/POP3/SMTP 代理服务器。2、 第一个公开版本0.1.0发布于2004年10月4日。3、 其将源代码以类 BSD 许可证的形式发布,因它的稳定性、丰富的功能集、示例配置文件和低系统资源的消耗而闻名4、 官方测试 nginx .2021-01-27 23:54:34118
0