自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(13)
  • 收藏
  • 关注

原创 2021-03-19~20 大数据课程笔记 day58day59

@R星校长1 Scala1.1 【重点】Scala六大特性 1) 与java无缝整合 2) 类型自动推断 3) 并发和分布式 4) Trait特质特性 5) Match模式匹配 6) 高阶函数1.2 【重点】Scala & Java异同? 1) 类型定义声明不同,Scala :val/var Java强类型定义。 2) Scala中有类和对象,Java中有类。 3) Scala、java都是是基于Jvm,scala面向对象+面向函数编程,java面向对象编程。 4) .

2021-03-20 21:01:09 95 1

原创 2021-03-17~18 大数据课程笔记 day56day57

@R星校长1 基础概念和Kylin简介1.1 OLTP与OLAP  数据处理大致可以分成两大类:联机事务处理OLTP(on-line transaction processing)、联机分析处理OLAP(On-Line Analytical Processing)。1.1.1 OLTP  OLTP(On-Line Transaction Processing):联机事务处理,OLTP是传统的关系型数据库的主要应用,主要是基本的、日常的事务处理,例如银行交易。主要用于业务类系统,主要供基层人员使.

2021-03-18 20:59:25 135

原创 2021-03-14~15~16 大数据课程笔记 day53day54day55

@R星校长1. 大数据集群搭建及管理问题提出问题:需要搭建1000台服务器的集群,其中集群包含Hive、Hbase、Flume、Kafka、Spark等集群,需要多长时间搭建好?思考:搭建四台集群与搭建1000台集群的区别?比较相似。解决问题:(以搭建HDFS为例) 1. 集群环境规划:  首先我们需要进行集群基础环境的规划:比如每台节点的网络ip规划,节点时间同步,每台节点的名称,每台节点安装jdk,节点之间配置免密等。  其次需要进行Hadoop的集群规划:比如搭建HDFS的版本.

2021-03-16 22:23:11 81

原创 2021-03-13 大数据课程笔记 day52

@R星校长基于Flink的城市交通监控平台1.1 项目整体介绍  近几年来,随着国内经济的快速发展,高速公路建设步伐不断加快,全国机动车辆、驾驶员数量迅速增长,交通管理工作日益繁重,压力与日俱增。为了提高公安交通管理工作的科学化、现代化水平,缓解警力不足,加强和保障道路交通的安全、有序和畅通,减少道路交通违法和事故的发生,全国各地建设和使用了大量的“电子警察”、“高清卡口”、“固定式测速”、“区间测速”、“便携式测速”、“视频监控”、“预警系统”、“能见度天气监测系统”、“LED信息发布系统”等交通.

2021-03-13 20:30:50 54

原创 2021-03-08~09~10~11~12 大数据课程笔记 day47day48day49day50day51

@R星校长大数据技术之Flink第一章 初识Flink  在当前数据量激增的时代,各种业务场景都有大量的业务数据产生,对于这些不断产生的数据应该如何进行有效的处理,成为当下大多数公司所面临的问题。目前比较流行的大数据处理引擎Apache Spark,基本上已经取代了MapReduce成为当前大数据处理的标准。但对实时数据处理来说,Apache Spark的Spark-Streaming还有性能改进的空间。对于Spark-Streaming的流计算本质上还是批(微批)计算,Apache Flink.

2021-03-12 23:26:36 79 2

原创 2021-03-07 大数据课程笔记 day46

@R星校长机器学习06【机器学习】主要内容理解推荐系统处理数据流程。python 文件预处理 Hive 数据。dubbo 服务使用。学习目标第一节 推荐系统-数据处理流程推荐系统数据处理首先是将 Hive 中的用户 app 历史下载表与 app 浏览信息表按照设备 id 进行关联,然后将关联数据使用 python 文件进行处理,将数据预处理为 label 和 feature 两列的临时数据,后期经过处理转换成逻辑回归 模型的训练集,进而得到模型文件。数据处理流程图如下:第二节 H.

2021-03-07 12:49:33 32

原创 2021-03-06 大数据课程笔记 day45

@R星校长机器学习05【机器学习】主要内容模型评估方式理解协同过滤思想理解推荐系统架构理解推荐系统流程学习目标第一节 模型评估1. 混淆矩阵:对以上混淆矩阵的解释:P:样本数据中的正例数。N:样本数据中的负例数。Y:通过模型预测出来的正例数。N:通过模型预测出来的负例数。True Positives:真阳性,表示实际是正样本预测成正样本的样本数。Falese Positives:假阳性,表示实际是负样本预测成正样本的样本数。False Negatives:假阴性,表示.

2021-03-06 14:24:45 548

原创 2021-03-05 大数据课程笔记 day44

@R星校长机器学习04【机器学习】主要内容道路拥堵预测梯度下降法逻辑回归优化模型评估学习目标第一节 道路拥堵情况预测1. 构建训练集:每条道路的拥堵情况不仅和当前道路前一个时间点拥堵情况有关系,还和与这条道路临近的其他道路的拥堵情况有关。甚至还和昨天当前时间点当前道路是否拥堵有关联。我们可以根据这个规律,构建训练集,预测一条道路拥堵情况。假设现在要训练一个模型:使用某条道路最近三分钟拥堵的情况,预测该条道路下一分钟的拥堵情况。如何构建训练集?构建的训练集有什么样的特点,依靠训练.

2021-03-05 22:17:41 72

原创 2021-03-04 大数据课程笔记 day43

@R星校长机器学习03【机器学习】主要内容数字聚类案例TF-IDF算法微博营销案例逻辑回归算法音乐分类案例学习目标第一节 数字聚类案例1. K-means 找中心点和数据点分类例子import numpy as np #将每行数据放入一个数组内列表,返回一个二维列表def loadDataSet(fileName): #建空列表 dataMat = [] fr = open(fileName) for li.

2021-03-04 10:35:18 75 1

原创 2021-03-03 大数据课程笔记 day42

@R星校长机器学习02【机器学习】主要内容朴素贝叶斯算法拉普拉斯估计KNN 最近邻算法Kmeans 聚类算法学习目标第一节 朴素贝叶斯算法朴素贝叶斯(Naive Bayes ,NB)算法是基于贝叶斯定理与特征条件独立假设的分类方法,该算法是有监督的学习算法,解决的是分类问题,是将一个未知样本分到几个预先已知类别的过程。朴素贝叶斯的思想就是根据某些个先验概率计算Y变量属于某个类别的后验概率,也就是根据先前事件的有关数据估计未来某个事件发生的概率。1. 举例: 一个学校内有60%.

2021-03-03 12:22:34 81

原创 开发 PySpark 的准备环境

@R星校长开发 PySpark 所需准备环境 1) 安装 python 环境  下载安装Anaconda。 详细见文档 “Anaconda安装及使用.docx”。  2) 安装 PyCharm  下载安装 PyCharm。 3) 官网下载 Spark 安装包  由于 PyCharm 开发 spark 需要本地 Spark 环境,所以要在官网中下载 Spark 安装包到本地(这里我们下载 Spark1.6 版本)。  A. 进入 Spark 官网,找到对应的 Spark 版本下载。  B..

2021-03-02 16:47:54 29

原创 2021-03-02 大数据课程笔记 day41

@R星校长机器学习01【机器学习】主要内容Anconda安装使用python开发spark线性回归算法原理线性回归算法案例学习目标第一节 pySpark环境准备1).window配置python环境变量window安装python,配置python环境变量。安装python后,在环境变量path中加入安装的路径,cmd中输入python,检验python是否安装成功。 注意:如果使用的是anaconda安装的python环境,建议安装python3.5.x版本,这个版本和spar.

2021-03-02 14:58:24 69

原创 2021-03-01 大数据课程笔记 day40

@R星校长Spark优化【Spark优化内容】主要内容Spark资源优化Spark并行度优化Spark代码优化内存调优Sparkshuffle优化堆外内存优化解决数据倾斜第一节 资源优化  1) .搭建Spark集群的时候要给Spark集群足够的资源(core,memory)  在spark安装包的conf下spark-env.sh   SPARK_WORKER_CORES   SPARK_WORKER_MEMORY   SPARK_WORKER_INSTANCE  2.

2021-03-01 13:21:37 18

空空如也

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人 TA的粉丝

提示
确定要删除当前文章?
取消 删除