自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(18)
  • 收藏
  • 关注

原创 sparkcore问题记录

本文记录在利用scala操作sparkcore时出现的问题。

2023-12-04 20:56:31 364

原创 spark之action算子学习笔记(scala,pyspark双语言)

函数签名:def collect(): Array[T]功能说明:收集每个分区数据,以数组Array的形式封装后发给driver。设置driver内存:bin/spark-submit --driver-memory 10G(内存大小)注意:collect会把所有分区的数据全部拉取到driver端,如果数据量过大,可能内存溢出。图1 结果图2 结果。

2023-12-03 20:30:23 1023 1

原创 spark之transformation算子学习笔记(scala,pyspark双语言)

在排序之前,可以将数据通过f函数进行处理,之后按照f函数处理的结果进行排序,默认为正序排列。其中,键值对中的Key为第1个RDD中的元素,Value为第2个RDD中的元素。将两个RDD组合成Key/Value形式的RDD,这里要求两个RDD 的partition数量以及元素数量都相同,否则会抛出异常。rdd1.filter(func),利用func函数对rdd1里面的每个元素进行操作,保留为true的数据。rdd1.flatMap(func),利用func函数对rdd1里面的每个元素进行操作,并压平。

2023-12-02 21:33:15 882

原创 Transformer位置编码的理解

一、什么是位置编码       位置相当于坐标,是唯一的,能够定位一句话中字词的位置。Transformers模型使用位置编码(Positional encoding)来表征一个字词在序列中的位置。二、为什么需要位置编码       在任何人类语言中,字词的顺序都是非常重要的,如果调换顺序,语义可能发生很大的不同。比如以下两句话:张明欠了我300元我欠了张明300元这两句话的主体的位置发生了变化,代表的意思

2023-12-02 21:16:27 650

原创 虚拟机Linux固定IP

固定linux ip地址

2022-07-23 15:31:57 1308 1

原创 在Jupyter Lab中使用PySpark程序

spark、jupyterlab、pyspark

2022-07-23 15:08:20 1928

原创 SPARK集群搭建与验证

spark集群、集群搭建、集群验证

2022-07-23 12:29:03 1411

原创 MLP理论推导与pytorch实现

该部分介绍MLP的4种形式,并基于pytorch实现,为神经网络理解奠定基础约定向量

2022-07-16 08:11:10 492

原创 pyspark学习之——逻辑回归、模型选择与调参

       记录pyspark的MLlib库学习篇,学习资料来自spark官方文档,主要记录pyspark相关内容,要么直接翻译过来,要么加上自己的理解。spark2.4.8官方文档如下:https://spark.apache.org/docs/2.4.8/ml-classification-regression.html#logistic-regression目录一、二分类       spark的逻辑回归即可以用.

2021-12-16 15:47:12 5215

原创 pyspark学习之——特征提取、转换与选择

       记录pyspark的MLlib库学习篇,学习资料来自spark官方文档,主要记录pyspark相关内容,要么直接翻译过来,要么加上自己的理解。spark2.4.8官方文档如下: https://spark.apache.org/docs/2.4.8/ml-features.html目录一、特征提取1.1 TF-IDF1.1.1 TF1.1.2 IDF1.1.3 实例1.2 Word2Vec二、特征转换2.1 Tokenizer2.2 StopWor.

2021-12-14 17:06:44 2262

原创 逻辑回归公式推导

       本文约定:(,,,,)表示行向量(;;;;)表示列向量。       建议观看该部分内容前先对线性回归有个大致了解,可参看线性回归公式推导一、逻辑回归简介1.1 逻辑回归基础       逻辑回归虽然叫“回归”,但它实际上是一种二分类算法。逻辑回归利用Logistic函数(或称为Sigmoid函数),函数形式为:h(z)=11+e−zh(z)=\frac{1}{1+e

2021-12-14 11:46:52 1376

原创 EM算法公式推导

目录一、EM算法由来二、EM步骤三、EM算法导出一、EM算法由来       在估计模型参数的时候,一般使用贝叶斯法或者极大似然估计。但是在含有隐变量的情况下,用上述方法来估计会比较困难。于是诞生了一种近似实现对观测数据的极大似然估计,也就是EM算法。下面首先介绍为什么有隐变量的情况下,用极大似让估计会变得困难。       假设YYY表示观测变量,ZZZ表示隐变量,(Y,Z)(Y,Z)(Y,Z)合在一起的数据称为完全数据

2021-12-13 09:58:29 1403

原创 pyspark学习之——流水线Pipeline

目录一、流水线Pipeline概念二、流水线工作流程2.1 训练过程2.2 测试过程三、Estimator, Transformer, Param实例四、Pipeline实例一、流水线Pipeline概念       spark的流水线受 scikit-learn项目的启发,是对流水线式工作的一种高度抽象,通常可以包含多个机器学习流程,如:源数据ETL、数据预处理工作、指标提取、模型训练、模型验证、预测新数据等多个步骤。包含以下几个步骤:  &nbsp

2021-12-12 19:42:29 4007

原创 pyspark学习之——基本统计

       记录pyspark学习篇,学习资料来自spark官方文档,主要记录pyspark相关内容,spark2.4.8官方文档如下: https://spark.apache.org/docs/2.4.8/ml-statistics.html目录基本统计1.相关性1.1 导包1.2 本地向量生成方法1.2.1 生成稠密向量1.2.2 生成稀疏向量1.3 生成实验用本地向量2 假设检验基本统计1.相关性      &nbs.

2021-12-12 16:22:43 1587

原创 云服务器大数据高可用集群搭建-----hadoop篇

这里写自定义目录标题欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入欢迎使用Markdown编辑器【注意】主要记录自己在云端服务器搭建个人用hadoop集群过程新的改变我们对Markdo

2021-12-06 11:15:12 3682 4

原创 线性回归公式推导

【前言】很久没写个人学习笔记了,希望今天能以线性回归的推导作为一个开端,保持下去。一、数据形式线性回归作为最简单的机器学习算法之一,是后续众多复杂算法的基础,所以有必要从此处开始进行学习。在公式推导前,先给定相关的定义:假设*X*表示一个矩阵,其具体形式为:X = (...

2021-11-29 15:59:36 1182

原创 机器学习读书笔记——第一章 绪论(二)

一.假设空间设有三个数据集D={A,B,C,D}A=(色泽=青绿;根蒂=蜷缩;敲声=浊响;好瓜),B=(色泽=乌黑;根蒂=稍蜷;敲声=浊响;好瓜),C=(色泽=青绿;根蒂=硬挺;敲声=清脆;坏瓜), D=(色泽=浅白;根蒂=稍蜷;敲声=沉闷;坏瓜),        **所有属性可能的取值

2019-03-07 09:28:43 280

原创 机器学习读书笔记——第一章 绪论(一)

       今天是第一次开始在csdn上面写博客,也是开始记录周志华《机器学习》、李航《统计学习方法》等书籍的读书笔记,让自己养成良好的读书习惯,通过写笔记进一步加深理解。       周志华《机器学习》中用西瓜的例子贯穿始终。判断西瓜是否是好瓜的依据:色泽,根蒂,敲声、文理、脐部、触感等。  &nbs...

2019-03-06 15:54:04 646 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除