自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(15)
  • 收藏
  • 关注

原创 【无标题】大数据语言模型简介

引入Self Attention后会更容易捕获句子中长距离的相互依赖的特征,因为如果是RNN或者LSTM,需要依次序序列计算,对于远距离的相互依赖的特征,要经过若干时间步步骤的信息累积才能将两者联系起来,而距离越远,有效捕获的可能性越小。简单来说,NLP就是如何让计算机理解人类语言。Transformer模型是在论文《Attention Is All You Need》里面提出来的,用来生成文本的上下文编码,传统的上下问编码大多数是由RNN来完成的,不过,RNN很难处理相隔比较远的两个单词之间的信息。

2024-06-20 23:15:28 688

原创 Spark SQL整合Hive

Hive可以将SQL语句转化为MapReduce(或Apache Spark、Apache Tez)任务执行,大大降低了Hadoop的使用门槛,减少了开发MapReduce程序的时间成本。与Hive不同的是,Hive的执行引擎为MapReduce,而Spark SQL的执行引擎为Spark RDD。(1)将H I V E H O M E / c o n f 中的 h i v e − s i t e . x m l 文件复制到 HIVE_HOME/conf中的hive-site.xml文件复制到HIVE。

2024-06-20 23:12:30 200

原创 【大数据平台搭建】Hadoop 3.1.3+Spark 3.0.0集群搭建

接着,打开网络中心->更改适配器选项->VMnet 8->属性->IPv4->属性->使用下列 IP 地址。vmware、centos 7、jdk 1.8、scala 2.12.11、hadoop 3.1.3、spark 3.0.0(spark 版本对 jdk、scala 版本有要求,详见官方文档)该部分主要是 vmware的安装、centos 7 的安装和配置、 jdk、sdk 的安装以及系统变量的配置。然后,在编辑->虚拟网络编辑器中查看 VMnet 8 的子网,选中 NAT 设置查看网关。

2024-06-20 23:10:26 300

原创 #【Hadoop】hadoop配置过程避坑指南我最近在学习 Hadoop 的时候,由于刚入门的缘故,配置 Hadoop 集群的过程中遇到了很多问题,以下的每个问题都是我遇到过的,并且成功解决了的,故

OME/data/tmp/dfs/data/current与 {HADOOP_HOME}/data/tmp/dfs/name/current 中的 VERSION 文件的 clusterID 改为一致(将 name 内的覆盖到 data 中)。我最近在学习 Hadoop 的时候,由于刚入门的缘故,配置 Hadoop 集群的过程中遇到了很多问题,以下的每个问题都是我遇到过的,并且成功解决了的,故而,我将这个过程记录下来,希望可以帮助到更多的朋友。#【Hadoop】hadoop配置过程避坑指南。

2024-06-20 23:06:00 338

原创 注意力机制

注意力机制的本质就是定位到感兴趣的信息,抑制无用信息,结果通常都是以概率图或者概率特征向量的形式展示,从原理上来说,主要分为空间注意力模型,通道注意力模型,空间和通道混合注意力模型三种,这里不区分soft和hard attention。上面讲述的都是空间上的注意力机制,即关注的是不同空间位置,而在CNN结构中,还有不同的特征通道,因此不同特征通道也有类似的原理,下面一起讲述。得到了每一个特征通道的权重之后,就将该权重应用于原来的每个特征通道,基于特定的任务,就可以学习到不同通道的重要性。

2024-06-20 23:04:42 900

原创 Apriori算法——关联分析规则

先遍历1个物品组合的情况,剔除掉支持度低于最小支持度的数据项,然后用剩下的物品进行组合。假设有频繁项集 {奶茶,薯条},(这里奶茶为前件,薯条为后件),它可以生成2条关联规则:{奶茶}→{薯条}和{薯条}→{奶茶}。关联分析是探索数据之间联系的技术,而数据之间的联系,我们用关联规则来表示,表达式为:{X}→{Y}(X 和 Y 之间不存在相同项)。{X}→{Y}的提升度 = {X}→{Y}的置信度 / {Y}的支持度;{X}→{Y}的置信度 = {X,Y}的支持度 / {X}的支持度;

2024-06-20 23:00:12 254

原创 1.RDD的创建RDD的

RDD(Resilient Distributed Dataset)叫弹性分布式数据集,是Spark中对于分布式数据集的抽象。代码中是一个抽象类,它代表一个弹性的、不可变、可分区、里面的元素可并行计算的集合。4、一个Partitioner,即RDD的分片函数:控制分区的数据流向(键值对)2、在pom文件中添加spark-core的依赖和scala的编译插件··1、一组分区,即是数据集的基本组成单位,标记数据是哪个分区的。2.1.1 IDEA环境准备。2、一个计算每个分区的函数。3、RDD之间的依赖关系。

2024-06-20 22:57:23 164

原创 Spark基本运行模式

首先,需要启动 master 节点: ``` ./sbin/start-master.sh ``` 然后,需要启动 slave 节点: ``` ./bin/spark-class org.apache.spark.deploy.worker.Worker spark://Master.hadoop:7077 ``` 可以通过 Web 界面 http://masterIP:8080 查看 Master 和 Worker 节点的状态。部署和运行 Spark 的部署和运行需要考虑到具体的环境和应用场景。

2024-06-20 22:51:37 369

原创 RDD算子

Transformation 变换/转换算子可以进一步细分为三类:Value 数据类型的 Transformation 算子、Key-Value 数据类型的 Transfromation 算子和 Action 算子。Spark中的所有转化算子都是惰性的,因为它们不会立即计算结果,而只是记住对某个RDD的具体操作过程,直到遇到行动算子才会与其一起执行。​ map()是一种转化算子,它接收一个函数作为参数,并把这个函数应用于RDD的每个元素,最后将函数的返回结果作为结果RDD中对应元素的值。

2024-06-20 22:49:34 250

原创 一、准备工作【1】创建用户: useradd用户名 【2】配置创建的用户具有root权限,修改/etc/sudoers文件,找到下面一行,在root下面添加一行,如下所示:(注意:需要先给sudoe

【1】创建用户: useradd用户名 【2】配置创建的用户具有root权限,修改/etc/sudoers文件,找到下面一行,在root下面添加一行,如下所示:(注意:需要先给sudoer文件赋权限,修改完会后,将权限修改回来)修改完毕,现在可以用创建的帐号登录,然后用命令su - ,即可获得root权限进行操作。-rw-r--r--. 1 10011 10011 15429 1月 26 2016 LICENSE.txt。#将下面的 $JAVA_HOME 修改为绝对路径,下面一行为默认的,错误展示。

2024-06-20 22:47:06 102

原创 【无标题】Spark SQL介绍

SparkSession允许用户通过它调用DataFrame和Dataset相关API来编写Spark程序,支持从不同的数据源加载数据,并把数据转换成DataFrame,然后使用SQL语句来操作DataFrame数据。​ Spark SQL允许使用SQL或熟悉的API在Spark程序中查询结构化数据。Spark Shell启动时除了默认创建一个名为sc的SparkContext的实例外,还创建了一个名为spark的SparkSession实例,该spark变量可以在Spark Shell中直接使用。

2024-06-20 22:34:17 173

原创 ZooKeeper安装

ZooKeeper服务器是用Java创建的,它运行在JVM之上。需要安装JDK 7或更高版本。我采用的似乎JDK1.8版本。

2024-06-14 18:22:38 264

原创 Hive配置与安装(包含MySQL)

Hive

2024-06-14 16:20:55 392

原创 Hadoop单机伪分布式(集群搭建)

Hadoop单机伪分布式,集群搭建

2024-06-14 15:54:11 293

原创 手机流量分析项目

类,"13"开头的手机号交给第一个ReduceTask任务处理,最终输出到0号分区,"15"开头的手机号交给第二个ReduceTask任务处理,最终输出到1号分区,其余手机号交给第三个。统计每个手机号上行流量和、下行流量和、总流量和(上行流量和+下行流量和),并且:将统计结果按照手机号的前缀进行区分,并输出到不同的输出文件中去。phone==>Access(手机号,该行手机号的上行流量,该行手机号的下行流量)phone==>Access(手机号,上行流量和,下行流量和)把手机号、上行流量、下行流量拆开。

2024-06-05 11:09:11 268

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除