Harry~D-CSDN博客

原创【无标题】大数据语言模型简介

引入Self Attention后会更容易捕获句子中长距离的相互依赖的特征，因为如果是RNN或者LSTM，需要依次序序列计算，对于远距离的相互依赖的特征，要经过若干时间步步骤的信息累积才能将两者联系起来，而距离越远，有效捕获的可能性越小。简单来说，NLP就是如何让计算机理解人类语言。Transformer模型是在论文《Attention Is All You Need》里面提出来的，用来生成文本的上下文编码，传统的上下问编码大多数是由RNN来完成的，不过，RNN很难处理相隔比较远的两个单词之间的信息。

2024-06-20 23:15:28 688

原创 Spark SQL整合Hive

Hive可以将SQL语句转化为MapReduce（或Apache Spark、Apache Tez）任务执行，大大降低了Hadoop的使用门槛，减少了开发MapReduce程序的时间成本。与Hive不同的是，Hive的执行引擎为MapReduce，而Spark SQL的执行引擎为Spark RDD。（1）将H I V E H O M E / c o n f 中的 h i v e − s i t e . x m l 文件复制到 HIVE_HOME/conf中的hive-site.xml文件复制到HIVE。

2024-06-20 23:12:30 200

原创【大数据平台搭建】Hadoop 3.1.3+Spark 3.0.0集群搭建

接着，打开网络中心->更改适配器选项->VMnet 8->属性->IPv4->属性->使用下列 IP 地址。vmware、centos 7、jdk 1.8、scala 2.12.11、hadoop 3.1.3、spark 3.0.0（spark 版本对 jdk、scala 版本有要求，详见官方文档）该部分主要是 vmware的安装、centos 7 的安装和配置、 jdk、sdk 的安装以及系统变量的配置。然后，在编辑->虚拟网络编辑器中查看 VMnet 8 的子网，选中 NAT 设置查看网关。

2024-06-20 23:10:26 300

原创 #【Hadoop】hadoop配置过程避坑指南我最近在学习 Hadoop 的时候，由于刚入门的缘故，配置 Hadoop 集群的过程中遇到了很多问题，以下的每个问题都是我遇到过的，并且成功解决了的，故

OME/data/tmp/dfs/data/current与 {HADOOP_HOME}/data/tmp/dfs/name/current 中的 VERSION 文件的 clusterID 改为一致（将 name 内的覆盖到 data 中）。我最近在学习 Hadoop 的时候，由于刚入门的缘故，配置 Hadoop 集群的过程中遇到了很多问题，以下的每个问题都是我遇到过的，并且成功解决了的，故而，我将这个过程记录下来，希望可以帮助到更多的朋友。#【Hadoop】hadoop配置过程避坑指南。

2024-06-20 23:06:00 338

原创注意力机制

注意力机制的本质就是定位到感兴趣的信息，抑制无用信息，结果通常都是以概率图或者概率特征向量的形式展示，从原理上来说，主要分为空间注意力模型，通道注意力模型，空间和通道混合注意力模型三种，这里不区分soft和hard attention。上面讲述的都是空间上的注意力机制，即关注的是不同空间位置，而在CNN结构中，还有不同的特征通道，因此不同特征通道也有类似的原理，下面一起讲述。得到了每一个特征通道的权重之后，就将该权重应用于原来的每个特征通道，基于特定的任务，就可以学习到不同通道的重要性。

2024-06-20 23:04:42 900

原创 Apriori算法——关联分析规则

先遍历1个物品组合的情况，剔除掉支持度低于最小支持度的数据项，然后用剩下的物品进行组合。假设有频繁项集 {奶茶，薯条}，（这里奶茶为前件，薯条为后件），它可以生成2条关联规则：{奶茶}→{薯条}和{薯条}→{奶茶}。关联分析是探索数据之间联系的技术，而数据之间的联系，我们用关联规则来表示，表达式为：{X}→{Y}（X 和 Y 之间不存在相同项）。{X}→{Y}的提升度 = {X}→{Y}的置信度 / {Y}的支持度；{X}→{Y}的置信度 = {X，Y}的支持度 / {X}的支持度；

2024-06-20 23:00:12 254

原创 1.RDD的创建RDD的

RDD(Resilient Distributed Dataset)叫弹性分布式数据集，是Spark中对于分布式数据集的抽象。代码中是一个抽象类，它代表一个弹性的、不可变、可分区、里面的元素可并行计算的集合。4、一个Partitioner，即RDD的分片函数：控制分区的数据流向（键值对）2、在pom文件中添加spark-core的依赖和scala的编译插件··1、一组分区，即是数据集的基本组成单位，标记数据是哪个分区的。2.1.1 IDEA环境准备。2、一个计算每个分区的函数。3、RDD之间的依赖关系。

2024-06-20 22:57:23 164

原创 Spark基本运行模式

首先，需要启动 master 节点： ``` ./sbin/start-master.sh ``` 然后，需要启动 slave 节点： ``` ./bin/spark-class org.apache.spark.deploy.worker.Worker spark://Master.hadoop:7077 ``` 可以通过 Web 界面 http://masterIP:8080 查看 Master 和 Worker 节点的状态。部署和运行 Spark 的部署和运行需要考虑到具体的环境和应用场景。

2024-06-20 22:51:37 369

原创 RDD算子

Transformation 变换/转换算子可以进一步细分为三类：Value 数据类型的 Transformation 算子、Key-Value 数据类型的 Transfromation 算子和 Action 算子。Spark中的所有转化算子都是惰性的，因为它们不会立即计算结果，而只是记住对某个RDD的具体操作过程，直到遇到行动算子才会与其一起执行。 map()是一种转化算子，它接收一个函数作为参数，并把这个函数应用于RDD的每个元素，最后将函数的返回结果作为结果RDD中对应元素的值。

2024-06-20 22:49:34 250

原创一、准备工作【1】创建用户： useradd用户名【2】配置创建的用户具有root权限，修改/etc/sudoers文件，找到下面一行，在root下面添加一行，如下所示：（注意：需要先给sudoe

【1】创建用户： useradd用户名【2】配置创建的用户具有root权限，修改/etc/sudoers文件，找到下面一行，在root下面添加一行，如下所示：（注意：需要先给sudoer文件赋权限，修改完会后，将权限修改回来）修改完毕，现在可以用创建的帐号登录，然后用命令su - ，即可获得root权限进行操作。-rw-r--r--. 1 10011 10011 15429 1月 26 2016 LICENSE.txt。#将下面的 $JAVA_HOME 修改为绝对路径，下面一行为默认的，错误展示。

2024-06-20 22:47:06 102

原创【无标题】Spark SQL介绍

SparkSession允许用户通过它调用DataFrame和Dataset相关API来编写Spark程序，支持从不同的数据源加载数据，并把数据转换成DataFrame，然后使用SQL语句来操作DataFrame数据。 Spark SQL允许使用SQL或熟悉的API在Spark程序中查询结构化数据。Spark Shell启动时除了默认创建一个名为sc的SparkContext的实例外，还创建了一个名为spark的SparkSession实例，该spark变量可以在Spark Shell中直接使用。

2024-06-20 22:34:17 173

原创 ZooKeeper安装

ZooKeeper服务器是用Java创建的，它运行在JVM之上。需要安装JDK 7或更高版本。我采用的似乎JDK1.8版本。

2024-06-14 18:22:38 264

原创 Hive配置与安装（包含MySQL）

Hive

2024-06-14 16:20:55 392

原创 Hadoop单机伪分布式（集群搭建）

Hadoop单机伪分布式，集群搭建

2024-06-14 15:54:11 293

原创手机流量分析项目

类，"13"开头的手机号交给第一个ReduceTask任务处理，最终输出到0号分区，"15"开头的手机号交给第二个ReduceTask任务处理，最终输出到1号分区，其余手机号交给第三个。统计每个手机号上行流量和、下行流量和、总流量和（上行流量和+下行流量和）,并且：将统计结果按照手机号的前缀进行区分，并输出到不同的输出文件中去。phone==>Access(手机号,该行手机号的上行流量,该行手机号的下行流量)phone==>Access(手机号,上行流量和,下行流量和)把手机号、上行流量、下行流量拆开。

2024-06-05 11:09:11 268

m0_64823626的博客