m0_63063186-CSDN博客

原创 HBase理论

HBase 是一个面向列式存储的分布式数据库，HBase 底层存储基于 HDFS 实现，集群的管理基于 ZooKeeper 实现。

2024-06-20 23:29:03 321

预训练的主要目的是通过大规模无监督学习来为模型提供初始的参数和表示。总的来说，预训练是一种利用大规模无监督学习的方法，通过学习数据的内部表示来为模型提供初始参数和特征表示，为后续的具体任务提供更好的初始状态，从而提高模型的性能和泛化能力。微调（Fine-tuning）是指在预训练（Pre-training）阶段之后，使用特定任务的有标签数据对模型进行进一步的训练和调整参数，以使其在目标任务上获得更好的性能。在微调过程中，预训练得到的模型参数作为初始状态，然后在特定任务的有标签数据上进行训练。

2024-06-20 23:22:05 398

原创智能推荐系统

人们经常会在视频平台上观看影片，有时目标明确，想要观看某部电影，但有时仅仅是随机搜寻。如果视频平台可以利用基于物品的智能推荐系统，有效地从用户对其观看过的电影的评分中挖掘数据，便可以根据用户偏好的电影个性化地推荐更多类似的电影，优化用户体验，提高用户粘性，创造额外收入。

2024-06-20 23:19:29 827

原创 Spark SQL基本使用

Spark SQL是一个用于结构化数据处理的Spark组件。所谓结构化数据，是指具有Schema信息的数据，例如JSON、Parquet、Avro、CSV格式的数据。与基础的Spark RDD API不同，Spark SQL提供了对结构化数据的查询和计算接口。将SQL查询与Spark应用程序无缝组合 Spark SQL允许使用SQL或熟悉的API在Spark程序中查询结构化数据。

2024-06-20 23:17:06 518

原创 Spark RDD的创建

Spark提供了一种对数据的核心抽象，称为弹性分布式数据集（Resilient Distributed Dataset，简称RDD）。这个数据集的全部或部分可以缓存在内存中，并且可以在多次计算时重用。RDD其实就是一个分布在多个节点上的数据集合。 RDD的弹性主要是指：当内存不够时，数据可以持久化到磁盘，并且RDD具有高效的容错能力。分布式数据集是指：一个数据集存储在不同的节点上，每个节点存储数据集的一部分。

2024-06-20 23:13:36 326

原创 HBase基本操作演示

总体上说，ZooKeeper提供了可靠的分布式协调服务，而HBase利用ZooKeeper来实现高可用性、数据一致性和元数据管理等功能，从而使得在大规模分布式环境下运行的HBase数据库更加稳定和可靠。（1）ZooKeeper为HBase提供了可靠的协调服务：HBase使用ZooKeeper来进行集群中各个节点之间的通信和协调。**注意：**修改数据后，其实只是在原来的基础上增加了一条数据，查询的时候返回了时间戳最新的一个版本，旧版本的数据还在；会发现删除的数据有Delete标注。

2024-06-20 23:10:36 371

原创 zookeeper基本操作

ZooKeeper是一个树形目录服务,每一个节点都被称为ZNode，每个节点。上都会保存自己的数据和节点信息。节点可以拥有子节点，同时也允许少量。（1MB）数据存储在该节点上。

2024-06-20 23:10:07 169

原创 Hive基本操作

原因：手动在hdfs创建的分区目录信息，并没有保存到元数据库中，所以查询的时候从mysql元数据库查询不到country=en的分区信息，所以查不到数据。方案一（手动修复）：想要读取到country=en分区的数据，可以添加country=en分区的元数据信息到mysql。思考：能否手动在hdfs添加一个分区目录country=en，并上传文件数据，那么在分区表中能否查到新的分区数据呢？内部表又称受控表，当删除内部表的时候，存储在文件系统上的数据（例。不存在的，需要在添加数据的时候手动指定。

2024-06-20 23:07:07 363

原创电商日志数据分析（3）

在本项目中，需要提取日志中的IP、URL、pageId（topicId对应的页面Id）、country、province、city字段。3 . 日志的ETL操作（ETL：数据从来源端经过抽取（Extract）、转换（Transform）、加载（Load）至目的端的过程）Transform（转换）：将提取的数据转换成适合分析的格式，例如，将IP地址转换为地理位置信息（国家、省份、城市）。Load（加载）：将转换后的数据加载到目标数据库或数据仓库中，以便进一步分析。

2024-06-20 19:47:28 293

原创电商日志数据分析（2）

根据电商日志文件，分析：1 . 统计页面浏览量（每行记录就是一次浏览）2 . 统计各个省份的浏览量（需要解析IP）3 . 日志的ETL操作（ETL：数据从来源端经过抽取（Extract）、转换（Transform）、加载（Load）至目的端的过程）为什么要ETL：没有必要解析出所有数据，只需要解析出有价值的字段即可。本项目中需要解析出：ip、url、pageId（topicId对应的页面Id）、country、province、city。

2024-06-20 19:43:57 106

原创电商日志数据分析（1）

new IntWritable(1)：创建一个新的IntWritable对象，作为输出的值，这里硬编码为1，意味着每个输入行都会产生一个值为1的输出。：对于集合中的每个IntWritable对象，调用它的get方法获取其整数值，并将其加到- sum变量上。new Text(“line”)：创建一个新的Text对象，作为输出的键。：这里result是一个IntWritable对象，通过调用它的set方法来设置累加后的总和值。Context context：Reducer的上下文对象，用于写入最终的输出结果。

2024-06-20 19:39:40 612

原创手机流量统计项目

继承org.apache.hadoop.mapreduce.Partitioner类，"13"开头的手机号交给第一个ReduceTask任务处理，最终输出到0号分区，"15"开头的手机号交给第二个ReduceTask任务处理，最终输出到1号分区，其余手机号交给第三个ReduceTask任务处理，最终输出到2号分区。统计每个手机号上行流量和、下行流量和、总流量和（上行流量和+下行流量和）,并且：将统计结果按照手机号的前缀进行区分，并输出到不同的输出文件中去。二、创建java项目编写MapReduce程序。

2024-06-20 19:34:33 812

m0_63063186的博客