自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(12)
  • 收藏
  • 关注

原创 Scala

Scala是一种运行在Java平台上的语言,能够编译成JVM字节码。它不仅支持面向对象的编程范式,还融入了函数式编程的特性,使其在处理复杂编程模式时更为灵活和强大。Scala的类定义使用 class 关键字,支持主构造器和辅助构造器。

2024-06-23 13:00:27 347

原创 【无标题】

在当今快速发展的人工智能领域,大语言模型(LLMs)和本地智能知识问答系统的开发已成为推动自然语言处理(NLP)技术前进的两大驱动力。本文将综合探讨大语言模型的关键技术、应用场景、挑战与未来发展趋势,并介绍如何基于Langchain-chatchat搭建一个本地知识问答系统,实现数据安全保护和私域化部署。

2024-06-23 12:55:10 404

原创 智能推荐系统

​ 人们经常会在视频平台上观看影片,有时目标明确,想要观看某部电影,但有时仅仅是随机搜寻。​ 如果视频平台可以利用基于物品的智能推荐系统,有效地从用户对其观看过的电影的评分中挖掘数据,便可以根据用户偏好的电影个性化地推荐更多类似的电影,优化用户体验,提高用户粘性,创造额外收入。

2024-06-21 14:43:18 927

原创 手机流量统计项目

"15"开头的手机号交给第二个ReduceTask任务处理,最终输出到1号分区,其余手机号交给第三个ReduceTask任务处理,最终输出到2号分区。–统计每个手机号上行流量和、下行流量和、总流量和(上行流量和+下行流量和),并且:将统计结果按照手机号的前缀进行区分,并输出到不同的输出文件中去。phone==>Access(手机号,该行手机号的上行流量,该行手机号的下行流量)1.自定义Access类: 包括属性:手机号、上行流量、下行流量、总流量。Mapper: 把手机号、上行流量、下行流量拆开。

2024-06-21 14:38:52 124 1

原创 Zookeeper安装

进入/export/software目录下,将tar包解压到/export/servers目录下。ZooKeeper服务器是用Java创建的,它运行在JVM之上。需要安装JDK 7或更高版本。zookeeper启动成功。standalone代表zk没有搭建集群,现在是单节点。将下载的ZooKeeper放到/export/software目录下。修改存储目录:dataDir=/export/data/zkdata。进入到conf目录拷贝一个zoo_sample.cfg并完成配置。

2024-06-21 14:33:22 212

原创 park SQL整合Hive的步骤

Spark SQL与Hive的整合分为三个步骤:(1)将HIVEH​OMEconf中的hive−sitexml文件复制到(2)在Spark配置文件spark-env.sh中指定Hadoop及其配置文件的主目录(根据自己的Hadoop安装目录修改)。(3) 将MySQL驱动JAR包复制到$SPARK_HOME/jars目录中(根据自己的目录复制)。

2024-06-21 14:26:34 708

原创 Spark SQL基本使用

​ Spark SQL是一个用于结构化数据处理的Spark组件。所谓结构化数据,是指具有Schema信息的数据,例如JSON、Parquet、Avro、CSV格式的数据。与基础的Spark RDD API不同,Spark SQL提供了对结构化数据的查询和计算接口。将SQL查询与Spark应用程序无缝组合​ Spark SQL允许使用SQL或熟悉的API在Spark程序中查询结构化数据。

2024-06-21 14:25:43 751

原创 【无标题】

唯一不同的是,Spark Shell本身为集群的client提交方式运行,不支持cluster提交方式,即使用Spark Shell时,Driver运行于本地客户端,而不能运行于集群中。​ Driver为主控进程,负责执行应用程序的main()方法,创建SparkContext对象(负责与Spark集群进行交互),提交Spark作业,并将作业转化为Task(一个作业由多个Task任务组成),然后在各个Executor进程间对Task进行调度和监控。通常用SparkContext代表Driver。

2024-06-21 14:14:23 919

原创 【无标题】

(8)拷贝mysql驱动jar 到/export/servers/apache-hive-3.1.3-bin/lib。(4)修改$HADOOP_HOME/etc/hadoop/core-site.xml 开启hadoop代理功能。第二种:beeline -u jdbc:hive2://localhost:10000 -n root。(5) 拷贝hive-env.sh.template模版配置文件为hive-env.sh。(9) 删除冲突的log4j(log4j-slf4j-impl-2.4.1.jar)

2024-06-21 14:04:49 302

原创 【无标题】

原因:手动在hdfs创建的分区目录信息,并没有保存到元数据库中,所以查询的时候从mysql元数据库查询不到country=en的分区信息,所以查不到数据。方案一(手动修复):想要读取到country=en分区的数据,可以添加country=en分区的元数据信息到mysql。思考:能否手动在hdfs添加一个分区目录country=en,并上传文件数据,那么在分区表中能否查到新的分区数据呢?​ 内部表又称受控表,当删除内部表的时候,存储在文件系统上的数据(例。不存在的,需要在添加数据的时候手动指定。

2024-06-21 13:56:14 727

原创 【无标题】

*注意:**修改数据后,其实只是在原来的基础上增加了一条数据,查询的时候返回了时间戳最新的一个版本,旧版本的数据还在;​ 旧版本的数据在适当的时候会被释放;如果想要保留最新两个版本的数据,可以将某个表的 VERSIONS设置为2。**注意:**创建表时若不指定库名,则默认在default库下创建表,创建表需要至少指定一个列族。truncate命令将删除表中的所有数据行,但是保留表的结构和配置信息。**注意:**删除表需要先进行disable,再进行drop。此时查询会发现无数据。

2024-06-21 13:53:07 405

原创 【无标题】

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档。

2024-06-19 16:14:58 638

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除