自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(14)
  • 收藏
  • 关注

原创 生产实习Day14-搭建本地只能知识问答系统

Langchain-chatchat项目是一个基于ChatGLM等大语言模型和Langchain应用框架的本地知识库问答应用。它旨在提供一个对中文友好、可离线运行的知识库问答解决方案。该项目利用开源的LLM和Embedding模型,支持全部使用开源模型进行私有部署,同时兼容OpenAI GPT API,保证了系统的灵活性和扩展性。基于您提供的关于Anaconda的详细信息,我将撰写一篇博客文章,介绍Anaconda如何成为数据科学项目的强大工具。大语言模型是利用机器学习技术理解和生成人类语言的AI模型。

2024-06-21 11:19:32 845

原创 生产实习Day13-大模型

Langchain-chatchat项目是一个基于ChatGLM等大语言模型和Langchain应用框架的本地知识库问答应用。它旨在提供一个对中文友好、可离线运行的知识库问答解决方案。该项目利用开源的LLM和Embedding模型,支持全部使用开源模型进行私有部署,同时兼容OpenAI GPT API,保证了系统的灵活性和扩展性。基于您提供的关于Anaconda的详细信息,我将撰写一篇博客文章,介绍Anaconda如何成为数据科学项目的强大工具。大语言模型是利用机器学习技术理解和生成人类语言的AI模型。

2024-06-20 10:02:57 993

原创 生产实习Day12-关联规则分析

复杂语言结构处理:能够处理语言中的细微差别和复杂结构。记忆与推理:模型能够记住之前的信息并用于推理,提供连贯的上下文理解。大规模语言模式学习:通过分析大量文本数据,学习并掌握语言的普遍规律。上下文理解能力:能够根据上下文环境理解词汇和短语的多种含义。NLP是让计算机理解、解释和生成人类语言的学科。它包括机器翻译、信息检索、文档分类等方向。大语言模型作为AI领域的一项突破性技术,正在不断扩展我们对机器智能的认识。

2024-06-20 09:21:00 813

原创 生产实习Day11-协同过滤推荐算法

协同过滤(Collaborative Filtering, CF)算法是推荐系统中最为经典的方法之一。它基于一个简单的假设:如果两个用户在历史上对某些物品的评分或行为表现出高度一致性,那么他们很可能对其他一些物品也有相似的偏好。智能推荐系统是连接用户和内容的桥梁。通过协同过滤算法和相似度计算,我们可以为用户提供更加个性化的推荐,从而提高用户满意度和平台的商业价值。随着技术的不断进步,未来的推荐系统将更加智能和精准。

2024-06-20 08:49:55 593

原创 生产实习Day10-SparkSQL

Spark SQL是Spark的一个关键组件,专门用于处理结构化数据。与传统的Spark RDD API相比,Spark SQL引入了DataFrame和Dataset这两种新的数据抽象,它们都带有丰富的Schema信息,使得数据操作更加直观和易于管理。当内置函数不能满足需求时,可以编写自定义函数。例如,编写一个函数来隐藏手机号中间的四位数字。// 实现自定义聚合函数的逻辑// 注册自定义函数并使用。

2024-06-19 23:19:36 976

原创 生产实习Day9-Scala基础

Scala中的类定义简洁,支持构造器重载和默认参数值。Scala的类可以包含字段、方法和类型定义。def this() = this("Default Name") // 主构造器的辅助版本namedef this() = this("Default Name") // 主构造器的辅助版本 def greet() : Unit = {") } }Scala是一种高度表达性的语言,它结合了面向对象和函数式编程的最佳特性。

2024-06-19 23:17:18 675

原创 生产实习Day8-Zookeeper安装与配置

Apache ZooKeeper是一个开源的分布式协调服务,它在分布式系统中扮演着关键角色。它提供了一个简单的接口来维护配置信息、命名、提供分布式同步以及实现组服务。ZooKeeper的数据模型采用分层的命名空间,类似于文件系统,每个节点(znode)可以存储数据和状态信息。这种模型使得分布式应用能够通过ZooKeeper进行有效的数据管理和状态同步。ZooKeeper的核心功能之一是其一致性协议ZAB(ZooKeeper Atomic Broadcast),它确保了在分布式环境中的数据一致性。

2024-06-19 23:15:21 381

原创 生产实习Day7-电商日志分析项目2

为什么要ETL:没有必要解析出所有数据,只需要解析出有价值的字段即可。本项目中需要解析出: ip、url、 pageld (topicld对应的页面ld)、 unovincecity。3.日志的ETL操作(ETL:数据从来源端经过抽取(Extract)、转换(Transform)、加载(Load)至目的端的过程)1.统计页面浏览量(每行记录就是一次浏览)2.统计各个省份的浏览量(需要解析IP)

2024-06-18 11:36:35 247

原创 生产实习Day6-电商日志分析项目1

为什么要ETL:没有必要解析出所有数据,只需要解析出有价值的字段即可。本项目中需要解析出: ip、url、 pageld (topicld对应的页面ld)、 unovincecity。3.日志的ETL操作(ETL:数据从来源端经过抽取(Extract)、转换(Transform)、加载(Load)至目的端的过程)1.统计页面浏览量(每行记录就是一次浏览)2.统计各个省份的浏览量(需要解析IP)

2024-06-18 11:13:55 263

原创 生产实习Day1-Linux基本命令

一:用户管理useradd [选项] 用户名创建一个名为tom的用户useradd tomuseradd -c “hello,I am alice” -d /home/ABC alice设置或更改tom用户的密码passwd tom删除用户:userdel -rf jerry # 删除用户账号的同时删除目录修改用户:usermod -u 1008 alice二:用户组管理创建一个普通用户组,组名称为sport_groupgroupadd sport_group将tom用户添加到sport_

2024-06-18 10:51:23 771

原创 生产实习Day4-手机流量分析项目1(代码)

该方法接受键、值以及总的分区数作为参数,并根据电话号码的开头数字返回对应的分区号。在 reduce 方法中,它遍历所有值,累加它们的上行和下行流量,并计算总流量。定义一个 Mapper 类,用于将输入的文本数据解析为键值对,并将其写入到 MapReduce 框架中的上下文中。编写一个表示访问记录的Java类,实现了Hadoop的Writable接口,以便在MapReduce作业中进行序列化和反序列化。它包括了配置作业的各种参数,设置Mapper和Reducer的类,指定输入和输出路径,并启动作业的执行。

2024-06-17 14:34:35 242

原创 生产实习Day3-手机流量分析项目1

phone==>Access(NullWritable对象,上行流量和,下行流量和)phone==>Access(手机号,该行手机号的上行流量,该行手机号的。Reducer形如:(“手机号”,)phone==>Access(手机号,上行流量和,下行流量和)行流量和+下行流量和),并且:将统计结果按照手机号的前缀。根据手机号进行分组,然后把该手机号对应的上下行流量加。统计每个手机号上行流量和、下行流量和、总流量和(上。包括属性:手机号、上行流量、下行流量、总流量。

2024-06-13 14:32:51 132

原创 生产实习Day5-hadoop运行jar包

将本地文件系统中的 /root/access.log 文件上传到 HDFS 中的 /chengyutong/input 目录下,命名为 access.log。这个文件将作为 MapReduce 的输入。运行Java 程序,该程序打包在名为 FlowAnalysisProject-1.0-SNAPSHOT.jar 的可执行 JAR 文件中。这个程序的作用是对输入文件进行处理并生成输出。列出 HDFS 中 /chengyutong/output 目录下的文件列表,用于确认成功执行并生成了输出。

2024-06-10 15:31:40 128

原创 生产实习Day2-Hadoop集群

回顾今天的学习经历,我深感收获颇丰。通过CSDN的写作实践、码云的代码管理、Hadoop集群的搭建与应用以及MapReduce流程的代码编写,我不仅掌握了新的技能和知识,也感受到了编程的乐趣和挑战。同时,我也期待将所学知识应用到实际项目中,不断提升自己的能力。

2024-06-05 00:06:55 299

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除