屋顶橙子味cheng-CSDN博客

原创生产实习Day14-搭建本地只能知识问答系统

Langchain-chatchat项目是一个基于ChatGLM等大语言模型和Langchain应用框架的本地知识库问答应用。它旨在提供一个对中文友好、可离线运行的知识库问答解决方案。该项目利用开源的LLM和Embedding模型，支持全部使用开源模型进行私有部署，同时兼容OpenAI GPT API，保证了系统的灵活性和扩展性。基于您提供的关于Anaconda的详细信息，我将撰写一篇博客文章，介绍Anaconda如何成为数据科学项目的强大工具。大语言模型是利用机器学习技术理解和生成人类语言的AI模型。

2024-06-21 11:19:32 1015

原创生产实习Day13-大模型

Langchain-chatchat项目是一个基于ChatGLM等大语言模型和Langchain应用框架的本地知识库问答应用。它旨在提供一个对中文友好、可离线运行的知识库问答解决方案。该项目利用开源的LLM和Embedding模型，支持全部使用开源模型进行私有部署，同时兼容OpenAI GPT API，保证了系统的灵活性和扩展性。基于您提供的关于Anaconda的详细信息，我将撰写一篇博客文章，介绍Anaconda如何成为数据科学项目的强大工具。大语言模型是利用机器学习技术理解和生成人类语言的AI模型。

2024-06-20 10:02:57 1181

原创生产实习Day12-关联规则分析

复杂语言结构处理：能够处理语言中的细微差别和复杂结构。记忆与推理：模型能够记住之前的信息并用于推理，提供连贯的上下文理解。大规模语言模式学习：通过分析大量文本数据，学习并掌握语言的普遍规律。上下文理解能力：能够根据上下文环境理解词汇和短语的多种含义。NLP是让计算机理解、解释和生成人类语言的学科。它包括机器翻译、信息检索、文档分类等方向。大语言模型作为AI领域的一项突破性技术，正在不断扩展我们对机器智能的认识。

2024-06-20 09:21:00 981

原创生产实习Day11-协同过滤推荐算法

协同过滤（Collaborative Filtering, CF）算法是推荐系统中最为经典的方法之一。它基于一个简单的假设：如果两个用户在历史上对某些物品的评分或行为表现出高度一致性，那么他们很可能对其他一些物品也有相似的偏好。智能推荐系统是连接用户和内容的桥梁。通过协同过滤算法和相似度计算，我们可以为用户提供更加个性化的推荐，从而提高用户满意度和平台的商业价值。随着技术的不断进步，未来的推荐系统将更加智能和精准。

2024-06-20 08:49:55 778

原创生产实习Day10-SparkSQL

Spark SQL是Spark的一个关键组件，专门用于处理结构化数据。与传统的Spark RDD API相比，Spark SQL引入了DataFrame和Dataset这两种新的数据抽象，它们都带有丰富的Schema信息，使得数据操作更加直观和易于管理。当内置函数不能满足需求时，可以编写自定义函数。例如，编写一个函数来隐藏手机号中间的四位数字。// 实现自定义聚合函数的逻辑// 注册自定义函数并使用。

2024-06-19 23:19:36 1137

原创生产实习Day9-Scala基础

Scala中的类定义简洁，支持构造器重载和默认参数值。Scala的类可以包含字段、方法和类型定义。def this() = this("Default Name") // 主构造器的辅助版本namedef this() = this("Default Name") // 主构造器的辅助版本 def greet() : Unit = {") } }Scala是一种高度表达性的语言，它结合了面向对象和函数式编程的最佳特性。

2024-06-19 23:17:18 864

原创生产实习Day8-Zookeeper安装与配置

Apache ZooKeeper是一个开源的分布式协调服务，它在分布式系统中扮演着关键角色。它提供了一个简单的接口来维护配置信息、命名、提供分布式同步以及实现组服务。ZooKeeper的数据模型采用分层的命名空间，类似于文件系统，每个节点（znode）可以存储数据和状态信息。这种模型使得分布式应用能够通过ZooKeeper进行有效的数据管理和状态同步。ZooKeeper的核心功能之一是其一致性协议ZAB（ZooKeeper Atomic Broadcast），它确保了在分布式环境中的数据一致性。

2024-06-19 23:15:21 491

原创生产实习Day7-电商日志分析项目2

为什么要ETL:没有必要解析出所有数据，只需要解析出有价值的字段即可。本项目中需要解析出: ip、url、 pageld (topicld对应的页面ld)、 unovincecity。3.日志的ETL操作(ETL:数据从来源端经过抽取(Extract)、转换(Transform)、加载(Load)至目的端的过程)1.统计页面浏览量(每行记录就是一次浏览)2.统计各个省份的浏览量(需要解析IP)

2024-06-18 11:36:35 360

原创生产实习Day6-电商日志分析项目1

为什么要ETL:没有必要解析出所有数据，只需要解析出有价值的字段即可。本项目中需要解析出: ip、url、 pageld (topicld对应的页面ld)、 unovincecity。3.日志的ETL操作(ETL:数据从来源端经过抽取(Extract)、转换(Transform)、加载(Load)至目的端的过程)1.统计页面浏览量(每行记录就是一次浏览)2.统计各个省份的浏览量(需要解析IP)

2024-06-18 11:13:55 405

原创生产实习Day1-Linux基本命令

一：用户管理useradd [选项] 用户名创建一个名为tom的用户useradd tomuseradd -c “hello,I am alice” -d /home/ABC alice设置或更改tom用户的密码passwd tom删除用户：userdel -rf jerry # 删除用户账号的同时删除目录修改用户：usermod -u 1008 alice二：用户组管理创建一个普通用户组，组名称为sport_groupgroupadd sport_group将tom用户添加到sport_

2024-06-18 10:51:23 900

原创生产实习Day4-手机流量分析项目1（代码）

该方法接受键、值以及总的分区数作为参数，并根据电话号码的开头数字返回对应的分区号。在 reduce 方法中，它遍历所有值，累加它们的上行和下行流量，并计算总流量。定义一个 Mapper 类，用于将输入的文本数据解析为键值对，并将其写入到 MapReduce 框架中的上下文中。编写一个表示访问记录的Java类，实现了Hadoop的Writable接口，以便在MapReduce作业中进行序列化和反序列化。它包括了配置作业的各种参数，设置Mapper和Reducer的类，指定输入和输出路径，并启动作业的执行。

2024-06-17 14:34:35 327

m0_62223331的博客