- 博客(14)
- 收藏
- 关注
原创 生产实习Day14-搭建本地只能知识问答系统
Langchain-chatchat项目是一个基于ChatGLM等大语言模型和Langchain应用框架的本地知识库问答应用。它旨在提供一个对中文友好、可离线运行的知识库问答解决方案。该项目利用开源的LLM和Embedding模型,支持全部使用开源模型进行私有部署,同时兼容OpenAI GPT API,保证了系统的灵活性和扩展性。基于您提供的关于Anaconda的详细信息,我将撰写一篇博客文章,介绍Anaconda如何成为数据科学项目的强大工具。大语言模型是利用机器学习技术理解和生成人类语言的AI模型。
2024-06-21 11:19:32
845
原创 生产实习Day13-大模型
Langchain-chatchat项目是一个基于ChatGLM等大语言模型和Langchain应用框架的本地知识库问答应用。它旨在提供一个对中文友好、可离线运行的知识库问答解决方案。该项目利用开源的LLM和Embedding模型,支持全部使用开源模型进行私有部署,同时兼容OpenAI GPT API,保证了系统的灵活性和扩展性。基于您提供的关于Anaconda的详细信息,我将撰写一篇博客文章,介绍Anaconda如何成为数据科学项目的强大工具。大语言模型是利用机器学习技术理解和生成人类语言的AI模型。
2024-06-20 10:02:57
993
原创 生产实习Day12-关联规则分析
复杂语言结构处理:能够处理语言中的细微差别和复杂结构。记忆与推理:模型能够记住之前的信息并用于推理,提供连贯的上下文理解。大规模语言模式学习:通过分析大量文本数据,学习并掌握语言的普遍规律。上下文理解能力:能够根据上下文环境理解词汇和短语的多种含义。NLP是让计算机理解、解释和生成人类语言的学科。它包括机器翻译、信息检索、文档分类等方向。大语言模型作为AI领域的一项突破性技术,正在不断扩展我们对机器智能的认识。
2024-06-20 09:21:00
813
原创 生产实习Day11-协同过滤推荐算法
协同过滤(Collaborative Filtering, CF)算法是推荐系统中最为经典的方法之一。它基于一个简单的假设:如果两个用户在历史上对某些物品的评分或行为表现出高度一致性,那么他们很可能对其他一些物品也有相似的偏好。智能推荐系统是连接用户和内容的桥梁。通过协同过滤算法和相似度计算,我们可以为用户提供更加个性化的推荐,从而提高用户满意度和平台的商业价值。随着技术的不断进步,未来的推荐系统将更加智能和精准。
2024-06-20 08:49:55
593
原创 生产实习Day10-SparkSQL
Spark SQL是Spark的一个关键组件,专门用于处理结构化数据。与传统的Spark RDD API相比,Spark SQL引入了DataFrame和Dataset这两种新的数据抽象,它们都带有丰富的Schema信息,使得数据操作更加直观和易于管理。当内置函数不能满足需求时,可以编写自定义函数。例如,编写一个函数来隐藏手机号中间的四位数字。// 实现自定义聚合函数的逻辑// 注册自定义函数并使用。
2024-06-19 23:19:36
976
原创 生产实习Day9-Scala基础
Scala中的类定义简洁,支持构造器重载和默认参数值。Scala的类可以包含字段、方法和类型定义。def this() = this("Default Name") // 主构造器的辅助版本namedef this() = this("Default Name") // 主构造器的辅助版本 def greet() : Unit = {") } }Scala是一种高度表达性的语言,它结合了面向对象和函数式编程的最佳特性。
2024-06-19 23:17:18
675
原创 生产实习Day8-Zookeeper安装与配置
Apache ZooKeeper是一个开源的分布式协调服务,它在分布式系统中扮演着关键角色。它提供了一个简单的接口来维护配置信息、命名、提供分布式同步以及实现组服务。ZooKeeper的数据模型采用分层的命名空间,类似于文件系统,每个节点(znode)可以存储数据和状态信息。这种模型使得分布式应用能够通过ZooKeeper进行有效的数据管理和状态同步。ZooKeeper的核心功能之一是其一致性协议ZAB(ZooKeeper Atomic Broadcast),它确保了在分布式环境中的数据一致性。
2024-06-19 23:15:21
381
原创 生产实习Day7-电商日志分析项目2
为什么要ETL:没有必要解析出所有数据,只需要解析出有价值的字段即可。本项目中需要解析出: ip、url、 pageld (topicld对应的页面ld)、 unovincecity。3.日志的ETL操作(ETL:数据从来源端经过抽取(Extract)、转换(Transform)、加载(Load)至目的端的过程)1.统计页面浏览量(每行记录就是一次浏览)2.统计各个省份的浏览量(需要解析IP)
2024-06-18 11:36:35
247
原创 生产实习Day6-电商日志分析项目1
为什么要ETL:没有必要解析出所有数据,只需要解析出有价值的字段即可。本项目中需要解析出: ip、url、 pageld (topicld对应的页面ld)、 unovincecity。3.日志的ETL操作(ETL:数据从来源端经过抽取(Extract)、转换(Transform)、加载(Load)至目的端的过程)1.统计页面浏览量(每行记录就是一次浏览)2.统计各个省份的浏览量(需要解析IP)
2024-06-18 11:13:55
263
原创 生产实习Day1-Linux基本命令
一:用户管理useradd [选项] 用户名创建一个名为tom的用户useradd tomuseradd -c “hello,I am alice” -d /home/ABC alice设置或更改tom用户的密码passwd tom删除用户:userdel -rf jerry # 删除用户账号的同时删除目录修改用户:usermod -u 1008 alice二:用户组管理创建一个普通用户组,组名称为sport_groupgroupadd sport_group将tom用户添加到sport_
2024-06-18 10:51:23
771
原创 生产实习Day4-手机流量分析项目1(代码)
该方法接受键、值以及总的分区数作为参数,并根据电话号码的开头数字返回对应的分区号。在 reduce 方法中,它遍历所有值,累加它们的上行和下行流量,并计算总流量。定义一个 Mapper 类,用于将输入的文本数据解析为键值对,并将其写入到 MapReduce 框架中的上下文中。编写一个表示访问记录的Java类,实现了Hadoop的Writable接口,以便在MapReduce作业中进行序列化和反序列化。它包括了配置作业的各种参数,设置Mapper和Reducer的类,指定输入和输出路径,并启动作业的执行。
2024-06-17 14:34:35
242
原创 生产实习Day3-手机流量分析项目1
phone==>Access(NullWritable对象,上行流量和,下行流量和)phone==>Access(手机号,该行手机号的上行流量,该行手机号的。Reducer形如:(“手机号”,)phone==>Access(手机号,上行流量和,下行流量和)行流量和+下行流量和),并且:将统计结果按照手机号的前缀。根据手机号进行分组,然后把该手机号对应的上下行流量加。统计每个手机号上行流量和、下行流量和、总流量和(上。包括属性:手机号、上行流量、下行流量、总流量。
2024-06-13 14:32:51
132
原创 生产实习Day5-hadoop运行jar包
将本地文件系统中的 /root/access.log 文件上传到 HDFS 中的 /chengyutong/input 目录下,命名为 access.log。这个文件将作为 MapReduce 的输入。运行Java 程序,该程序打包在名为 FlowAnalysisProject-1.0-SNAPSHOT.jar 的可执行 JAR 文件中。这个程序的作用是对输入文件进行处理并生成输出。列出 HDFS 中 /chengyutong/output 目录下的文件列表,用于确认成功执行并生成了输出。
2024-06-10 15:31:40
128
原创 生产实习Day2-Hadoop集群
回顾今天的学习经历,我深感收获颇丰。通过CSDN的写作实践、码云的代码管理、Hadoop集群的搭建与应用以及MapReduce流程的代码编写,我不仅掌握了新的技能和知识,也感受到了编程的乐趣和挑战。同时,我也期待将所学知识应用到实际项目中,不断提升自己的能力。
2024-06-05 00:06:55
299
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人