- 博客(13)
- 收藏
- 关注
原创 【无标题】
为了后续分析方便,从订单日期中分别提取年、月、季度数据,并添加三个列用来存取年、月、季度信息,分别为:’Order-year’,’Order-month’,’quarter’。然后是客单价分析,以及每年销售额与销售额的增长率分析,分析各个地区分店的销售额,销量分析与销售淡旺季分析,分析新老客户数,用户数据分析,用户价值度RFM模型分析,客户群体与产品种类的关系分析,发货时间与发货成本分析。我们组的项目是超市电商数据分析,本案例将对某大型超市的零售数据进行数据分析,通过了解运营状况,做出合理的决策。
2024-06-21 19:36:31 188
原创 【无标题】
项目第十三天——学习基于Langchain-chatchat搭建本地智能知识问答系统相关知识 基于 ChatGLM 等大语言模型与 Langchain 等应用框架实现,开一种利用 langchain 思想实现的基于本地知识库的问答应用,目标期望建立一套对中文场景与开源模型支持友好、可离线运行的知识库问答解决方案。依托于本项目支持的开源 LLM 与 Embedding 模型,本项目可实现全部使用开源模型离线私有部署。与此同时,本项目也支持 OpenAI GPT API 的调用,并将在后续持续扩充对各类模型及
2024-06-20 21:14:24 206
原创 【无标题】
项目第十二天——学习神经网络相关知识 全连接神经网络是一种连接方式较为简单的人工神经网络结构,某一层的任意一个节点,都和上一层所有节点相连接。 感知器即单层神经网络,也即"人工神经元",是组成神经网络的最小单元。 在神经网络中可以引入非线性激活函数,这样就可以使得神经网络可以对数据进行非线性变换,解决线性模型的表达能力不足的问题。 神经网络因为隐藏层的存在可以实现复杂的非线性拟合功能。但随着神经网络层数加深,神经网络很容易发生过拟合现象(在训练集上表现很好,在未知的测试集上表现很差,即“泛化能力差”)。
2024-06-19 20:47:09 100
原创 【无标题】
项目第十一条——学习协同过滤算法及关联规则分析与Apriori算法相关知识 协同过滤算法的原理:根据用户群体对产品偏好的数据,发现用户之间的相似性或者物品之间的相似性,并基于这些相似性为用户作推荐。 基于用户的协同过滤算法(User-based Collaborative Filtering) 其本质是:寻找相似的用户,进而对用户推荐相似用户关注的产品。 基于物品的协同过滤算法(Item-based Collaborative Filtering) 其本质是:根据用户的历史偏好信息,将类似的物品推荐给用户
2024-06-18 21:02:18 193
原创 【无标题】
它是Facebook 2008年8月开源的一个数据仓库框架,提供了类似于SQL语法的HQL(hiveSQL)语句作为数据访问接口。使用Hive的原因:Hive 使用类SQL 查询语法, 最大限度的实现了和SQL标准的兼容,大大降低了传统数据分析人员处理大数据的难度。以MR 作为计算引擎(也可选择Spark计算引擎)、HDFS 作为存储系统,为超大数据集设计的计算/ 扩展能力。Hive服务端组件:Driver组件, Metastore组件,HiveServer2服务。表分类:内部表,外部表,分区表,分桶表。
2024-06-12 20:33:10 207
原创 【无标题】
项目第五天——完成任务 今天继续对第一个项目进行测试运行,在这个过程中,遇到的问题有: 如何在集群中运行代码 运行后报错 解决方法 使用相关命令来进行运行 报错显示找不到主类,在编写代码时,代码所在位置错误,重新创建一个maven项目,将代码放在正确位置即可
2024-06-10 18:41:46 108
原创 【无标题】
今天继续完成第一个项目的代码编写 ,对项目需求做分析,然后了解所需要使用到的架构mapreducce,对MapReduce的具体使用进行复习,并深入了解,以便更好地进行代码的编写,在这个过程中,遇到的问题有:
2024-06-05 17:15:12 198 1
原创 【无标题】
今天开始布置需要完成的项目,老师对项目做了介绍,并说明了需要完成的两个项目的具体要求,由于此次项目较简单,所有每个人都要完成,不是分组完成。
2024-06-04 18:36:04 202 1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人