- 博客(4)
- 收藏
- 关注
原创 10个常用的可视化网络爬虫工具介绍
常用的可视化网络爬虫类工具特别适合非技术人员或初学者,它们通过图形化界面实现数据采集任务,而无需编写大量代码。
2025-01-28 15:53:16
1513
原创 什么是数据科学?它与大数据技术、机器学习的区别?
数据科学是一个综合性领域,它结合了数学、统计学、计算机科学、领域知识等多方面的理论和技术,通过数据收集、清洗、分析、可视化等一系列过程,理解和解释实际现象,并为决策提供依据。
2025-01-27 16:18:10
1406
8k条电子商务产品数据
数据集描述
该数据集模拟了电子商务平台中的产品信息、客户行为以及交易数据,旨在为机器学习任务提供多样化的训练和测试场景。数据集包含以下关键特征:
产品信息
产品_ID:每个产品的唯一标识符。
产品名称:描述产品的名称(例如,“无线鼠标”、“智能手机”),根据其类别生成。
类别:产品所属的大类(例如,“电子产品”、“服装”、“家具”)。
子类别:主类别下的具体子类别(例如,“电子产品”下的“移动电话”)。
价格:产品的价格,根据其类别有所不同。
客户信息
客户年龄:可能购买产品的客户年龄,范围从18岁到65岁。
客户性别:客户的性别(“男性”或“女性”)。
购买历史:模拟的客户购买次数,受其年龄和产品类别影响。
交易与反馈
评论评分:根据产品价格给出的评分,范围为1到5星。
评论情感:评论的情感倾向,可以是“负面”、“中性”、“正面”或“非常正面”,基于产品价格。
应用场景
推荐系统:基于客户历史行为和产品特征生成个性化推荐。
客户细分:根据年龄、性别和购买行为对客户进行分类。
价格预测:分析价格与评论评分、情感之间的关系,预测最优定价策略。
情感分析:研究评论情感与产品价格
2025-02-11
数据库原理及应用(Access版)第5版+电子课件+习题答案+实验指导+教学大纲+源文件
数据库原理及应用(Access版)第5版+电子课件+习题答案+实验指导+教学大纲+源文件
2025-02-05
从零开始训练自己的LLM的最佳指南
该白皮书是从零开始训练自己的LLM的最佳指南,涵盖了从规模和硬件选择到数据集选择和模型训练的所有内容。它包含了训练LLM所需的所有关键步骤和考虑因素,包括数据量、数据来源、内存和计算效率的平衡、并行化技术的处理、符号化策略、模型训练中的权衡、评估模型、减轻模型偏见和有害性等方面。
此外,该指南还指出了一些可能的陷阩和坑,有助于让您在构建自己的LLM时少走弯路。强烈建议大家阅读这份白皮书,以获得更多有关训练自己的LLM的宝贵信息。
2025-02-04
司法领域大语言模型下的文本摘要生成与新型评价指标构建
内容概要:本文聚焦于司法文本摘要生成和评价技术的研究,主要解决了传统模型中存在的信息冗余、理解偏差、信息一致性不足等问题。文章创新点在于借助知识编辑和参数微调技术,构建一个司法领域垂直大语言模型,以改善对复杂司法文本的理解和生成高质量的摘要。文中还介绍了基于大语言模型的知识抽取和度量方法,提出了两个全新的评价指标——信息缺失因子和信息密度,弥补了现有ROUGE评价方法过于单一、仅侧重文本表面信息的不足。最终,在一系列实验中验证了上述方法的有效性和优越性,为未来的工作奠定了坚实的基础。
适合人群:具备一定司法知识和自然语言处理背景的研究人员和技术从业者。
使用场景及目标:①应用于司法文档处理,提高律师、法官等从业人员的阅读和审查效率;②促进更高水准的司法信息化建设,推进司法智能化。
其他说明:研究成果表明,在司法领域使用垂直领域大语言模型不仅能够显著提高文本摘要的质量,还能从深层次语义的角度进行质量评估,这对于推动AI在专业领域的应用有着深远意义。
2025-02-04
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人