自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

  • 博客(663)
  • 资源 (1)
  • 问答 (3)
  • 收藏
  • 关注

原创 机器学习 专栏

随着现在以ChatGPT为代表的大模型发展,人工智能、机器学习、大模型 这些词逐渐火热起来了,所以是时候了解一下这些东西了,可能有的人会说不会太晚了吗,其实不晚,因为我们从来都是技术的创造者,只是技术的使用者而已,在一定程度上来说,及时的学会使用,对普通人来说就足以过上不错的日子。但是伴随着老的生产力的落幕,必然有新的生产力出现,否则整个社会的发展就陷入了停滞,其实我们可以看到现在的AI 发展的这么快,每一轮的技术发展都会有一二十年的生命周期,我们只能说传统互联网走到了夕阳西下的时候。

2024-03-30 13:11:30 136756

原创 数据仓库实战教程

以hadoop 作为基础生态,从0到进行数仓建设,主要分为基础篇和实战篇两部分,基础篇主要是各种组件的学习和案例,实战篇主要是三家企业的数仓设计案例,最后是扩展篇主要是实时数仓。

2020-12-28 09:19:07 190007 18

原创 Java集合汇总篇

一. 集合框架Java 集合框架一些列的接口和类来实现很多常见的数据结构和算法,例如 LinkedList 就是集合框架提供的实现了双向链表的数据结构,关于这一篇文章建议大家收藏,我会不断地完善和扩充它的内容,例如最下面的系列文章我以后也会对它进行不断的更新集合框架的接口集合框架提供了很多接口,这些接口都包含了特定的方法来实现对集合上的特定操作)我们将要学习这些接口以及子接口和它们的各种实现类,在开始之前我们先简单学习一下这些广泛运用的接口,可以看到整个集合框架,总共有三个顶级接口Collecti

2020-12-13 20:25:05 190044 3

原创 大模型爬虫—ScrapeGraphAI

是一个网络爬虫Python 库,使用大型语言模型和直接图逻辑为网站和本地文档(XML,HTML,JSON 等)创建爬取管道。只需告诉库您想提取哪些信息,它将为您完成!

2024-09-20 10:09:44 746

原创 常见本地大模型个人知识库工具部署、微调及对比选型

由于作者的眼界、精力和能力也有限,并且确实也不是专业的AI研究员,仅仅是一位兴趣使然的爱好者,这里列出的几款也单纯只是作者平常关注到的,所以可能也不全,请各位见谅!文章从起笔写到这里已经过了三天了,这三天也基本把上文提到的大模型侧工具全部体验了一遍,下面说一下主要结论吧。从功能丰富度和性能优化的角度综合评估,LM Studio明显更胜一筹。从工具本身使用及模型部署效率来看,Ollama的上手速度会更快,使用会更便捷,效率也会更高。从企业级稳定性和高可用。

2024-09-14 16:43:45 982

原创 指标体系—指标拆解和选取

建设指标体系,需要回答以下几个问题为什么建设数据指标体系如何评价数据指标体系,一个好的数据指标体系是要需要回答两个问题,它是不是有助于业务发展,以及说这个指标体系拆解是不是可具备、可落地、可实操的可能性。如何建设数据指标体系,这就需要我们的建设方法论了如何维护和管理指标,指标的维护和管理是有套路的,最简单的指标管理方法——指标字典,我们在此基础上可以做指标管理系统指标分类我们可以将其理解为纵向分类,指标分级我们可以理解为横向分类。指标拆解的目的在于整体上进行把握,细节上进行探索。

2024-09-12 14:13:27 107

原创 指标体系—指标体系搭建的流程与步骤

这里我们简单总结一下收集需求,确定排期,数据分析师以OSM,AARRR/UJM,MECE模型作为指导思想,初步确定指标体系建设方案,数据工程师,根据业务需求进行数据收集和加工以及看板开发。效果评估:指标体系落地,用于监控业务现状,指导业务决策,定位业务问题。在业务的不断反馈当中逐渐完善整套指标体系。

2024-09-12 11:22:27 557

原创 指标体系—指标体系建设方法论

我们的方法论其实就是 OSM+AARRR/UJM+MECE不同环节我们使用不同的模型我们整理了一个大致的流程确定业务目标 OSM 中的 O拆解关键路径 AARRR模型和UJM模型确定关键路径上的影响因素 OSM 中的 S确定指标 MECE搭建体系 OSM 中的 M。

2024-09-11 16:01:17 349

原创 指标体系—指标管理

严格定义指标规范,规避指标二义性,助力数据模型规范设计,支持包括主原子、衍生原子、派生和复合指标的规范化定义指标管理是指标体系建设中的重要一环,指标管理的意义不亚于数据治理对数仓的意义,开发、运营人员要通力协作来规范化整个指标体系的建设。如果指标体系不严加管理到最后就会变成指标乱葬岗,指标很多,能用的很少。

2024-09-11 14:12:53 181

原创 指标体系—指标的分类分级和评价

指标体系的关键在体系上面,也就是说我们要站在全局的角度体系化的建设,也就是将繁多的指标体系化的组织管理起来,这里的组织管理方式常见的就是分级分类。分级上我们要保证层次不要太多,并且保证公司不同层级的人都能找到自己想要的信息,例如老板要知道公司的经营现状,不同部门领导人要知道部门的业务现状和目标,一线员工要知道自己的执行方向。分类上我们要保证不遗不漏不重复,也就是MECE原则。

2024-09-11 13:46:31 135

原创 指标体系—指标体系初识

这里我们需要理解的一个东西是什么呢,就是为什么要指标呢,指标是干嘛的,一个指标是为了说清楚一个问题,这个问题往往只需要一个数字就能说明,例如你有多少钱(钱包里的钱不是你的资产),你今年几岁了,你的房子有多大,你有几套房。例如你在国外旅游的时候你说,中国很大,那别人就不清楚到底多大,也就是这个问题没有说清楚,那这个时候你怎么办呢,你可以这样说我们国家的面积是960万平方公里,可能这个时候这个问题就已经很清楚了,但是你可以再补充一句,是你们国家面积的3倍。

2024-09-11 13:31:49 302

原创 Spark MLlib模型训练—推荐算法 PrefixSpan

序列模式挖掘是数据挖掘领域中的一个重要分支,旨在从大量序列数据中发现频繁出现的模式。序列数据可以表示为一系列有序事件,例如用户点击流、购买记录、传感器数据等。序列模式挖掘的目的是找到这些数据中的重复序列,帮助理解数据的内在结构。PrefixSpan算法是一种通过构建序列的前缀投影来挖掘频繁序列模式的方法。它避免了候选模式生成和组合的过程,相比于 AprioriAll 等传统算法有更高的效率。PrefixSpan 是基于前缀投影的递归增长法,通过缩减搜索空间来提高挖掘效率。

2024-09-11 12:00:58 356

原创 Spark MLlib模型训练—推荐算法 Frequency Itemset

频繁项集它暗示了某些事物之间总是结伴或成对出现。本质上来说,不管是因果关系还是相关关系,都是共现关系。理论上所有机器学习算法都可以暴力搜索,也就不需要承担启发式搜索带来的局部优化损失问题,估计现在很少有人这么做了。FP-growth算法只需要对数据库进行两次扫描,同Aprion相比压缩度更高,不过对内存开销大,而且只能用于挖掘单维的布尔关联规则。理论上一般建议使用Apriori算法进行关联分析,用FP-growth算法来高效发现频繁项集。当然实际工程还是要根据数据的质量和目标需求以及运营成本来调整。

2024-09-11 12:00:25 229

原创 Spark MLlib模型训练—推荐算法 ALS(Alternative Least Squares)

到这里我们关于Spark MLlib推荐的学习就结束了,这里面的核心就是做矩阵分解协同过滤算法本身其实对于推荐什么物品是一点都不关心的,所有的推荐机制都是基于用户对物品的行为来制定的, 优点基于用户行为,因此对推荐内容无需先验知识;只需要用户和商品的关联矩阵即可,结构简单;在用户行为丰富的情况下,效果好。当然如此一来,缺点也非常明显:需要大量的显性/隐形的用户行为数据,有冷启动问题;需要通过完全相同的商品关联,相似的不行 aka 同义词问题;在数据稀疏的情况下易受影响。

2024-09-08 11:22:35 692

原创 Spark MLlib模型训练—聚类算法 PIC(Power Iteration Clustering)

Power Iteration Clustering (PIC) 算法是一种基于图的聚类算法,其主要思想是通过图的幂迭代方法来识别数据中的簇。构建图:将数据点作为图的节点,节点之间的边表示数据点之间的相似性或距离。初始化权重矩阵:构建权重矩阵,权重矩阵中的每个元素表示对应节点之间的相似度。幂迭代:通过幂迭代的方法更新权重矩阵,计算每个节点的社区归属。社区检测:根据最终的权重矩阵,识别数据中的社区或簇。

2024-09-08 11:20:45 605

原创 Spark MLlib模型训练—文本算法 LDA(Latent Dirichlet Allocation)

LDA 是一种生成模型,它假设每个文档都是由多个主题组成的,每个主题又是由词语构成的。主题分布:每个文档的主题分布遵循一个 Dirichlet 分布,通常具有一个超参数 ( \alpha ),表示主题的稀疏程度。词汇分布:每个主题的词汇分布遵循一个 Dirichlet 分布,通常具有一个超参数 ( \beta ),表示词汇的稀疏程度。文档生成:每个文档生成的过程如下:从主题分布中抽取一个主题。从该主题的词汇分布中抽取一个词语。重复以上步骤直到生成整个文档。

2024-09-06 10:45:04 496

原创 AI 编程工具—Cursor

Cursor是一个先进的AI编程辅助工具,旨在通过智能代码生成和编辑来提高开发者的效率。它通过理解开发者的意图和代码上下文,自动生成代码片段,从而减少手动编码的工作量。Cursor的技术优势在于其深度学习和自然语言处理能力。它能够理解复杂的编程概念和语言结构,从而提供精确的代码生成和编辑建议。此外,Cursor的机器学习算法能够随着时间的推移不断学习和改进,使得它能够更好地适应开发者的需求。Cursor作为AI编程工具的代表,正在重新定义编程的未来。

2024-09-06 10:39:01 443

原创 数仓建模—维度建模之维度表

首先要学会识别维度,维度是相对稳定的、可抽象具有共性的、固有的(天然的)描述度量或事实的上下文属性信息,失去维度信息的度量信息是没有意义的或者说是失去维度信息的事实表是没有意义的。其次要掌握维度表的设计原则和设计流程,从而更加科学的设计维度表,其实这些东西都是术,我们一直都说一句话大道至简,其实如果你掌握了精髓,抛开这些术也可以做到得心应手,这就像张无忌练太极剑一样,忘记了才能达到道的境界,也就是无我,如果做不到就记住这些原则加以应用从而达到术的境界。

2024-09-05 11:23:14 390

原创 数仓工具—Hive语法之URL 函数

URL 的解析函数,在我们进行流量分析的时候其实非常有用,否则的话我们可能需要借助正则匹配来完成这样的功能。

2024-09-05 10:31:40 469

原创 Spark MLlib模型训练—聚类算法 Bisecting K-means

Bisecting K-Means 聚类算法结合了 K-Means 和层次聚类的思想,其核心思想是通过递归地分裂簇来优化聚类效果。初始化簇:将所有数据点视为一个初始簇。选择簇分裂:在每次迭代中,选择一个簇进行分裂。执行 K-Means:对选定的簇进行 K-Means 聚类,将其分裂成两个子簇。更新簇列表:将新的子簇添加到簇列表中,并将被分裂的簇从列表中移除。重复操作:继续选择簇进行分裂,直到达到预定的簇数量或其他终止条件。输出结果:输出最终的簇划分结果。

2024-09-05 10:12:09 834

原创 Spark MLlib模型训练—聚类算法 K-means

K-means 聚类算法的核心思想是最小化簇内数据点到簇中心的平方距离和。初始化:随机选择 ( k ) 个数据点作为初始簇中心。分配数据点:将每个数据点分配到与其距离最近的簇中心所在的簇。更新簇中心:重新计算每个簇的中心,即所有属于该簇的数据点的均值。重复步骤 2 和 3,直到簇中心不再发生变化或达到最大迭代次数。K-means 聚类算法是一种经典且广泛应用的无监督学习算法,通过将数据点划分为 k 个簇,达到数据点在簇内相似、簇间差异的效果。

2024-09-05 10:05:38 538

原创 Spark MLlib模型训练—回归算法 Factorization Machines Regression

因子分解机回归模型是处理稀疏数据、学习高阶特征交互的强大工具。通过在 Spark 中实现因子分解机回归模型,用户可以高效处理大规模数据,并在推荐系统、广告点击率预测和评分预测等应用中取得良好效果。掌握因子分解机的原理并熟悉其应用技巧,对于解决涉及稀疏数据和高阶特征交互的问题至关重要。通过合理的参数调优,因子分解机能够在大规模机器学习任务中展现出色的性能,为复杂数据集的预测任务提供有力支持。

2024-09-04 08:36:35 430

原创 Spark MLlib模型训练—回归算法 Isotonic Regression

单调回归是一个强大且灵活的工具,尤其适用于处理存在单调关系的数据集。在 Spark 中,Isotonic Regression 提供了对大规模数据进行高效单调回归分析的能力。通过合理的参数设置和数据预处理,单调回归能够在价格预测、风险评估和健康管理等领域提供有价值的预测结果。掌握单调回归的原理并熟悉其应用技巧,对于解决涉及单调关系的实际问题至关重要。

2024-09-04 08:35:54 525

原创 Spark MLlib模型训练—回归算法 Survival Regression

生存回归是一种强大的工具,特别适用于时间到事件数据的建模和预测。在 Spark 中,AFT 生存回归模型提供了对大规模生存数据进行高效分析的能力。通过合理的参数调整和模型选择,生存回归能够在医学研究、工程可靠性分析和金融风险管理等领域提供有价值的预测结果。理解生存回归的原理并掌握其应用技巧,对于解决复杂的时间到事件问题至关重要。

2024-09-03 15:13:36 505

原创 Spark MLlib模型训练—回归算法 Gradient-boosted tree regression

Gradient-Boosted Tree 回归是一种强大的机器学习算法,凭借其强大的建模能力和对复杂非线性关系的处理能力,广泛应用于金融预测、风险管理、市场营销等领域。在 Spark 中,GBT 回归被广泛应用于大规模数据分析任务,凭借其强大的并行处理能力和灵活的参数调优方法,成为了数据科学家和工程师的常用工具。通过合理的参数调整和特征选择,GBT 回归能够在许多实际场景中提供准确且稳健的预测结果。

2024-09-03 15:13:00 426

原创 Spark MLlib模型训练—回归算法 Random forest regression

随机森林回归作为一种强大的集成学习方法,在回归任务中表现出色。通过结合多个决策树的预测结果,随机森林不仅提升了模型的预测精度,还在一定程度上减轻了单棵决策树易于过拟合的缺陷。在 Spark 中,随机森林回归被广泛应用于各种大规模数据分析任务,凭借其强大的并行处理能力和灵活的参数调优方法,成为了数据科学家和工程师的常用工具。通过合理的参数调整和特征选择,随机森林回归能够在许多实际场景中提供准确且稳健的预测结果。

2024-09-02 13:10:18 742

原创 Spark MLlib模型训练—回归算法 Decision tree regression

决策树回归作为一种强大且直观的回归模型,在数据分析和预测任务中得到了广泛应用。通过本文的深入解析,读者可以了解决策树回归的原理、在 Spark 中的实现方法、以及如何对模型进行评估和调优。尽管决策树回归有其局限性,但在适当的数据场景下,它能够提供非常有价值的预测结果。通过合理的参数调节和模型选择,决策树回归可以在许多实际应用中发挥重要作用。

2024-09-02 13:09:40 502

原创 大模型web服务部署—lobe-chat 部署

lobe-chat 的强大之处在于提供了视觉,语音对话,图像识别的功能,而且有手机端、网页端、电脑端使用起来很方便,生态完善。

2024-09-01 10:07:43 430

原创 Spark MLlib模型训练—回归算法 GLR( Generalized Linear Regression)

广义线性回归作为线性回归的扩展,在处理不同分布类型的目标变量时具有极大的灵活性。Spark 提供了强大的分布式计算能力,使得广义线性回归可以在大规模数据集上高效训练和应用。本文从原理、代码实现、参数调优等多个角度,详细介绍了 Spark 中广义线性回归的使用方法,希望为读者提供实用的指导。通过合理的模型选择和调优,广义线性回归能够在各种复杂数据场景中提供准确的预测与分析。

2024-09-01 08:29:47 332

原创 Spark MLlib模型训练—回归算法 Linear regression

线性回归作为一种经典的回归方法,虽然简单但在实际应用中依旧表现出强大的效果。借助 Spark 的分布式计算框架,我们可以在大规模数据集上高效地进行线性回归建模。在本文中,我们详细介绍了线性回归的原理、参数、模型实现与调优,并结合 ScalaSpark 线性回归的优化策略特征标准化:在线性回归中,标准化特征有助于提升模型收敛速度,避免特征值差异过大引起的计算问题。特征选择:在高维数据集中,选择相关性高的特征可以提高模型的预测准确性。交叉验证。

2024-09-01 08:28:58 442

原创 Spark MLlib模型训练—分类算法Random forest classifier

随机森林分类器是 Spark MLlib 中常用且高效的集成模型。它通过结合多棵决策树的预测结果,显著提升了模型的稳定性和准确性。在实际应用中,随机森林常用于文本分类、图像识别、金融风控等领域。分类代表算法组合方式适用场景优点缺点Bagging随机森林(Random Forest)、Bagged Decision Trees并行组合高方差模型(如决策树)- 减少过拟合- 模型稳定性高- 支持并行化训练- 对偏差大的基学习器提升有限Boosting序列组合。

2024-08-31 13:45:41 587

原创 Spark MLlib模型训练—分类算法One-vs-Rest classifier

Spark 的 One-vs-Rest 分类器为多分类任务提供了一个简洁且实用的解决方案,特别是在需要将二分类器扩展到多分类问题时。尽管 One-vs-Rest 存在一些缺点,如类别不平衡和较长的训练时间,但其简单的实现和良好的可扩展性使其在许多实际应用中广受欢迎。通过适当的参数调优和对类别不平衡的处理,One-vs-Rest 可以在多分类任务中表现出色,为解决复杂的分类问题提供了强有力的工具。对于 Spark 中的 One-vs-Rest 实现,还有一些高级用法和优化策略。模型调优。

2024-08-31 13:44:57 272

原创 Spark MLlib模型训练—分类算法Naive Bayes

Spark 的 Naive Bayes 分类器为多分类任务提供了一个简洁高效的解决方案,尤其在文本分类和推荐系统中表现突出。尽管特征独立性的假设限制了其在某些复杂任务中的表现,但通过适当的数据预处理和模型调优,Naive Bayes 在实际应用中依然是一个强有力的工具。在大规模数据集上,利用 Spark 的分布式计算能力,Naive Bayes 分类器可以在保证效率的同时提供可靠的分类结果。

2024-08-30 08:15:33 228

原创 Spark MLlib模型训练—分类算法Multilayer Perceptron Classifier

Spark 中的 Multilayer Perceptron Classifier 提供了一种灵活的非线性分类方法。通过配置网络结构和优化训练参数,MLP 可以处理复杂的分类任务。然而,由于 MLP 需要大量计算和调优,它在大数据场景中可能面临计算资源和时间的挑战。对于需要在复杂数据上进行高精度分类的任务,MLP 是一种强有力的工具,特别是在结合了分布式计算能力的 Spark 环境下。

2024-08-30 08:14:55 301

原创 Spark MLlib模型训练—分类算法Linear Support Vector Machine

Spark 的 Linear Support Vector Machine 是一种简洁而强大的二分类算法,适用于线性可分的数据。通过最大化分类间隔,它在高维数据中具有较好的表现,尤其适用于文本分类等高维稀疏数据场景。然而,由于它的线性假设,线性 SVM 无法处理复杂的非线性数据。结合 Spark 的分布式计算能力,线性 SVM 为大数据中的二分类任务提供了一种高效的解决方案,但在实际应用中仍需考虑其局限性,如多分类任务的扩展和非线性问题的解决。

2024-08-29 09:39:57 247

原创 Spark MLlib模型训练—分类算法Gradient-boosted tree classifier

GBT 分类器是 Spark MLlib 中功能强大且灵活的分类算法。它通过逐步优化决策树,能在分类任务中取得优秀的表现。尽管其计算开销较大,GBT 仍然在金融风控、市场预测、文本分类等领域中得到了广泛应用结合分布式计算框架,Spark 的 GBT 分类器为大规模数据处理提供了高效的解决方案。对于未来的发展,随着硬件计算能力的提升和算法优化,GBT 将在更多复杂场景下得到更广泛的应用,并且与其他集成学习方法(如 XGBoost 和 LightGBM)形成互补关系,进一步提升数据分析的精准度和效率。

2024-08-29 08:46:33 305

原创 Spark MLlib模型训练—分类算法Factorization machines classifier

Spark 的 Factorization Machines 分类器在处理高维稀疏数据时非常高效,尤其在推荐系统、广告点击率预测等场景中具有优势。通过本文的详细解析和代码示例,读者可以理解 FM 的核心原理,并能在实际项目中灵活应用。此外,虽然 FM 仅能捕捉二阶特征交互,但其计算效率和可扩展性使其在大规模数据场景中具有广泛的应用前景。

2024-08-28 08:31:05 317

原创 Spark MLlib模型训练—分类算法 Decision tree classifier

决策树分类器是一种基础且强大的机器学习模型,在 Spark MLlib 中的实现具备处理大规模数据的能力。它以直观、可解释性强、易。

2024-08-28 08:30:27 681

原创 Spark MLlib模型训练—分类算法Multinomial Logistic Regression

多项逻辑回归(Multinomial Logistic Regression)是对二项逻辑回归(Binary Logistic Regression)的扩展,适用于多分类问题。当目标变量不再是二分类(如 0 或 1),而是多于两个类别(如 A, B, C),多项逻辑回归便成为了适用的选择。与二项逻辑回归类似,多项逻辑回归基于线性模型,但其核心区别在于输出类别不再局限于两个,而是扩展至多个。,模型预测的标签为 0,对应的概率为 0.876,表明该样本属于类别 0 的可能性最大。使得训练数据的似然最大。

2024-08-27 13:00:46 715

原创 Spark MLlib模型训练—分类算法Binomial Logistic Regression

本文通过 Spark 和 Scala 详细介绍了二项逻辑回归的原理和实现流程。二项逻辑回归作为一种经典的分类算法,在数据线性可分且标签为二分类的任务中表现出色。通过合理调整参数,可以在不同场景中应用二项逻辑回归模型,从而获得良好的分类效果。希望通过这篇文章,你对 Spark 中的二项逻辑回归有了全面的理解。如果你对其他分类算法感兴趣,欢迎继续交流学习!

2024-08-27 12:57:48 437

数据仓库理论与实战(适用于从事数仓方向的小伙伴)

数据仓库理论与实战(适用于从事数仓方向的小伙伴)

2022-02-15

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除