大数据
文章平均质量分 80
大数据技术分享
数据科学知识库
谋事在人,成事在天,不求尽如人意,但求无愧于心!
展开
-
SQL---数据抽样
SQL数据抽样通常涉及从大型数据库中随机选择一部分数据。这在数据分析、测试、报告和其他情况下非常有用。以下是如何在SQL中进行数据抽样的几种方法:使用RAND()函数这是最简单的方法,但请注意,它可能在大表上效率不高,因为它会扫描整个表。对于大型表,你可以使用这种方法,它首先根据某种顺序(例如,随机)对表进行排序,然后选择前N行。其中N是你想要抽取的行数。3. 使用JOIN这种方法可能更高效,特别是当你有另一个与你的主要表相关的小表时。原创 2023-12-21 22:12:59 · 2001 阅读 · 0 评论 -
SQL---Zeppeline前驱记录与后驱记录查询
要查找满足特定条件(例如 _part_event = ‘app_exception’ AND exception_type = 7)的记录的后一条记录,您可以使用窗口函数 LEAD()。LAG(_part_event) OVER (PARTITION BY _distinct_id ORDER BY _event_time):此窗口函数首先按 _distinct_id 列对数据进行分区,然后在每个分区内按 _event_time 排序,从而为每条记录计算 prev_part_event。原创 2023-12-21 20:45:11 · 2340 阅读 · 0 评论 -
PySpark中DataFrame的join操作
常见的类型有 “inner”, “outer”, “left_outer”, “right_outer”, “leftsemi”。在进行 JOIN 操作时,如果两个 DataFrame 有相同的列名,可能需要使用别名(alias)来避免列名冲突。on 参数是一个字符串(单列名)或一个列表(多列名)或一个表达式,指定了合并的基准。包含左边 DataFrame 的所有行,以及与右边 DataFrame 匹配的行。包含右边 DataFrame 的所有行,以及与左边 DataFrame 匹配的行。原创 2023-12-20 16:36:13 · 1609 阅读 · 0 评论 -
数据科学知识库
我的博客是一个技术分享平台,涵盖了机器学习、数据可视化、大数据分析、数学统计学、推荐算法、Linux命令及环境搭建,以及Kafka、Flask、FastAPI、Docker等组件的使用教程。我的博客的目标是帮助读者更好地理解和应用这些技术,从而在商业、社会和其他领域中获得更多的机会和洞见。通过阅读我的博客,读者可以了解到这些技术的最新趋势和发展,同时也可以获得如何将这些技术应用到实际生活中的建议和指导。原创 2023-12-17 11:18:51 · 1764 阅读 · 2 评论 -
PySpark中FMClassifier与RandomForestClassifier的比较
在比较 PySpark 中的 FMClassifier(因子分解机分类器)和 RandomForestClassifier(随机森林分类器)时,我们不能简单地说一个比另一个更先进,因为它们是针对不同类型的问题和数据集设计的。选择哪个分类器更多地取决于你的特定应用和数据特性。下面是这两种算法的一些关键特点和适用场景:FMClassifier(因子分解机分类器)适用场景:特别适合于处理稀疏数据集,如在推荐系统、广告点击率预测等领域中常见的数据。特点:通过因子分解,FM能够估计任何两个变量间的交互作用,即原创 2023-12-13 11:54:26 · 472 阅读 · 0 评论 -
PySpark大数据处理详细教程
在这篇博客中,我们将深入探讨 PySpark DataFrame 的操作和应用,从基础到高级,涵盖了数据处理和分析的多个方面。我们会开始于 DataFrame 的创建和基本操作,逐步过渡到复杂的数据转换、特征工程,最后探索性能优化和数据流处理等高级主题。每个部分都配有实用的代码示例和详细的解释,旨在帮助您更好地理解和应用这些技术。无论您是希望提高数据分析技能,还是寻找提升大数据处理能力的灵感,这篇博客都将是您的理想选择。原创 2023-12-12 12:21:50 · 1805 阅读 · 0 评论