
大数据
文章平均质量分 86
冷月半明
1/0.
展开
-
Pandas 性能优化:向量化操作 vs. Swifter 加速,谁才是大数据处理的救星?
在数据分析中,我们经常需要对 DataFrame 的每一行或每一列进行操作。例如,计算每行中每列的百分比变化。然而,当数据量较大时,apply()方法的性能可能会成为瓶颈。# 示例 DataFrame})# 计算百分比变化if current!= 0:else:# 应用到前96列上述代码中,apply()方法逐行计算百分比变化。然而,当数据量较大时(例如百万行或更多),这种方法可能会非常慢。优先使用向量化操作向量化操作利用底层优化,避免逐行循环,性能最佳。适用于大规模数据集。使用。原创 2025-04-07 14:24:56 · 631 阅读 · 0 评论 -
深入浅出SQL排序与函数
在 MySQL 中,可以使用语句来创建自定义函数。BEGIN-- 函数体END;是自定义函数的名称。parameter1parameter2, … 是函数的参数,可以有零个或多个。是函数的返回类型。是可选的关键字,用于指定函数是否是确定性的。是指定函数使用的语言,通常为 SQL。是指定函数的执行权限,可以是定义者(DEFINER)或调用者(INVOKER)。创建自定义函数后,可以像使用内置函数一样在 SQL 查询中调用它们。-- 返回结果为 8。原创 2024-04-02 09:56:26 · 731 阅读 · 0 评论 -
停用词究竟有何妙用:优化分词、精进LDA模型
在自然语言处理领域,文本数据的处理是一项至关重要的任务。而在处理文本数据时,分词是一个必不可少的步骤,它将文本拆分成有意义的词语或短语,为后续的文本分析和挖掘奠定了基础。然而,传统的分词方法往往会将一些并不具备实质信息的词语也一并纳入考量,而这些词语往往被称为停用词。停用词是指在文本处理过程中被忽略的词语,因为它们通常是高频出现且缺乏实际含义的词汇,如“的”、“了”、“和”等。在构建文本分析模型时,停用词的存在可能会干扰模型的准确性和效率,影响到对文本数据的深入理解和挖掘。原创 2024-03-31 10:15:44 · 2040 阅读 · 0 评论 -
精准定制:利用本地词库优化Jieba分词,提升景区评论数据LDA建模效果
在进行景区评论数据的LDA建模时,精确的分词是至关重要的。然而,通用的分词工具在处理特定领域的文本时可能表现不佳。针对这一挑战,本文探讨了如何利用本地词库,特别是搜狗词库中关于旅游领域的专业词汇,对Jieba分词进行精细化调整。通过这种方式,我们可以实现对景区评论数据的更精准、更有效的LDA建模,从而揭示出更深层次的见解和洞察。本文将探讨如何结合本地词库定制词典,优化分词过程,从而提升LDA模型的表现,为景区评论数据的分析与应用提供更可靠的基础。原创 2024-03-30 16:45:33 · 619 阅读 · 0 评论 -
解析旅游者心声:用PySpark和SnowNLP揭秘景区评论的情感秘密
在本文中,我们使用了PySpark和SnowNLP工具对大规模旅游评论数据进行了情感分析。通过连接到Hive数据库,并利用PySpark从中提取数据,我们能够处理大规模的数据集。SnowNLP作为自然语言处理工具,帮助我们进行情感分析,从而揭示了评论中的情感倾向和趋势。我们通过计算每条评论的平均情感值,并将结果存储到新的数据表中。通过合并不同数据表的信息,我们得到了综合的情感分析结果,并进行了展示和持久化存储。原创 2024-03-29 10:33:38 · 1546 阅读 · 0 评论 -
深入Spark与LDA:大规模文本主题分析实战
本篇博客介绍了如何使用LDA(潜在狄利克雷分配)模型和Spark进行文本主题分析。我们的目标是从大量的用户评论中提取出主题。原创 2024-03-28 23:53:32 · 1195 阅读 · 0 评论 -
pyhive入门介绍和实例分析(探索票价与景点评分之间是否存在相关性)
是一组 Python DB-API 和 SQLAlchemy 接口,可用于 Presto 和 Hive。它为 Python 提供了一个与 Presto 和 Hive 进行交互的平台,使得数据分析师和工程师可以更方便地进行数据处理和分析。以下是使用如果你想安装: 使用连接 Hive 数据库非常简单。: 使用: 如果你更喜欢使用进行数据分析,可以将查询结果转换为。原创 2024-03-27 00:23:42 · 873 阅读 · 0 评论 -
使用Apache Hive进行大数据分析的关键配置详解
Apache Hive是一个在Hadoop上构建的数据仓库工具,它允许用户通过类似SQL的语言(HiveQL)进行数据查询和分析。在使用Hive进行大数据分析之前,需要配置一些重要的参数以确保系统正常运行并满足特定需求。本文将重点介绍Apache Hive的关键配置属性,涵盖了元数据存储、临时目录、日志设置以及HiveServer2连接等方面。原创 2024-03-25 15:27:46 · 501 阅读 · 0 评论 -
使用 PySpark 进行数据清洗与 JSON 格式转换的实践详解(保姆级编码教程)
PySpark 是 Apache Spark 的 Python API,可用于处理大规模数据集。它提供了丰富的功能和库,使得数据清洗和转换变得更加高效和便捷。本文介绍了使用 PySpark 对数据进行清洗和 JSON 格式转换的过程。通过上述步骤,我们可以连接到远程 Spark 服务器,加载数据,应用自定义函数对数据进行清洗和格式转换,并最终保存清洗后的数据。这个流程展示了 PySpark 在数据处理中的强大功能,特别是在大规模数据集的处理和转换方面的优势。原创 2023-12-20 10:41:30 · 2076 阅读 · 0 评论 -
Sqoop入门:如何下载、配置和使用
Sqoop是Apache的一个开源工具,主要用于在Hadoop和关系数据库之间传输数据。:你可以从Apache的官方网站下载Sqoop。大多数企业使用的Sqoop版本是Sqoop1,例如sqoop-1.4.6或sqoop-1.4.7。需注意的是要确定下载的版本和你的Hadoop版本兼容。:将下载的Sqoop tar.gz文件解压到指定目录。:将MySQL的JDBC驱动包(例如mysql-connector-java-5.1.40-bin.jar)添加到Sqoop的lib目录下。可以从。原创 2023-12-20 10:38:01 · 1887 阅读 · 0 评论 -
解决 Hive 外部表分隔符问题的实用指南
在使用 Hive 外部表时,分隔符设置不当可能导致数据导入和查询过程中的问题。本文将详细介绍如何解决在 Hive 外部表中正确设置分隔符的步骤。原创 2023-12-19 10:47:28 · 1096 阅读 · 0 评论 -
scrapy_redis实战去哪儿旅游信息爬虫(分布式爬虫实例)
Scrapy-Redis 是 Scrapy 框架的一个扩展,用于实现分布式爬取。它基于 Redis 数据库实现了 Scrapy 的调度器、去重集和队列,使得多个爬虫节点可以共享相同的信息,并能够高效地协作。分布式爬取:Scrapy-Redis 允许多个 Scrapy 爬虫实例之间共享爬取队列和去重集合,使得爬取任务可以被多台机器分担,提高爬取效率和速度。基于 Redis 实现的调度器和去重集。原创 2023-12-19 10:45:23 · 2878 阅读 · 0 评论 -
Scrapy+Selenium项目实战--携程旅游信息爬虫
携程(you.ctrip.com)是一个提供旅游信息的网站,但它的部分内容可能是动态加载的,难以直接通过Scrapy获取。这时就需要借助Selenium这样的工具,模拟浏览器行为进行数据的获取和处理。通过Scrapy和Selenium的结合,我们可以构建一个能够有效获取旅游信息的爬虫。但是需要注意,爬虫在实际应用中需要遵守网站的规则,避免对网站造成过大压力或触发反爬机制。以上就是利用Scrapy和Selenium构建旅游信息爬虫的基本流程和实现方法。原创 2023-12-18 13:15:55 · 2276 阅读 · 0 评论 -
广电用户画像分析之根据用户行为数据进行筛选与标签添加
在数据处理和分析领域,我们经常需要根据用户的行为数据进行筛选和标签添加,以便更好地理解用户行为和偏好。在本篇博客中,我们将介绍两个示例,展示如何根据用户的收视行为数据和订单信息进行数据处理和分析。原创 2023-06-25 18:30:34 · 1474 阅读 · 0 评论 -
广电用户画像分析之根据客户消费内容添加标签
本篇博客将介绍如何添加用户消费标签和用户消费等级标签.建议阅读之前先阅读数据预处理的博客再读本篇博客.相关前提:https://blog.csdn.net/kilig_CSM/article/details/131299347?spm=1001.2014.3001.5501该类的目的是创建一个消费者标签(Consumer Label)。它通过读取名为mmconsume_billevents的表中的数据,根据字段"phone_no"和"fee_code"进行去重,然后使用自定义的函数consumerLa原创 2023-06-21 08:34:42 · 1078 阅读 · 0 评论 -
广电用户画像分析之数据基本分析与预处理
本文介绍了使用Spark进行媒体数据分析和预处理的基本方法。通过对用户收视行为数据表的分析,我们可以了解用户的观看时间范围和无效观看记录。同时,通过对各个表中指定字段的数据进行分析,我们可以获取有关观看时长和其他字段的统计信息。最后,我们对数据进行了清洗和筛选,并将处理后的结果保存到Hive表中,以便后续的分析和使用。原创 2023-06-20 08:47:45 · 3430 阅读 · 0 评论 -
广电用户画像分析之探索各个表中的记录数和字段phone_no的空值数
首先我们需要搭建大数据环境,详情可参考下文。原创 2023-06-19 09:45:49 · 1472 阅读 · 2 评论 -
逻辑回归与决策树回归
逻辑回归分析属于概率型回归分析方法。原创 2023-06-12 09:24:00 · 1298 阅读 · 0 评论 -
初识Kettle.
简介:kettle是开源的java开发的etl工具,官网为:Home - Hitachi Vantara从官网下载后解压后点击Spoon.bat即可运行. 如果要连接mysql.MongoDB等数据库则需要下载相关驱动.Win10环境演示:例1:kettle的运行模式是先设置转换模式,然后运行转换. 首先点击主对象树的转换,然后在转换中点击核心对象.然后在输入中找到文本文件输入双击后即可将其添加到页面中. 然后在核心对象的流程中找到过滤记录.将其添加.之后再将输出中的Exce原创 2022-04-28 21:45:29 · 1184 阅读 · 0 评论