cattyllo1-CSDN博客

原创协同过滤算法

人们经常会在视频平台上观看影片，有时目标明确，想要观看某部电影，但有时仅仅是随机搜寻。如果视频平台可以利用基于物品的智能推荐系统，有效地从用户对其观看过的电影的评分中挖掘数据，便可以根据用户偏好的电影个性化地推荐更多类似的电影，优化用户体验，提高用户粘性，创造额外收入。

2024-06-19 08:47:08 1498

原创 Spark SQL的基本使用和操作

Spark SQL是一个用于结构化数据处理的Spark组件。所谓结构化数据，是指具有Schema信息的数据，例如JSON、Parquet、Avro、CSV格式的数据。与基础的Spark RDD API不同，Spark SQL提供了对结构化数据的查询和计算接口。将SQL查询与Spark应用程序无缝组合 Spark SQL允许使用SQL或熟悉的API在Spark程序中查询结构化数据。

2024-06-18 08:45:00 2515

Spark提供了一种对数据的核心抽象，称为弹性分布式数据集（Resilient Distributed Dataset，简称RDD）。这个数据集的全部或部分可以缓存在内存中，并且可以在多次计算时重用。RDD其实就是一个分布在多个节点上的数据集合。 RDD的弹性主要是指：当内存不够时，数据可以持久化到磁盘，并且RDD具有高效的容错能力。分布式数据集是指：一个数据集存储在不同的节点上，每个节点存储数据集的一部分。

2024-06-17 14:38:27 996

原创 Python文本数据挖掘——电商寻求市场增长点(下）

无监督常用的是主题模型LDA,其他诸如分群,情感分析也可以 · 清洗流程中,尤其是口语化较强的数据,例如评论数据,需要去除重复语句,以及字数少于某个阈值的评论.■所有宝贝下滑：关注动态评分，尤其是售后评分，可能的原因有：季节，竞争对手，官方活动。可见拜耳和安速的流量配比是差不多的，安速的整体流量小很多，即流量效果拜耳明显优于安速。

2024-06-17 11:40:07 520

原创 Python文本数据挖掘——电商寻求市场增长点(中）

可见大部分仍然是灭蟑和杀虫 · 交易增长幅度最大的是灭鼠,而之前描述过灭鼠有最高的市场份额,可以作为下一步着力点 · 总结:拜耳大部分产品集中在除蟑上,杀虫也有一定的规模,但是明星产品略乏力,可以进一步发展问题产品灭鼠为明星产品。明星产品：都关心，依什么排序都可以，产品一般不多奶牛产品：老爆款，关心市场份额，依交易金额占比排序问题产品，潜力款，关心市场增长率，依交易增长幅度排序。总结：拜耳大部分产品集中在除蟑上，杀虫也有一定的规模，但是明星产品略乏力，可以进一步发展问题产品灭鼠为明星产品。

2024-06-17 11:38:39 539

原创 Python文本数据挖掘——电商寻求市场增长点（上）

每个环节都有具体的要求,例如需求文档要求包含:目的,分析思路,预期效果业务部门出问题和需求,以及对算法&数据部门输出报告的理解和应用客户介绍:拜耳官方旗舰店客户需求:拜耳官方旗舰店寻求市场增长点产品架构。

2024-06-17 11:36:47 575

原创 Scala的介绍

Scala是一种将面向对象和函数式编程结合在一起的高级语言，旨在以简洁、优雅和类型安全的方式表达通用编程模式。Scala功能强大，不仅可以编写简单脚本，还可以构建大型系统。

2024-06-14 10:04:45 1590

原创 ZooKeeper的配置与安装

ZooKeeper（动物园管理员）是一个分布式的、开源的分布式应用程序的协调服务框架，简称zk。ZooKeeper是Apache Hadoop 项目下的一个子项目，是一个树形目录服务。

2024-06-13 10:01:01 1128

原创 Hive的配置及安装

Hive是一个基于Hadoop的开源数据仓库工具，用于存储和处理海量结构化数据。它是Facebook 2008年8月开源的一个数据仓库框架，提供了类似于SQL语法的HQL（hiveSQL）语句作为数据访问接口。

2024-06-12 14:12:33 3713 1

原创电商实战——Hadoop实现【下】

ETL是数据从来源端经过抽取、转换、加载至目的端的过程，没有必要解析出所有数据，只需要解析出有价值的字段即可。本项目中需要解析出：ip、url、pageId（topicId对应的页面Id）、country、province、city。要统计日志的ETL操作，可以使用MapReduce进行处理。代码完成后,提交至Hadoop上进行运行。（打jar包参考我的其他笔记）新建包以及class类。

2024-06-12 10:34:07 444

原创电商实战——Hadoop实现【中】

ETL是数据从来源端经过抽取、转换、加载至目的端的过程，没有必要解析出所有数据，只需要解析出有价值的字段即可。本项目中需要解析出：ip、url、pageId（topicId对应的页面Id）、country、province、city。创建一个Reducer类来接收Mapper的输出，并对相同的省份（通过解析IP）进行求和得到浏览量。配置和运行MapReduce作业：在主函数中进行配置和运行MapReduce作业。要统计各个省份的浏览量（需要解析IP），可以使用MapReduce进行处理。

2024-06-12 10:19:03 617

原创电商实战——Hadoop实现【上】

基于Hadoop大数据技术的电商平台用户行为分析项目旨在构建一个高效、可靠的数据处理和分析平台，实现对海量用户行为数据的快速收集、存储、分析和挖掘。通过深入分析用户行为数据，为电商平台提供精准的用户画像、个性化的商品推荐和优化的运营策略，从而提升用户体验、增加销售额和增强市场竞争力。通过对用户行为数据的深入分析，我们可以了解用户的购物习惯、偏好和需求，进而为用户提供更加精准的商品推荐和个性化服务。Mapper的输入是文件中的一行记录，输出是键值对，其中键是页面的URL，值是常数1。新建包以及class类。

2024-06-12 09:34:07 1214