自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(14)
  • 问答 (1)
  • 收藏
  • 关注

原创 协同过滤算法

​ 人们经常会在视频平台上观看影片,有时目标明确,想要观看某部电影,但有时仅仅是随机搜寻。​ 如果视频平台可以利用基于物品的智能推荐系统,有效地从用户对其观看过的电影的评分中挖掘数据,便可以根据用户偏好的电影个性化地推荐更多类似的电影,优化用户体验,提高用户粘性,创造额外收入。

2024-06-19 08:47:08 880

原创 Spark SQL的基本使用和操作

​ Spark SQL是一个用于结构化数据处理的Spark组件。所谓结构化数据,是指具有Schema信息的数据,例如JSON、Parquet、Avro、CSV格式的数据。与基础的Spark RDD API不同,Spark SQL提供了对结构化数据的查询和计算接口。将SQL查询与Spark应用程序无缝组合​ Spark SQL允许使用SQL或熟悉的API在Spark程序中查询结构化数据。

2024-06-18 08:45:00 1365

原创 RDD创建及RDD算子

​ Spark提供了一种对数据的核心抽象,称为弹性分布式数据集(Resilient Distributed Dataset,简称RDD)。这个数据集的全部或部分可以缓存在内存中,并且可以在多次计算时重用。RDD其实就是一个分布在多个节点上的数据集合。​ RDD的弹性主要是指:当内存不够时,数据可以持久化到磁盘,并且RDD具有高效的容错能力。​ 分布式数据集是指:一个数据集存储在不同的节点上,每个节点存储数据集的一部分。

2024-06-17 14:38:27 755

原创 Python文本数据挖掘——电商寻求市场增长点(下)

无监督常用的是主题模型LDA,其他诸如 分群,情感分析也可以 · 清洗流程中,尤其是口语化较强的数据,例如评论数据,需要去除重复语句,以及字数少 于某个阈值的评论.■所有宝贝下滑:关注动态评分,尤其是售后评分,可能的原因有:季节,竞争对手,官方 活动。可见拜耳和安速的流量配比是差不多的,安速的整体流量小很多,即流量效果拜耳明显优于安速。

2024-06-17 11:40:07 447

原创 Python文本数据挖掘——电商寻求市场增长点(中)

可见大部分仍然是灭蟑和杀虫 · 交易增长幅度最大的是灭鼠,而之前描述过灭鼠有最高的市场份额,可以作为下一步着 力点 · 总结:拜耳大部分产品集中在除蟑上,杀虫也有一定的规模,但是明星产品略乏力,可以 进一步发展问题产品灭鼠为明星产品。明星产品:都关心,依什么排序都可以,产品一般不多 奶牛产品:老爆款,关心市场份额,依交易金额占比排序 问题产品,潜力款,关心市场增长率,依交易增长幅度排序。总结:拜耳大部分产品集中在除蟑上,杀虫也有一定的规模,但是明星产品略乏力,可以进一步发展问题产品灭鼠为明星产品。

2024-06-17 11:38:39 451

原创 Python文本数据挖掘——电商寻求市场增长点(上)

每个环节都有具体的要求,例如需求文档要求包含:目的,分析思路,预期效果业务部门出问题和需求,以及对算法&数据部门输出报告的理解和应用客户介绍:拜耳官方旗舰店客户需求:拜耳官方旗舰店寻求市场增长点产品架构。

2024-06-17 11:36:47 462

原创 Scala的介绍

Scala是一种将面向对象和函数式编程结合在一起的高级语言,旨在以简洁、优雅和类型安全的方式表达通用编程模式。Scala功能强大,不仅可以编写简单脚本,还可以构建大型系统。

2024-06-14 10:04:45 962

原创 ZooKeeper的配置与安装

ZooKeeper(动物园管理员)是一个分布式的、开源的分布式应用程序的协调服务框架,简称zk。ZooKeeper是Apache Hadoop 项目下的一个子项目,是一个树形目录服务。

2024-06-13 10:01:01 447

原创 Hive的配置及安装

Hive是一个基于Hadoop的开源数据仓库工具,用于存储和处理海量结构化数据。它是Facebook 2008年8月开源的一个数据仓库框架,提供了类似于SQL语法的HQL(hiveSQL)语句作为数据访问接口。

2024-06-12 14:12:33 1012

原创 电商实战——Hadoop实现【下】

ETL是数据从来源端经过抽取、转换、加载至目的端的过程,没有必要解析出所有数据,只需要解析出有价值的字段即可。本项目中需要解析出:ip、url、pageId(topicId对应的页面Id)、country、province、city。要统计日志的ETL操作,可以使用MapReduce进行处理。代码完成后,提交至Hadoop上进行运行。(打jar包 参考我的其他笔记)新建包以及class类。

2024-06-12 10:34:07 390

原创 电商实战——Hadoop实现【中】

ETL是数据从来源端经过抽取、转换、加载至目的端的过程,没有必要解析出所有数据,只需要解析出有价值的字段即可。本项目中需要解析出:ip、url、pageId(topicId对应的页面Id)、country、province、city。创建一个Reducer类来接收Mapper的输出,并对相同的省份(通过解析IP)进行求和得到浏览量。配置和运行MapReduce作业:在主函数中进行配置和运行MapReduce作业。要统计各个省份的浏览量 (需要解析IP),可以使用MapReduce进行处理。

2024-06-12 10:19:03 551

原创 电商实战——Hadoop实现【上】

基于Hadoop大数据技术的电商平台用户行为分析项目旨在构建一个高效、可靠的数据处理和分析平台,实现对海量用户行为数据的快速收集、存储、分析和挖掘。通过深入分析用户行为数据,为电商平台提供精准的用户画像、个性化的商品推荐和优化的运营策略,从而提升用户体验、增加销售额和增强市场竞争力。通过对用户行为数据的深入分析,我们可以了解用户的购物习惯、偏好和需求,进而为用户提供更加精准的商品推荐和个性化服务。Mapper的输入是文件中的一行记录,输出是键值对,其中键是页面的URL,值是常数1。新建包以及class类。

2024-06-12 09:34:07 887

原创 【实训第二天】打jar包记录以及手机流量分析的完善

注意在处应该放入此次项目的主函数文件。

2024-06-06 00:58:18 229

原创 手机流量统计项目【实训日志1】

基于MapReduce的手机流量统计

2024-06-04 23:56:25 766 1

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除