自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(11)
  • 收藏
  • 关注

原创 PySpark推荐模型简明教程

本案例包含两个数据集:评分表ratings.csv和电影表movies.csv。数据集ratings有100836条记录,部分数据如下:userId:用户ID号。movieId:电影ID号。rating:用户对电影的评分。timestamp:时间戳,评分时间。数据集movies有9742条记录,部分数据如下:movieId:电影ID号。title:电影名称。genres:电影类型,如动作片,喜剧片 ,恐怖片等。

2024-08-01 23:16:40 456

原创 PySpark关联规则及聚类模型简明教程

数据集:简单关联规则分析.txt,为5张购物小票,每张购物小票上面是购买的商品名称,如下图所示。数据集的样本数很少,这里仅为演示PySpark关联规则的简单教程,方便读者理解。在PySpark中,有LDA(Latent Dirichlet Allocation,潜在狄利克雷分配)、BisectingKMeans和KMeans三种不同的聚类或主题模型算法。(1)LDALDA:是一种文档主题生成模型,也是一种无监督学习算法。它主要用于发现文档集合中的潜在主题,并将每个文档表示为这些主题的混合体。

2024-08-01 17:39:08 698

原创 PySparkk分类模型简明教程

Spark集群是一种分布式计算框架,它基于内存计算,提供了高效的数据抽象和并行计算能力,能够处理大规模数据集的批处理和实时处理任务。Spark采用内存存储中间计算结果,可减少迭代运算的磁盘I/O,并通过并行计算有向无环图的优化,使其运行速度比MapReduce快100倍;Spark可以使用Hadoop YARN和Apache Mesos作为其资源管理和调度器,可以从多种数据源读取数据,如HDFS、HBase、MySQL等。

2024-07-31 15:08:57 782

原创 PySpark回归模型简明教程

使用线性回归模型LinearRegression类预测小费。数据集tips共有244个样本,各字段的含义如下:total_bill:顾客的总账单金额(美元)。这个字段表示顾客在餐厅消费的总金额,是小费金额计算的一个重要参考。sex:顾客的性别。通常表示为“Male”(男性)或“Female”(女性)。这个字段用于分析性别是否对小费金额有影响。smoker:顾客是否吸烟。通常表示为“Yes”(是)或“No”(否)。这个字段用于分析吸烟习惯是否与小费金额有关。day:用餐的星期几。

2024-07-30 16:41:36 643

原创 PySpark的HDFS和MySQL读写

集群主节点IP地址为:192.168.126.10。先初始化SparkSession,Spark master的默认端口是7077。再读取HDFS数据,HDFS的端口是9000,在HDFS系统的/data/目录下存放了三个数据集:ratings.csv,movies.csv,tags.csv。先读取ratings数据集,该数据集包括4个字段:用户ID(userId),电影ID(movieId),电影评分(rating),时间戳(timestamp)。由上图可知,数据类型默认为string字符型。

2024-07-29 17:54:27 763

原创 PySpark的基本操作

在分组查询(GROUP BY)。groupBy()方法可以根据指定的字段进行分组,在groupBy()方法之后,通常使用统计方法进行计算,如:count()(总和,仅用于数值型字段),mean()、max()、min()、sum()等。从结果可以看出,苹果和荔枝的季度排名差分别为7和6,名列排名差的第一和第二位,它们是季节性最强的水果。**right/right_outer:**这种join就是把右边的表的所有行都取出来,如果左边表有匹配的行,就用匹配的行,如果左边表没有匹配的行,就用NULL代替。

2024-07-29 14:01:21 267

原创 大数据集群(PySpark)+MySQL+PyEcharts+Flask:购物篮数据分析与挖掘

Assignment-1_Data”数据集,包含与消费者购物行为相关的数据,用于市场购物篮分析(MBA)和关联规则挖掘(Association Rule Mining),目的是通过分析消费者在购买过程中的商品组合,揭示商品之间的关联性和购买行为模式。数据集下载地址:购物篮数据集(1)季节性销售波动分析:数据明确显示,英国市场在2011年11月出现了显著的销售量激增,这一趋势很可能与年度购物季(如黑色星期五、圣诞节前购物潮)相吻合,随后在12月虽略有回落,但仍维持较高水平,反映出节日促销活动的持续影响。

2024-07-19 22:13:31 1100

原创 Flask+Pyecharts+大数据集群(Linux):数据可视化大屏的实现

Flask+Pyecharts+大数据集群:数据可视化大屏的实现一、相关技术介绍及相关模块安装1.相关技术 介绍(1)Flask(2)Pyecharts(3)大数据集群(4)Pycharm编程工具2.相关模块安装(1)安装Flask(2)安装Pyecharts(3)安装pymysql二、在pycharm新建工程:FlaskPyecharts1.新建Pycharm工程2.下载Echarts的json文件三、Flask+Pyecharts:单图展示1.绘制柱状图2.绘制饼图四、Flask+Pyecharts+本

2024-06-25 13:49:21 1217

原创 Pyecharts快速入门及高清图片保存

Pyecharts快速入门,柱状图、地图Map的绘制,设置Pyecharts图片高清输出

2024-06-22 17:38:45 888

原创 VMware虚拟机网络连接失败:No route to host

主节点master免密登录从节点slave1失败,提示:打开“服务”

2024-04-03 22:41:40 311

原创 anaconda卡住不动

打开D:\anaconda3\Lib\site-packages\anaconda_navigator\utils\attribution在attribution文件夹里找到resources并打开requests.get(url)改为:requests.get(url,timeout(0.01,0.1))修改后问题没解决。

2024-04-03 22:19:48 565

PySpark协同过滤模型简明教程

PySpark协同过滤模型简明教程

2024-08-01

PySpark关联规则及聚类模型简明教程

PySpark关联规则及聚类模型简明教程

2024-08-01

PySparkk分类模型简明教材

PySparkk分类模型简明教材

2024-07-31

PySpark回归模型简明教程

PySpark回归模型简明教程

2024-07-30

PySpark的HDFS和MySQL读写

PySpark的HDFS和MySQL读写

2024-07-29

PySpark的HDFS和MySQL读写

PySpark的HDFS和MySQL读写

2024-07-29

PySpark的HDFS和MySQL读写

PySpark的HDFS和MySQL读写

2024-07-29

PySpark的基本操作

PySpark的基本操作

2024-07-29

大数据集群(PySpark)+Python+PyEcharts+Flask:购物篮数据分析与挖掘

大数据集群(PySpark)+Python+PyEcharts+Flask:购物篮数据分析与挖掘

2024-07-24

大数据集群(PySpark)+Python+PyEcharts+Flask:购物篮数据分析与挖掘

大数据集群(PySpark)+Python+PyEcharts+Flask:购物篮数据分析与挖掘

2024-07-19

FlaskPyecharts项目全部资料

FlaskPyecharts项目全部资料

2024-06-25

student.scv

student.scv

2024-06-25

数据集:软件工程.csv

各省具备培养软件工程专业硕士研究生资格的高校数量

2024-06-22

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除