侧耳倾听童话-CSDN博客

原创 9. 大数据集群(PySpark)+Hive+MySQL+PyEcharts+Flask：信用贷款风险分析与预测

节点/组件/安装包版本备注名称节点master数据节点slave1数据节点slave2JDKjdk-8u281Java运行环境，Spark的运行需要JDK的支持Hadoop提供HDFS、Hive运行环境支持。HDFS系统访问端口为：hdfs://192.168.126.10:9000Hivehive-3.1.2数据仓库PySparkSpark集群的master节点的地址和端口为：spark://192.168.126.10:7077MySQL5.7.18。

2024-08-08 23:12:31 2748 1

原创 7. PySpark推荐模型简明教程

本案例包含两个数据集：评分表ratings.csv和电影表movies.csv。数据集ratings有100836条记录，部分数据如下：userId：用户ID号。movieId：电影ID号。rating：用户对电影的评分。timestamp：时间戳，评分时间。数据集movies有9742条记录，部分数据如下：movieId：电影ID号。title：电影名称。genres：电影类型，如动作片，喜剧片，恐怖片等。

2024-08-01 23:16:40 1607

原创 6. PySpark关联规则及聚类模型简明教程

数据集：简单关联规则分析.txt，为5张购物小票，每张购物小票上面是购买的商品名称，如下图所示。数据集的样本数很少，这里仅为演示PySpark关联规则的简单教程，方便读者理解。在PySpark中，有LDA（Latent Dirichlet Allocation，潜在狄利克雷分配）、BisectingKMeans和KMeans三种不同的聚类或主题模型算法。（1）LDALDA：是一种文档主题生成模型，也是一种无监督学习算法。它主要用于发现文档集合中的潜在主题，并将每个文档表示为这些主题的混合体。

2024-08-01 17:39:08 1854

原创 5. PySpark分类模型简明教程

Spark集群是一种分布式计算框架，它基于内存计算，提供了高效的数据抽象和并行计算能力，能够处理大规模数据集的批处理和实时处理任务。Spark采用内存存储中间计算结果，可减少迭代运算的磁盘I/O，并通过并行计算有向无环图的优化，使其运行速度比MapReduce快100倍；Spark可以使用Hadoop YARN和Apache Mesos作为其资源管理和调度器，可以从多种数据源读取数据，如HDFS、HBase、MySQL等。

2024-07-31 15:08:57 1936

原创 4. PySpark回归模型简明教程

使用线性回归模型LinearRegression类预测小费。数据集tips共有244个样本，各字段的含义如下：total_bill：顾客的总账单金额（美元）。这个字段表示顾客在餐厅消费的总金额，是小费金额计算的一个重要参考。sex：顾客的性别。通常表示为“Male”（男性）或“Female”（女性）。这个字段用于分析性别是否对小费金额有影响。smoker：顾客是否吸烟。通常表示为“Yes”（是）或“No”（否）。这个字段用于分析吸烟习惯是否与小费金额有关。day：用餐的星期几。

2024-07-30 16:41:36 1640

原创 2. PySpark的HDFS和MySQL读写

集群主节点IP地址为：192.168.126.10。先初始化SparkSession，Spark master的默认端口是7077。再读取HDFS数据，HDFS的端口是9000，在HDFS系统的/data/目录下存放了三个数据集：ratings.csv，movies.csv，tags.csv。先读取ratings数据集，该数据集包括4个字段：用户ID（userId），电影ID（movieId），电影评分（rating），时间戳（timestamp）。由上图可知，数据类型默认为string字符型。

2024-07-29 17:54:27 3759

原创 3. PySpark的基本操作

在分组查询（GROUP BY）。groupBy()方法可以根据指定的字段进行分组，在groupBy()方法之后，通常使用统计方法进行计算，如：count()（总和，仅用于数值型字段），mean()、max()、min()、sum()等。从结果可以看出，苹果和荔枝的季度排名差分别为7和6，名列排名差的第一和第二位，它们是季节性最强的水果。**right/right_outer：**这种join就是把右边的表的所有行都取出来，如果左边表有匹配的行，就用匹配的行，如果左边表没有匹配的行，就用NULL代替。

2024-07-29 14:01:21 9287 2

原创 8. 大数据集群（PySpark）+MySQL+PyEcharts+Flask：购物篮数据分析与挖掘

Assignment-1_Data”数据集，包含与消费者购物行为相关的数据，用于市场购物篮分析（MBA）和关联规则挖掘（Association Rule Mining），目的是通过分析消费者在购买过程中的商品组合，揭示商品之间的关联性和购买行为模式。数据集下载地址:购物篮数据集（1）季节性销售波动分析：数据明确显示，英国市场在2011年11月出现了显著的销售量激增，这一趋势很可能与年度购物季（如黑色星期五、圣诞节前购物潮）相吻合，随后在12月虽略有回落，但仍维持较高水平，反映出节日促销活动的持续影响。

2024-07-19 22:13:31 2687

原创 1. Flask+Pyecharts+大数据集群(Linux)：数据可视化大屏的实现

Flask+Pyecharts+大数据集群：数据可视化大屏的实现一、相关技术介绍及相关模块安装1.相关技术介绍（1）Flask（2）Pyecharts（3）大数据集群（4）Pycharm编程工具2.相关模块安装（1）安装Flask（2）安装Pyecharts（3）安装pymysql二、在pycharm新建工程：FlaskPyecharts1.新建Pycharm工程2.下载Echarts的json文件三、Flask+Pyecharts：单图展示1.绘制柱状图2.绘制饼图四、Flask+Pyecharts+本

2024-06-25 13:49:21 3775

原创 Pyecharts快速入门及高清图片保存

Pyecharts快速入门，柱状图、地图Map的绘制，设置Pyecharts图片高清输出

2024-06-22 17:38:45 2339

原创 VMware虚拟机网络连接失败：No route to host

主节点master免密登录从节点slave1失败，提示：打开“服务”

2024-04-03 22:41:40 1069

原创 anaconda卡住不动

打开D:\anaconda3\Lib\site-packages\anaconda_navigator\utils\attribution在attribution文件夹里找到resources并打开requests.get(url)改为：requests.get(url,timeout(0.01,0.1)）修改后问题没解决。

2024-04-03 22:19:48 1410