开朗小哥-CSDN博客

原创毕业设计博客分享平台的设计与实现（博客推荐系统升级、大数据组件、可视化大屏、文章查重）

而一个词语在一篇文章中多次出现，则认为该词语有很高的重要性，即一个词语的重要性与它在文档中出现的次数成正比，与它在语料库中出现的频率成反比。系统于每天凌晨一点自动执行基于Spark计算框架的SimHash算法，计算已发布博客的Hash码并将结果存入数据库，每五分钟自动将待审核的博客与数据库中的数据进行比对，将相似的文章存入数据库中的审核表，等待管理员人工审核，此状态的博客是无法在博客平台上浏览的，而不存在相似博客的待审核博客则自动通过系统审核，标记为发布成功的状态，并将其展示到前端界面，供用户浏览。

2024-07-26 15:17:05 940

原创第五章 Hive的安装与配置

系列文章：第一章 Hadoop集群搭建的准备第二章 Hadoop集群搭建第三章 Zookeeper分布式集群部署（2n+1台虚拟机）第四章 Hadoop高可用集群搭建（HA）待更新第九章 spark独立模式部署（Standalone）第十章 spark配置历史服务第十一章搭建Spark高可用（HA）第十二章 spark配置Yarn模式（混合部署模式）待更新文章目录前言一、嵌入模式。二、本地模式。1.配置Hadoop集群的配置文件（配置文件都保存在/export/servers/ha

2022-04-30 21:40:39 6844

原创第十二章 spark配置Yarn模式（混合部署模式）

系列文章：第一章 Hadoop集群搭建的准备第二章 Hadoop集群搭建第三章 Zookeeper分布式集群部署（2n+1台虚拟机）第四章 Hadoop高可用集群搭建（HA）待更新第九章 spark独立模式部署（Standalone）第十章 spark配置历史服务第十一章搭建Spark高可用（HA）第十二章 spark配置Yarn模式待更新文章目录Spark设置Yarn模式1.停止集群。2.修改Hadoop的配置文件。3.修改spark-env.sh文件。4.启动HDFS和YARN

2022-02-20 17:47:52 2899

原创第十一章搭建Spark高可用（HA）

spark高可用（HA）Spark高可用Spark高可用前提：进入spark目录（这里是/export/servers/spark-3.1.2）1.停止集群。sbin/stop-all.sh2.三台虚拟机均开启Zookeeper。进入Zookeeper的bin目录（这里是/export/servers/zookeeper-3.4.10/bin）./zkServer.sh start3.修改spark-env.sh文件，添加如下配置：#注释以下内容#SPARK_MASTER_HOST=

2022-02-19 11:49:56 2240

原创第十章 spark配置历史服务

系列文章：第一章 Hadoop集群搭建的准备第二章 Hadoop集群搭建第三章 Zookeeper分布式集群部署（2n+1台虚拟机）第四章 Hadoop高可用集群搭建（HA）待更新文章目录修改配置文件（先进入spark-3.1.2的conf目录）1、修改spark-defaults.conf文件。2、修改spark-env.sh文件，执行以下操作。3、将配置好后的配置文件分发到其他虚拟机。4、启动集群和历史服务。5、提交应用测试集群。由于spark-shell停止后，集群监控node1:4

2022-02-18 08:22:16 2509 3

原创第九章 spark独立模式部署（Standalone）

系列文章：第一章 Hadoop集群搭建的准备第二章 Hadoop集群搭建第三章 Zookeeper分布式集群部署（2n+1台虚拟机）第四章 Hadoop高可用集群搭建（HA）待更新文章目录一、下载安装包二、上传安装包，并解压至/export/servers目录下三、修改配置文件（先进入spark-3.1.2的conf目录）1、修改slaves文件，执行以下操作。2、修改spark-env.sh文件，执行以下操作。3、将配置好后的spark-3.1.2安装包分发到其他虚拟机。4、启动集群。一

2022-02-17 10:33:39 2599

原创第四章搭建Hadoop高可用集群（HA）

系列文章：第一章 Hadoop集群搭建的准备第二章 Hadoop集群搭建第三章 Zookeeper分布式集群部署（2n+1台虚拟机）第四章 Hadoop高可用集群搭建（HA）待更新文章目录前言一、搭建普通Hadoop集群，设三台主机名为node1，node2，node3。二、Hadoop集群配置1.配置Hadoop集群的配置文件（配置文件都保存在/export/servers/hadoop-2.7.4/etc/hadoop目录下）（1）配置Hadoop集群主节点（这里将node1作为主节点）

2022-02-15 23:28:16 2392

原创第三章 Zookeeper分布式集群部署（2n+1台虚拟机）

文章目录一、下载安装包二、上传安装包，并解压至/export/servers目录下三、修改配置文件四、配置环境变量五、将zookeeper相关文件和修改后的/etc/profile文件分发到其他虚拟机。六、zookeeper服务的启动与关闭一、下载安装包清华镜像下载连接：https://mirrors.tuna.tsinghua.edu.cn/apache/zookeeper/二、上传安装包，并解压至/export/servers目录下进入/export/sofware/目录，用rz命

2022-02-14 23:06:34 1430

原创博客推荐系统（适合初学者的javaweb+hadoop结课设计）

博客推荐系统是向用户推荐可能感兴趣的博客的系统。分为游客状态和登录状态（功能：展示最新的博客、推荐热度最高的博客、按分类推荐博客、登录注册、点赞收藏、修改个人资料、发表管理博客、管理收藏的博客以及针对用户喜好推荐博客。）。

2022-01-13 19:11:22 4280 2

原创第二章 Hadoop集群搭建

Hadoop集群搭建提示：这里可以添加系列文章的所有文章的目录，目录需要自己手动添加例如：第一章 Python 机器学习入门之pandas的使用提示：写完文章后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录Hadoop集群搭建前言一、pandas是什么？二、JDK安装1.下载JDK2.安装JDK1.引入库2.读入数据总结前言提示：这里可以添加本文要记录的大概内容：例如：随着人工智能的不断发展，机器学习这门技术也越来越重要，很多人都开启了学习机器学习，本文就介绍了机器学习的基础内

2021-09-14 09:06:57 2516

原创第一章 Hadoop集群搭建前的准备

Hadoop集群搭建的准备第一章 Hadoop集群搭建的准备文章目录Hadoop集群搭建的准备前言一、Linux网络配置1.查看五个VMware相关服务是否开启。2.VMware Workstation Pro软件设置。3.windows下，打开设置中的“网络和Internet”。4.将虚拟机完整克隆两台。5.Linux下的配置。（1）配置主机名。（2）配置IP映射，IP的可选范围在第二步中的“起始IP地址”与“结束IP地址”之间。6.设置网卡设备的Mac地址。（1）查看虚拟机Mac地址。（2）打开虚

2021-09-08 18:39:51 2402

原创 python实现ID3决策树及随机森林

前言数据集：一、对数据集进行训练集和测试集划分从数据集中无放回地随机抽选80%的样本作为训练集，剩下的20%划分为测试集。将训练集和测试集分别存放到train_data.csv和test_data.csv文件中。二、ID3算法实现1.实现ID3决策树算法的首要工作是数据的特征选择，需要在特征集合中挑选出能最大化减小数据样本集不确定程度的特征，将之作为节点。而不确定程度可以用信息增益来表示。根据熵和条件熵的概念，可以得知熵与条件熵的差就是样本集不确定程度的减少量，即信息增益。这里创建entro

2021-07-25 19:34:58 959 1

原创页面置换算法（java）

页面置换算法在一个请求分页系统中，分别采用最佳置换算法、先进先出置换算法、最近最久未使用置换算法(LRU)时，假如一个作业的页面走向为4、3、2、1、4、3、5、4、3、2、1、5，当分配给该作业的物理块数M分别为3和4时，试计算在访问过程中所发生的缺页次数和缺页率，并比较所得结果。实验步骤与记录（一）准备阶段因为作业的页面走向是一串数字，因此可以定义一个数组 pageString[] 来储存将要发送请求的页号，同时还需要定义一个数组 inStore[] 作为分配给该作业的内存物理块以及定义一个变量

2021-02-26 14:21:00 2715 2

原创模拟请求分页系统中的地址变换过程(java)

模拟请求分页系统中的地址变换过程创建请求页表，通过编程模拟缺页中断和地址变换，实现请求调页功能和页面置换功能。环境JDK8+eclipse步骤（一）请求页表及快表的创建012345页号物理块号状态位P访问字段A修改位M外存地址物理块号：当页在外存时为外存的物理块号，在内存时为内存的物理块号。状态位P：0为此页在外存，1为此页在内存。访问字段A：该页被访问的次数。修改位M：0为该页未被修改，1为该页被修改。外存地址：等于该页的外存物理块号。分析

2021-02-26 13:57:39 8714

原创 java用户登录界面并连接数据库（教师工资查询）

java用户登录界面并连接数据库（教师工资查询）环境语言：Java；数据库：MySql；环境：JDK8+Eclipse步骤实现该教师工资表管理所设计的类和文件（1）db.properties：数据库配置文件，文件内容是"键=值"的格式，保存了链接所需的驱动程序名、url、用户名、密码等信息，配置文件如图1所示。这样在数据库相关的信息有变动时，只需变更文件内容即可，而不需要去更改代码，提高了代码的复用性。（2）DBManager：该类用读取数据库配置文件，进而链接数据库，减少程序的冗余，实现程序的

2021-02-25 17:02:42 956

电影信息爬虫（基于Springboot，自动建表并爬取豆瓣数据）

表设计有：用户表、影片信息表、评论表、类别表无需手动建表，创建名为moviedb的数据库即可。其中用户信息表只有用户名称是真实爬取的，与评论关联，其他用户信息均是模拟生成的。影片信息表包含详细的影片信息包括海报、导演、演员、简介、上映时间、国家等等。

2024-07-26

python3.8中文帮助文档离线CHM版

python3.8中文帮助文档离线CHM版 python3.8.chm

2022-01-13

基于物品的协同过滤算法（mapreduce）

2022-02-21

java用户登录界面并连接数据库（教师工资查询）

使用图形用户界面及表格JTable的形式显示教师工资信息。进行登录（用户名为手机号或身份证或学号）界面的设计。登录成功后，查看教师个人工资情况；登录不成功，要有相应的提示信息。

2021-02-25

博客推荐系统（javaweb或Hadoop结课作业，可部署在linux上）

博客推荐系统是向用户推荐可能感兴趣的博客的系统。分为游客状态和登录状态（功能：展示最新的博客、推荐热度最高的博客、按分类推荐博客、登录注册、点赞收藏、修改个人资料、发表管理博客、管理收藏的博客以及针对用户喜好推荐博客。）。压缩包中有博客数据采集的爬虫代码、建立数据表所需的数据、建表语句、Javaweb项目文件、MapReduce项目文件（推荐算法，基于物品的协同过滤算法）和打包好的jar包、自动化执行推荐算法的shell脚本。可作为javaweb或Hadoop结课作业的参考。

2022-01-13

python实现PageRank算法

内含数据集。执行main.py即可

2021-07-25

ID3决策树及随机森林.zip

使用ID3决策树：先运行cut_data.py划分训练集和测试集。然后运行tree_main.py。使用随机森林：运行forest.py即可。注：，含有数据集，使用前要修改代码中数据集的路径。

2021-07-25

页面置换算法（java）

最佳置换算法、先进先出置换算法、最近最久未使用置换算法(LRU) 在一个请求分页系统中，分别采用最佳置换算法、先进先出置换算法、最近最久未使用置换算法(LRU)时，假如一个作业的页面走向为4、3、2、1、4、3、5、4、3、2、1、5，当分配给该作业的物理块数M分别为3和4时，试计算在访问过程中所发生的缺页次数和缺页率，并比较所得结果。

2021-02-26