自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

ZShiJ的博客

欢迎大家阅读评论

  • 博客(146)
  • 收藏
  • 关注

原创 基于Flask的岗位就业可视化系统(总)

将清洗后的数据存储到sql中return time_str.format("年", "月", "日")# 连接数据库# 关闭数据库if cursor:if con:# 定义函数来执行单独一条sql语句return ressql = 'select count(岗位链接), round(avg(薪水), 2), ' \

2024-04-26 07:00:00 1380

原创 机器学习 —— 使用机器学习进行情感分析 详细介绍版

定义参数网格,用于网格搜索和交叉验证。参数网格中包含了多个参数的取值组合,通过尝试不同的组合来找到最佳的模型参数。具体参数含义如下:vect__ngram_range: [(1, 1)] 表示单词组合的范围为单个单词,不考虑多个单词的组合。vect__stop_words: [stop, None] 表示停用词列表的取值,包括使用预定义的停用词列表stop和不使用停用词列表。

2024-04-10 08:00:00 1110

原创 数据挖掘实战 —— 抖音用户浏览行为数据分析与挖掘(总)

本项目实现抖音用户浏览行为数据分析与挖掘。本次项通过数据挖掘技术对抖音用户的浏览行为数据进行分析和挖掘,以获得有价值的信息和洞察,并将其应用于实际场景中,如用户个性化推荐、内容优化和广告定向投放等。

2024-02-20 11:00:00 2918 3

原创 【题解】—— 2024年每日一道题目栏

LeetCode每日一道题目栏

2024-01-15 09:00:00 573

原创 博客的简介(文章目录)

大家可以把这个当做目录,从中选择自己需要的内容进行阅览,欢迎大家一键三连!!!!话题讨论专栏点击进入话题讨论专栏主要文章:神奇的代码——可随意修改复制页面内容Python专栏点击进入Python专栏相关专栏软件测试专栏数据挖掘专栏主要文章:【python】习题 1-5周【python】习题 6-10周Anaconda下载安装与使用Jupyter Notebook的使用Pandas使用简介Numpy使用简介可视化工具使用简介软件测试专栏点击进入软件测试专栏。

2024-01-05 15:35:06 941

原创 神奇的代码——可随意修改复制页面内容

需要注意的是,这段代码只能在支持JavaScript的浏览器中运行,并且需要具有足够的权限才能修改网页内容。进入开发者模式:在大多数浏览器中,你可以通过按下F12键或右键单击页面并选择"检查"来进入开发者模式。是一个JavaScript代码,用于将文档的模式设置为可编辑模式。这段代码是用于在网页中以可编辑模式打开原始页面的JavaScript代码。输入命令:在控制台中,你可以输入任何有效的JavaScript代码。这意味着你可以在控制台中直接编辑网页的内容,就像在Word文档中一样。

2023-12-20 14:55:38 297

原创 python自动化测试实战 —— CSDN的Web页面自动化测试

CSDN(China Software Developer Network)是中国最大的IT社区和知识分享平台,提供了丰富的技术文章、博客、问答等内容,吸引了大量的开发者和技术爱好者。测试的目标是针对CSDN的Web页面进行功能和性能测试。CSDN首页页面:CSDN的首页是用户访问CSDN网站的入口页面,展示了最新的技术文章、博客、问答等内容。测试目标是验证CSDN首页页面是否成功加载,包括页面元素是否正确显示、数据是否正常加载等。

2023-12-14 08:00:00 948

原创 大数据实战——基于Hadoop的Mapreduce编程实践案例的设计与实现

通过充分利用分布式计算,Hadoop实现了对大规模数据的高效处理,使得复杂的数据分析任务变得可管理和高效。通过这一实践案例,我们可以深入了解Hadoop的MapReduce编程模型,以及如何在实际应用中利用其优势来处理和分析海量数据。

2023-08-25 10:15:36 2632 2

原创 图的存储结构之打印邻接表

邻接表文章目录邻接表一、邻接表是什么?二、构建图的邻接表1.构建 图的邻接表 函数2.主函数(全代码)输入格式输入格式输入样例输出样例三、可运用邻接表的题目ag1:路径判断 (20 分)输入格式:输出格式:输入样例1输出样例1输入样例2输出样例2代码:(用DFS)ag2:最短路径 (20 分)输入格式:输出格式:输入样例1:输出样例1:输入样例2:输出样例2:代码:(用BFS)一、邻接表是什么?图的邻接表存储方法跟树的孩子链表示法相类似,是一种顺序分配和链式分配相结合的存储结构。如这个表头结点所

2021-05-28 12:30:14 557

原创 泰坦尼克号乘客生存情况预测分析总

Titanic数据集在数据分析领域是十分经典的数据集,非常适合刚入门的小伙伴进行学习!泰坦尼克号轮船的沉没是历史上最为人熟知的海难事件之一。1912年4月15日,在她的处女航中,泰坦尼克号在与冰山相撞后沉没,在船上的 2224 名乘客和机组人员中,共造成 1502 人死亡。这场耸人听闻的悲剧震惊了国际社会,从而促进了船舶安全规定的完善。造成海难失事的原因之一是乘客和机组人员没有足够的救生艇。尽管在沉船事件中幸存者有一些运气因素,但有些人比其他人更容易存活下来,究竟有哪些因素影响着最终乘客的生存与否呢?

2024-04-28 07:00:00 902

原创 泰坦尼克号乘客生存情况预测分析3

Titanic数据集在数据分析领域是十分经典的数据集,非常适合刚入门的小伙伴进行学习!泰坦尼克号轮船的沉没是历史上最为人熟知的海难事件之一。1912年4月15日,在她的处女航中,泰坦尼克号在与冰山相撞后沉没,在船上的 2224 名乘客和机组人员中,共造成 1502 人死亡。这场耸人听闻的悲剧震惊了国际社会,从而促进了船舶安全规定的完善。造成海难失事的原因之一是乘客和机组人员没有足够的救生艇。尽管在沉船事件中幸存者有一些运气因素,但有些人比其他人更容易存活下来,究竟有哪些因素影响着最终乘客的生存与否呢?

2024-04-28 06:00:00 265

原创 泰坦尼克号乘客生存情况预测分析2

Titanic数据集在数据分析领域是十分经典的数据集,非常适合刚入门的小伙伴进行学习!泰坦尼克号轮船的沉没是历史上最为人熟知的海难事件之一。1912年4月15日,在她的处女航中,泰坦尼克号在与冰山相撞后沉没,在船上的 2224 名乘客和机组人员中,共造成 1502 人死亡。这场耸人听闻的悲剧震惊了国际社会,从而促进了船舶安全规定的完善。造成海难失事的原因之一是乘客和机组人员没有足够的救生艇。尽管在沉船事件中幸存者有一些运气因素,但有些人比其他人更容易存活下来,究竟有哪些因素影响着最终乘客的生存与否呢?

2024-04-27 07:00:00 673 4

原创 泰坦尼克号乘客生存情况预测分析1

Titanic数据集在数据分析领域是十分经典的数据集,非常适合刚入门的小伙伴进行学习!泰坦尼克号轮船的沉没是历史上最为人熟知的海难事件之一。1912年4月15日,在她的处女航中,泰坦尼克号在与冰山相撞后沉没,在船上的 2224 名乘客和机组人员中,共造成 1502 人死亡。这场耸人听闻的悲剧震惊了国际社会,从而促进了船舶安全规定的完善。造成海难失事的原因之一是乘客和机组人员没有足够的救生艇。尽管在沉船事件中幸存者有一些运气因素,但有些人比其他人更容易存活下来,究竟有哪些因素影响着最终乘客的生存与否呢?

2024-04-27 06:00:00 299

原创 基于Flask的岗位就业可视化系统(py版本介绍)

你将会学到1 Python爬虫:盗亦有道,掌握requests和xpath的相关用法。2 数据清洗:能详细知道项目中数据预处理的步骤,包括去重去缺失值、变量重编码、特征字段创造和文本数据预处理,玩转pandas、numpy相关用法。3 数据库知识:select、insert等操作,掌握pymysql相关用法。4 前后端知识:了解到HTML、JQuery、JavaScript、Ajax的相关用法。5 Flask知识:能快速建立起一个轻量级的Web框架,利用Python实现前后端交互。

2024-04-26 07:15:00 696

原创 基于Flask的岗位就业可视化系统(四)

本项目综合了基本数据分析的流程,包括数据采集(爬虫)、数据清洗、数据存储、数据前后端可视化等推荐阅读顺序为:数据采集——>数据清洗——>数据库存储——>基于Flask的前后端交互,有问题的话可以留言,有时间我会解疑~

2024-04-25 07:30:00 1053

原创 基于Flask的岗位就业可视化系统(三)

本项目综合了基本数据分析的流程,包括数据采集(爬虫)、数据清洗、数据存储、数据前后端可视化等推荐阅读顺序为:数据采集——>数据清洗——>数据库存储——>基于Flask的前后端交互,有问题的话可以留言,有时间我会解疑~

2024-04-25 07:00:00 1672

原创 基于Flask的岗位就业可视化系统(二)

本项目综合了基本数据分析的流程,包括数据采集(爬虫)、数据清洗、数据存储、数据前后端可视化等推荐阅读顺序为:数据采集——>数据清洗——>数据库存储——>基于Flask的前后端交互,有问题的话可以留言,有时间我会解疑~

2024-04-24 14:49:10 649

原创 基于Flask的岗位就业可视化系统(一)

本项目综合了基本数据分析的流程,包括数据采集(爬虫)、数据清洗、数据存储、数据前后端可视化等推荐阅读顺序为:数据采集——>数据清洗——>数据库存储——>基于Flask的前后端交互,有问题的话可以留言,有时间我会解疑~

2024-04-24 14:48:57 1008

原创 数据挖掘实战 —— 抖音用户浏览行为数据分析与挖掘(续)

本项目实现抖音用户浏览行为数据分析与挖掘。抖音是一款流行的短视频平台,用户在使用抖音时会产生大量的浏览行为数据,包括用户的观看视频、点赞、评论、分享等行为。本次项通过数据挖掘技术对抖音用户的浏览行为数据进行分析和挖掘,以获得有价值的信息和洞察,并将其应用于实际场景中,如用户个性化推荐、内容优化和广告定向投放等。

2024-04-22 08:00:00 963

原创 【题解】—— LeetCode一周小结16

LeetCode每日一道一周小结16

2024-04-22 07:00:00 839

原创 成为程序员后你都明白了什么?

最初,我对编程语言和算法等基础知识了解甚少,但随着时间的推移,我逐渐掌握了多种编程语言,例如Python、Java和C++等。我意识到,作为一名程序员,我不仅仅是编写代码的工具,而是一个解决问题的专家。我需要具备良好的逻辑思维能力和问题解决能力,能够分析和理解复杂的业务需求,并提供有效的解决方案。总结起来,成为程序员后,我在技术上取得了成长和突破,对职业价值有了更深入的认识,体验到了工作中的挑战和成就感。我也学会了如何制定合理的工作计划和时间管理,以提高团队的效率和产出。成为程序员后,我明白了许多事情。

2024-04-18 21:38:58 360 1

原创 Python爬取猫眼电影票房 + 数据可视化

通过造一个content字符串,包含请求方法、时间戳、User-Agent、index等信息,并对其进行MD5加密得到sign。接着我们就可以对于猫眼电影票房数据进行爬取了,比如上座率、场均人次、票房占比、电影名称、上映时间、综合票房、排片场次和排片占比等。接着我们想要进行数据抓包,就要看网站的具体内容,通过按F12,我们可以看到详细信息。所以我们需要对User-Agent与signKey分别进行解密。通过DataFrame输出到控制台我们可以看到爬取成功。对猫眼电影票房进行爬取,首先我们打开。

2024-04-18 07:00:00 1155 4

原创 百货商场用户画像描绘与价值分析附录

本项目内容主要是基于Python的“百货商场用户画像描述与价值分析”,里面有详细的数据预处理、数据可视化和数据建模等步骤。同时,针对传统RFM模型进行了改进,构造了LRFMP模型来分析客户价值,挖掘客户价值的八个字段,并通过WordCloud形式展现了出来,可以对会员用户进行精准画像。

2024-04-17 08:00:00 820

原创 百货商场用户画像描绘与价值分析

本项目内容主要是基于Python的“百货商场用户画像描述与价值分析”,里面有详细的数据预处理、数据可视化和数据建模等步骤。同时,针对传统RFM模型进行了改进,构造了LRFMP模型来分析客户价值,挖掘客户价值的八个字段,并通过WordCloud形式展现了出来,可以对会员用户进行精准画像。

2024-04-17 07:00:00 1359

原创 淘宝天猫玩具销售数据可视化

淘宝销售乐高商品的店铺及其乐高产品、销量的信息进行分析数据集包括销售乐高的店铺信息、乐高的种类产品、销售省份等淘宝、天猫。

2024-04-16 10:00:00 735

原创 关于运动员伤病预测数据集的探索

为了帮助调整训练计划以降低受伤风险,我们可以基于现有的数据集来提供一些建议。监控训练强度:分析显示:训练强度与受伤可能性之间存在微弱的正相关关系。建议运动员和教练团队密切监控训练强度,避免过度训练。可以考虑使用心率监测器和其他可穿戴设备来跟踪训练强度,并据此调整训练计划。注意体重和身高:分析显示:体重和身高是预测受伤可能性的重要因素。运动员应该确保他们的体重和身高比例适当,避免过重或过高的体重增加受伤风险。考虑年龄因素:分析显示:随着年龄的增长,运动员的身体恢复能力和适应性可能会下降。

2024-04-16 07:00:00 1489

原创 实习僧网站的实习岗位信息分析

主要对“实习僧网站”招聘数据挖掘、机器学习的实习岗位信息进行分析。数据主要来自“数据挖掘”、“机器学习”和“算法”这3个关键词下的数据。1.由于小E想要找的实习公司是机器学习算法相关的工作,所以只对“数据挖掘”、“机器学习”、“算法”这三个关键字进行了爬取;2.因此,分析目标就是国内公司对机器学习算法实习生的需求状况(仅基于实习僧网站),以及公司相关的分析。该数据主要用于“实习僧网站”招聘数据挖掘、机器学习的实习岗位信息进行分析。4.data_clean.csv(空文件,以便清洗后存放干净数据)

2024-04-15 08:00:00 1689 2

原创 【题解】—— LeetCode一周小结15

LeetCode每日一道一周小结15

2024-04-15 07:45:00 939

原创 机器学习 —— 使用机器学习进行情感分析 演示版

如上图所示,test和train目录下都有25000个数据集,分别在neg 与 pos文件夹下,代表负面(6分以下)和正面(6分以上)的评论。正则表达式就是利用特殊符号构建的一种规则,将文本中符合这种规则的字符串提取或者消除的一种方式,在这里我们构建了符合HTML符号的一种规则,将HTML符号在我们的文本数据中进行剔除。如图所示,在训练集上进行部分拟合后,十次迭代的准确度与测试集经过十次迭代的准确度相差不远,说明模型欠拟合。使用词袋模型,首先对文本数据进行词汇分割,这里利用文本中的空格进行分割。

2024-04-10 10:30:00 877

原创 机器学习 —— MNIST手写体识别

给定数据集MNIST,Downloading data from https://storage.googleapis.com/tensorflow/tf-keras-datasets/mnist.npzMNIST是一个计算机视觉数据集,它包含各种手写数字图片0,1,2,…,9MNIST数据集包含:60000行的训练数据集(mnist.train)和10000行的测试数据集(mnist.test)。

2024-04-09 14:00:00 1717

原创 机器学习 —— 分类预测与集成学习

本文使用工具本文使用数据集从指定的数据源读取数据,对数据进行必要的处理,选取合适的特征,构造分类模型,确定一个人的年收入是否超过50K。数据来源:1994年美国人口普查数据库。(原始数据下载地址:https://archive.ics.uci.edu/ml/datasets/Adult )。数据存放在data目录中,其中,adult.data存放训练数据,adult.test存放测试数据。特征列age:年龄,整数。

2024-04-09 08:00:00 774

原创 机器学习 —— 数据分析与图表绘制

将日期进行分割# 自定义函数::分隔销售口期,获取销售日期# 输入:timeColSer销售时间这一列,是个Series数据类型# 输出:分割后的时间,返回的也是Series数据类型for t in timeColser:# [0]表示选取的分片,这里表示切割完后选取第一个分片timelist.append(t.split(" ")[0])# split(" ")分割timeser = pd.Series(timelist)# 将列表转行为一维数据Series类型。

2024-04-08 14:00:00 689 2

原创 【题解】—— LeetCode一周小结14

LeetCode每日一道一周小结14

2024-04-08 08:30:00 963

原创 图书馆信息管理系统(总)

角色或者执行者指与系统产生交互的外部用户或者外部系统。本次的项目做的是一个图书信息管理系统,简易上来称,其是一个计算机管理系统,也就是将传统手工的管理方式转变为智能化、标准化、规范化的管理管理模式,对图书馆中所有的图书、文献资料、音像资料、报刊、期刊等各种类型的资料实现采编、收集图书信息、检索、归档、流通以及一系列相关工作的计算机化、信息化管理。

2024-04-03 10:00:00 1243

原创 图书馆信息管理系统(项目测试)

图书馆信息管理系统(项目测试)

2024-04-03 08:00:00 901

原创 图书馆信息管理系统(项目实现)

图书馆信息管理系统(项目实现)

2024-04-02 09:00:00 1004

原创 图书馆信息管理系统(项目需求和计划、项目设计)

图书馆信息管理系统(项目需求和计划、项目设计)

2024-04-02 08:00:00 784

原创 图书馆管理系统系统分析与设计

UML:Unified Modeling Language(统一建模语言)的缩写,是一个标准的建模语言。现在来分别阐述一下图书馆管理系统的来源、背景,项目的用户特点和项目的目标。角色或者执行者指与系统产生交互的外部用户或者外部系统。[专门术语]:UML:Unified Modeling Language(统一建模语言)的缩写,是一个标准的建模语言。SQL SERVER: 系统服务器所使用的数据库管理系统(DBMS)SQL: 一种用于访问查询数据库的语言。

2024-04-01 09:00:00 1266

原创 【题解】—— LeetCode一周小结13

LeetCode每日一道一周小结13

2024-04-01 08:00:00 634

原创 【题解】—— LeetCode一周小结12

LeetCode每日一道一周小结12

2024-03-25 12:54:04 1048

Hadoop安装文档.pdf

Hadoop安装文档.pdf

2023-12-20

hive安装文档(新).pdf

hive安装文档(新)

2023-12-20

hive安装.mp4

hive安装视频

2023-12-20

hdfs实验.pdf

hdfs实验.pdf 具体内容可看大数据实战文章

2023-12-20

操作系统原理 复习题1.pdf

操作系统原理 复习题1

2023-12-19

操作系统原理 复习题2.pdf

操作系统原理 复习题2

2023-12-19

《操作系统原理》期末复习.docx

《操作系统原理》期末复习

2023-12-19

操作系统习题.zip

操作系统习题

2023-12-19

计算机网络习题模拟考试(筛选).doc

计算机网络习题模拟考试(筛选)

2023-12-19

计算机网络习题.docx

计算机网络习题

2023-12-19

操作系统原理习题(无答案版).doc

操作系统原理习题(无答案版)

2023-12-19

操作系统原理习题(有答案版).docx

操作系统原理习题(有答案版)

2023-12-19

Python文本数据分析所用数据压缩包

Python文本分析所用小说数据压缩包 可对数据进行分析处理。 读取文本文件: 在Python中,我们使用open函数打开文件,指定文件名、打开模式(这里是’r’表示读取)、以及字符编码(通常是’utf-8’)。 分词和去除停用词: 使用Natural Language Toolkit(NLTK)库进行分词和去除停用词。分词是将文本拆分成单词的过程,而停用词是指那些在文本中频繁出现但没有实际含义的词汇,可以通过NLTK提供的停用词列表进行去除。 通过使用wordcloud生成词云图: WordCloud是一个用于生成词云图的库,它根据文本中单词的频率生成具有可视化效果的图形。在示例代码中,我们通过WordCloud生成词云图,并使用matplotlib展示。

2023-12-14

【计算机网络】PacketTracer-后序.mkv

PacketTracer使用

2023-12-11

【计算机网络】PacketTracer-IP地址配置DHCPDNS配置.mkv

PacketTracer使用之IP地址配置DHCPDNS配置

2023-12-11

【计算机网络】PacketTracer-网络规划.mkv

PacketTracer使用之网络规划

2023-12-11

【计算机网络】PacketTracer-拓扑.mkv

PacketTracer使用之拓扑

2023-12-11

自动化测试学习源码.rar

包含了一些关于自动化测试的源代码。这些源代码以pytest框架为基础,通过项目实战,搭建了一个接口自动测试框架。此外,还涉及到了基于Selenium实现的web自动化测试框架。 自动化测试是一种使用程序测试程序的方法,用代码代替人工思维,并通过脚本运行替代手工测试。这种测试方式包括功能(黑盒)自动化测试、功能(白盒)自动化测试、性能测试和压力测试等。 如果你对自动化测试感兴趣,这份源码是一个很好的学习资源。你可以按照源代码进行学习和实践,从而更好地理解和掌握自动化测试的知识。

2023-12-06

机器学习实验所需内容.zip

机器学习实验1:朝阳医院2018年销售数据 数据集描述:该数据集包含了朝阳医院2018年的销售数据,包括日期、科室、医生、药品名称、销售量等信息。 数据集格式:Excel文件(.xlsx) 机器学习实验2:adult数据集 数据集描述:该数据集是UCI机器学习库中的"Adult"数据集,包含了48,842个样本,每个样本有15个特征和一个标签。该数据集用于解决二分类问题,即判断一个人是否年收入超过50K美元。 训练数据文件名:adult.txt 测试数据文件名:adult.test 机器学习实验3:自定义数据集 数据集描述:该数据集可以根据实际需求自行分配,可以包含任何类型的数据和标签。 数据集路径:./data 在实验3中,你可以根据具体任务的需求,选择合适的数据集进行训练和测试。例如,如果你的任务是图像分类,可以选择一个包含图像文件和对应标签的文件夹作为数据集;如果你的任务是文本分类,可以选择一个包含文本文件和对应标签的文件夹作为数据集。

2023-12-05

hadoop-2.7.7 linux安装包

此文件为hadoop-2.7.7.tar.gz,可在linux下直接进行安装,如在windows上安装,则需要hadooponwindows-master.zip,用windows-master里的文件替换解压好后hadoop的bin和etc即可。 Hadoop 2.7.7是一款开源的分布式计算框架,由Apache基金会所开发。它的核心组件包括分布式文件系统HDFS和离线计算框架MapReduce。Hadoop 2.7.7支持完全分布式集群部署,具有高可靠性、高可扩展性、高容错性等特性。此外,该版本还提供了数据节点数据存储的节点位置定义功能,允许用户根据实际情况确定磁盘的挂载目录并进行分割。总的来说,Hadoop 2.7.7是一款适用于处理大规模数据的可靠工具。

2023-12-05

工业蒸汽量预测数据集.zip

燃料在燃烧时加热水生成蒸汽,蒸汽压力推动汽轮机旋转,然后汽轮机带动发电机旋转,产生电能。在这一系列的能量转化中,影响发电效率的核心是锅炉的燃烧效率,即燃料燃烧加热水产生高温高压蒸汽。 数据分析:查看变量间相关性以及找出关键变量。 数据特征工程对数据精进:异常值处理、归一化处理以及特征降维。 模型训练(涉及主流ML模型):决策树、随机森林,lightgbm等。 模型验证:评估指标以及交叉验证等。 特征优化:用lgb对特征进行优化。 模型融合:进行基于stacking方式模型融合。 [机器学习实战 —— 工业蒸汽量预测(总)](https://blog.csdn.net/m0_53054984/article/details/138189384)

2024-04-25

基于Flask的数据集.zip

下载完对应的数据集之后需解压对应的zip包 本项目下面有四个.ipynb的文件,下面分别阐述各个文件所对应的功能:(有py版本 可后台留言) 数据采集:分别从前程无忧网站和猎聘网上以关键词数据挖掘爬取相关数据。其中,前程无忧上爬取了270页,有超过1万多条数据;而猎聘网上只爬取了400多条数据,主要为岗位要求文本数据,最后将爬取到的数据全部储存到csv文件中。 数据清洗:对爬取到的数据进行清洗,包括去重去缺失值、变量重编码、特征字段创造、文本分词等。 数据库存储:将清洗后的数据全部储存到MySQL中,其中对文本数据使用jieba.analyse下的extract_tags来获取文本中的关键词和权重大小,方便绘制词云。 基于Flask的前后端交互:使用Python一个小型轻量的Flask框架来进行Web可视化系统的搭建,在static中有css和js文件,js中大多为百度开源的ECharts,再通过自定义controller.js来使用ajax调用flask已设定好的路由,将数据异步刷新到templates下的main.html中。

2024-04-15

泰坦尼克号生存预测数据集.zip

[泰坦尼克号乘客生存情况预测分析1](https://blog.csdn.net/m0_53054984/article/details/137784712) [泰坦尼克号乘客生存情况预测分析2](https://blog.csdn.net/m0_53054984/article/details/137786387) [泰坦尼克号乘客生存情况预测分析3](https://blog.csdn.net/m0_53054984/article/details/137787102) 泰坦尼克号轮船的沉没是历史上最为人熟知的海难事件之一。1912年4月15日,在她的处女航中,泰坦尼克号在与冰山相撞后沉没,在船上的 2224 名乘客和机组人员中,共造成 1502 人死亡。这场耸人听闻的悲剧震惊了国际社会,从而促进了船舶安全规定的完善。造成海难失事的原因之一是乘客和机组人员没有足够的救生艇。尽管在沉船事件中幸存者有一些运气因素,但有些人比其他人更容易存活下来,究竟有哪些因素影响着最终乘客的生存与否呢? 在该数据集中,共包括三个文件,分别代表训练集、测试集以及测试集的答案

2024-04-15

百货商场用户画像描述与价值分析数据集.zip

[ 百货商场用户画像描绘与价值分析](https://blog.csdn.net/m0_53054984/article/details/137758694) [ 百货商场用户画像描绘与价值分析附录](https://blog.csdn.net/m0_53054984/article/details/137758627) 数据集分为两部分,.xlsx结尾的是会员信息表,.csv结尾的是销售流水表。其中,会员信息表共有将近19万条记录,销售流水表共有接近189万条记录。 两个表包含了如会员卡号,消费产生时间,性别,出生时间,商品编码,销售数量,商品售价,消费金额,商品名称,此次消费的会员积分,收银机号,单据号,柜组编码,柜组名称,等级时间等 15 个特征。

2024-04-14

乐高淘宝数据.csv

乐高淘宝数据

2024-04-14

乐高天猫数据概述.csv

乐高天猫数据概述

2024-04-14

天猫乐高旗舰店数据.csv

天猫乐高旗舰店数据

2024-04-14

运动员伤病预测数据集:injury-data.csv

[ 关于运动员伤病预测数据集的探索](https://blog.csdn.net/m0_53054984/article/details/137379446) 数据说明 字段 | 说明 Player_Age :球员年龄(单位:年) Player_Weight :运动员的体重(单位:kg) Player_Height :球员身高(单位:cm) Previous_Injuries : 之前是否受过伤(是:1,否:0) Training_Intensity :训练强度(区间:[0,1]) Recovery_Time :从伤病中恢复所需的天数(区间:1-6天) | Likelihood_of_Injury :受伤(1)或不受伤(0)的可能性

2024-04-14

实习僧网站的实习岗位信息数据集.zip

实习僧网站的实习岗位信息分析文章地址(https://blog.csdn.net/m0_53054984/article/details/137397741) 内容为数据集以及一个空文件: 1.datamining.csv 2.machinelearning.csv 3.mlalgorithm.csv 4.data_clean.csv(空文件,以便清洗后存放干净数据)

2024-04-14

使用机器学习进行情感分析movie-data.csv

使用机器学习进行情感分析movie_data.csv 文章(https://blog.csdn.net/m0_53054984/article/details/136793858)

2024-04-01

团购网站系统需求说明书1.2.doc

团购网站系统需求说明书1.2

2024-03-14

非功能性需求都包括哪些方面.docx

非功能性需求都包括哪些方面

2024-03-14

案例一-餐饮企业管理系统需求规格说明书1.5.docx

案例一——餐饮企业管理系统需求规格说明书1.5

2024-03-14

案例二-乘驾互联网驾校系统需求规格说明书1.0.docx

案例二——乘驾互联网驾校系统需求规格说明书1.0

2024-03-14

案例三-学生信息管理系统需求说明书1.01.doc

案例三——学生信息管理系统需求说明书1.01

2024-03-14

用例说明模板.doc

用例说明模板

2024-03-13

抖音用户浏览行为数据集

抖音用户浏览行为数据集 文章: [ 数据挖掘实战 —— 抖音用户浏览行为数据分析与挖掘(一)](https://blog.csdn.net/m0_53054984/article/details/136121177) [ 数据挖掘实战 —— 抖音用户浏览行为数据分析与挖掘(二)](https://blog.csdn.net/m0_53054984/article/details/136123131) [ 数据挖掘实战 —— 抖音用户浏览行为数据分析与挖掘(总)](https://blog.csdn.net/m0_53054984/article/details/136122988) [ 数据挖掘实战 —— 抖音用户浏览行为数据分析与挖掘(代码部分)](https://blog.csdn.net/m0_53054984/article/details/136455033)

2024-02-15

操作系统小结.pptx

操作系统小结.pptx

2024-01-05

虚拟机安装.mp4

虚拟机安装.mp4

2023-12-20

hive安装视频注意事项.docx

hive安装视频注意事项

2023-12-20

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除