自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(302)
  • 资源 (31)
  • 收藏
  • 关注

原创 618编程书单推荐:解锁你的编程潜能

亲爱的开发者们,👋在这个快速发展的技术时代,不断学习和提升自己的编程技能是每位程序员的必修课。今天,我为大家精心挑选了一系列编程技术书籍,它们将是你技术成长道路上的宝贵财富。

2024-05-22 16:29:38 1416 49

原创 大数据分析案例-基于xgboost算法构建互联网防火墙异常行为识别模型

随着互联网的快速发展,网络安全问题日益凸显。互联网防火墙作为网络安全的第一道防线,负责监控和过滤进出网络的数据包,以阻止恶意攻击和非法访问。然而,随着网络攻击手段的不断更新和复杂化,传统的防火墙技术已难以满足日益增长的安全需求。因此,开发一种高效、智能的异常行为识别模型对于提升防火墙的防护能力具有重要意义。 近年来,机器学习算法在各个领域取得了显著的成功,尤其在处理大规模、高维度数据时展现出了强大的优势。XGBoost作为一种基于梯度提升决策树(Gradient Boosting Decisi

2024-05-21 17:00:50 1748 76

原创 基于Python爬虫+机器学习技术的杭州租房价格预测建模研究

本研究旨在结合Python爬虫和机器学习技术,对杭州租房价格进行预测建模与优化研究。通过抓取租房网站上的数据,提取出影响租房价格的关键因素,并利用机器学习算法构建预测模型。通过对模型的优化和验证,我们可以更加准确地预测租房价格,为租房者和房东提供有价值的参考信息,同时也为房地产市场的研究和决策提供数据支持。

2024-05-19 09:25:02 4515 113

原创 数据分析案例-印度美食数据可视化分析

印度美食由印度次大陆本土的各种地区和传统美食组成。由于土壤、气候、文化、种族和职业的多样性,这些菜肴差异很大,并使用当地可用的香料、香草、蔬菜和水果。印度食物也深受宗教(特别是印度教)、文化选择和传统的影响。本数据集来源于Kaggle,原始数据集共有255条,8个变量,各变量含义解释如下:name : 菜肴名称ingredients:主要使用成分diet:饮食类型 - 素食或非素食prep_time : 准备时间Cook_time : 烹饪时间。

2024-05-16 09:22:13 4997 39

原创 数据挖掘实战-基于决策树算法构建银行贷款审批预测模型

本数据集来源于Kaggle,在这个贷款状态预测数据集中,我们有以前根据property Loan的属性申请贷款的申请人的数据。银行将根据申请人的收入、贷款金额、以前的信用记录、共同申请人的收入等因素来决定是否向申请人提供贷款。我们的目标是建立一个机器学习模型来预测申请人的贷款被批准或被拒绝。原始数据集共有381条,13个变量。各变量含义如下:Loan_ID:唯一的贷款ID。Gender:男性或女性。Married:天气结婚(是)或不结婚(否)。Dependents:依赖于客户端的人数。

2024-05-13 09:45:32 4828 115

原创 大数据分析案例-基于随机森林算法构建银行贷款审批预测模型

本项目旨在利用借款人的历史信用记录、财务状况、个人背景等多维度信息,通过机器学习和数据分析技术,构建一个自动化的贷款审批流程。该模型能够快速、准确地评估申请人的信用风险,帮助银行做出更加明智的贷款决策,减少坏账风险,提高贷款业务的盈利能力。此外,该模型还有助于银行实现客户细分和个性化服务。通过对不同申请人群体进行特征分析和风险预测,银行可以更加精准地满足不同客户群体的需求,优化贷款产品设计和定价策略,提升客户满意度和忠诚度。

2024-05-10 08:34:51 7354 94

原创 分享Python7个爬虫小案例(附源码)

本次的7个python爬虫小案例涉及到了re正则、xpath、beautiful soup、selenium等知识点,非常适合刚入门python爬虫的小伙伴参考学习。

2022-10-22 07:00:00 121927 209

原创 数据挖掘实战-基于深度学习RNN+CNN的能源价格预测模型

数据集来源于Kaggle,原始数据集共有35064条,28个变量。在当今动态的能源市场中,准确预测能源价格对有效决策和资源配置至关重要。在这个项目中,我们使用先进的深度学习技术——特别是一维卷积神经网络(CNN)和循环神经网络(RNN)——深入研究预测分析领域。通过利用能源价格数据中的历史模式和依赖关系,我们的目标是建立能够高精度预测未来能源价格的模型。通过实验,我们发现每种方法都有自己的优点和局限性。SimpleRNN提供了一个简单且可解释的体系结构,但可能会与长期依赖关系作斗争。

2024-05-07 14:22:22 8879 91

原创 数据挖掘实战-基于CNN深度学习算法构建英文文本分类模型

随着互联网和社交媒体的快速发展,大量的英文文本数据不断产生,如博客、新闻、论坛帖子等。对这些文本数据进行分类和组织成为一项重要的任务,有助于提高信息检索的效率,更好地理解用户需求,以及为各种应用提供有价值的信息。传统的文本分类方法通常基于手工特征工程,然而这种方法不仅耗时,而且对于大规模和高维度的数据集效果有限。近年来,深度学习技术的崛起为文本分类带来了新的解决方案。卷积神经网络(CNN)作为一种在图像识别中取得巨大成功的深度学习算法,也被广泛应用于自然语言处理领域,特别是文本分类任务。

2024-05-03 16:39:02 10207 93

原创 数据分析案例-全球表面温度数据可视化与统计分析

本数据集来源于Kaggle,原始数据集共有144条,19个变量。关于本数据集数据来自美国国家航空航天局GISS表面温度分析(GISTEMP v4)。这些数据集是全球和半球月平均值和区域年平均值的表。他们结合了陆地表面、空气和海洋表面的水温异常(陆地-海洋温度指数,L-OTI)。表中的数值是与相应的1951-1980年平均值的偏差。GISS地表温度分析版本4 (GISTEMP v4)是对全球地表温度变化的估计。

2024-04-29 22:18:24 11671 128

原创 大数据分析案例-基于Catboost+LGBM算法构建银行客户流失预测模型

本项目旨在通过分析某银行客户数据集,通过可视化分析找出影响客户流失的因素,最后实验机器学习中的Catboost、XGBoost、LGBM等集成算法构建银行客户流失预测模型,提高银行客户管理水平。心得与体会:通过这次Python项目实战,我学到了许多新的知识,这是一个让我把书本上的理论知识运用于实践中的好机会。原先,学的时候感叹学的资料太难懂,此刻想来,有些其实并不难,关键在于理解。在这次实战中还锻炼了我其他方面的潜力,提高了我的综合素质。

2024-04-26 18:48:56 5912 96

原创 数据分析案例-中国黄金股票市场的EDA与价格预测

本数据集来源于Kaggle,原始数据集为2015-2022年中国黄金股票价格,共有1945条,11个变量,各变量含义如下:ts_code- 交易市场代码trade_date- 交易日期close- 开盘价open- 收盘价high- 最高价格low- 最低价格pre_close- 最后交易日收盘价change- 变化点pct_chg- 变化的百分比vol- 交易量。

2024-04-20 10:20:43 10203 69

原创 Mapmost Alpha:开启三维城市场景创作新纪元

Mapmost Alpha,作为一款创新型在线创作平台,以其强大的功能和丰富的资源,为数字孪生应用创作者带来了全新的创作体验。该平台专注于快速构建引人入胜的三维城市场景,无论是城市规划师、建筑师还是普通用户,都能轻松上手,发挥创意。首先,Mapmost Alpha拥有海量的城市底板和丰富的模型资源。用户可以根据自己的需求,选择适合的场景底板,然后添加各种模型资源,如建筑、道路、植被等,快速搭建出个性化的三维场景。这些资源不仅数量众多,而且质量上乘,能够呈现出逼真的视觉效果。

2024-04-14 09:58:08 7688 96

原创 数据挖掘实战-基于机器学习的垃圾邮件检测模型

随着互联网的普及和电子邮件的广泛使用,垃圾邮件的问题逐渐凸显。垃圾邮件不仅占据了用户的宝贵时间,还可能涉及到安全隐患,如恶意软件传播、网络钓鱼等。因此,有效地检测和过滤垃圾邮件成为了保障用户体验和网络安全的重要任务之一。

2024-04-10 20:04:00 9603 144

原创 数据分析案例-牛油果价格和销量数据可视化分析与预测

近年来,随着人们对健康饮食的关注度不断提高,牛油果作为一种营养丰富的食材逐渐受到消费者的青睐。然而,牛油果价格和销量的波动对生产者、零售商和消费者都产生了影响。为了更好地了解牛油果市场的变化趋势,本研究旨在通过可视化分析和预测牛油果价格和销量,为相关利益方提供决策支持。

2024-04-08 17:40:37 9965 134

原创 数据挖掘实战-基于LSTM算法的HCV检测者分类模型研究

项目数据来自UCI机器学习知识库。收录日期是2020-06-10,由德国汉诺威医科大学临床化学研究所捐赠。该数据集包含献血者和丙型肝炎患者的实验室数据和年龄等人口学数据。数据集特征: 多元实例数量:377领域:生活属性特征:实整型属性数量:14相关的任务:分类 (含有缺失的值,对缺失值采取填充的方式解决)。数据集分类的目标属性是类别:0=献血者(即未发现丙肝病毒的人)、0s=疑似者、与三类丙型肝炎者,包括:1=仅为丙型肝炎、2=纤维化、3=肝硬化。

2024-04-06 18:57:14 9314 73

原创 从零开始学Python数据分析:菜鸟也能成高手

随着我国企业数字化和信息化的深入,企业对办公自动化的效率和灵活性要求越来越高。Python作为一种开源的软件应用开发方式,通过提供强大丰富的库文件包,极大地简化了应用开发过程,降低了技术门槛。Python开发有哪些优势、挑战以及实践方法呢?

2024-04-01 11:46:35 8013 173

原创 大数据分析案例-基于决策树算法构建大学毕业生薪资预测模型

本实验旨在对2009年-2020年各大学各学院的毕业生平均薪资数据进行分析挖掘,这一研究有望在提高大学毕业生职业发展水平、促进高校与用人单位合作、优化人才流动与分配等方面发挥积极作用。通过基于决策树算法的大学毕业生薪资预测模型的构建和研究,我们深入探讨了影响毕业生薪资水平的多种因素之间的复杂关系。该模型不仅在预测准确性上表现出色,而且具有良好的可解释性,有助于为大学生提供更科学的职业规划建议,同时为用人单位提供更精准的招聘决策支持。

2024-03-27 11:05:07 11158 88

原创 数据分析案例-国际象棋顶级棋手数据可视化分析

本数据集来源于Kaggle,原始数据集共有1071条,4个变量,各变量含义解释如下:GM:玩家的官方头衔Player:玩家姓名Rating | Ranking:国际棋联评级 |世界排名Federation:国际象棋棋手联合会关于此数据集利用此数据集探索国际象棋世界,该数据集包含顶级棋手、他们当前的评级、全球排名以及各自的联合会。深入了解国际象棋的竞争格局,深入了解各国顶尖棋手。

2024-03-23 09:14:45 10574 145

原创 【爬虫实战】使用Python获取花粉俱乐部中Mate60系列的用户发帖数据

本次实验我们使用python爬虫获取了花粉俱乐部中Mate60系列的用户发帖数据,并保存在本地,后续便可进行各样的分析与研究。感兴趣的小伙伴可以关注文末公众号并加入粉丝群领取完整代码或交流讨论。资料获取,更多粉丝福利,关注下方公众号获取。

2024-03-20 10:30:42 10731 101

原创 大数据分析案例-基于随机森林算法构建肥胖预测模型并探究肥胖的成因

本文使用UCI中一项关于人们饮食习惯和身体状况调查的数据集,分别通过决策树以及随机森林算法对数据进行处理,拟在寻找肥胖的成因。算法通过对14种影响因子进行多标签分类获取各影响因子与肥胖程度之间的权值,最终获取肥胖评估模型。人们可以通过评估模型就自己目前的生活习惯和身体状况来对未来的肥胖程度进行评估,并根据评估结果寻求解决肥胖问题的合理方式。肥胖是一种全球性的疾病,无论人们的社会或文化水平如何,它始终都是热点话题,而且全球患者的数量逐年增长。

2024-03-19 09:59:00 11472 95

原创 数据分析案例- Netflix 电影和电视节目数据集可视化分析

本数据集来源于Kaggle,是 Netflix 电影和电视节目数据集,原始数据集共有8790条,10个变量,各变量含义如下:show_id:展出IDtype:内容(电视节目或电影)title:标题director:节目或电影的导演country:节目或电影的国家/地区date_added:添加到 Netflix 的日期release_year:内容发布年份rating:评级或限制duration:内容持续时间listed_in:内容类型。

2024-03-13 15:05:20 11022 170

原创 数据分析案例-二手车用户数据可视化分析

数据集来源于Kaggle,原始数据集为美国二手车市场用户数据,共有7906条,18个变量,各变量含义如下:Sales_ID(销售ID)name(二手车名称)year(购车年份)selling_price(二手车当前销售价格)km_driven(总行驶公里数)Region(使用地区)State or Province(使用的州或省)City(使用城市)fuel(燃料类型)seller_type(谁在出售汽车)transmission(汽车的变速器类型)owner(业主类型)

2024-03-06 10:38:58 11809 135

原创 基于ARIMA+SARIMA的航空公司 RPM 时间序列预测模型

数据集来源于Kaggle,原始数据集共有249条,17个变量。关于此文件2003 年 1 月至 2023 年 9 月美国所有商业航空公司的非季节性调整每月航空交通数据。注:收入乘客里程 = 乘客数量和飞行距离,以千 (000) 为单位可用座位里程 = 座位数和飞行距离,以千 (000) 为单位负载系数 = 乘客里程占可用座位的比例- 英里数百分比 (%)

2024-03-04 09:57:44 11663 71

原创 大数据分析案例-基于SVM支持向量机算法构建手机价格分类预测模型

本研究将利用SVM支持向量机算法构建手机价格分类预测模型,旨在为消费者提供便捷的购买决策支持,同时为企业市场分析和定价策略提供有价值的参考信息。心得与体会:通过这次Python项目实战,我学到了许多新的知识,这是一个让我把书本上的理论知识运用于实践中的好机会。原先,学的时候感叹学的资料太难懂,此刻想来,有些其实并不难,关键在于理解。在这次实战中还锻炼了我其他方面的潜力,提高了我的综合素质。

2024-03-01 17:03:24 12562 106

原创 数据分析案例-社交媒体情绪数据集可视化分析

本数据集来源于Kaggle,社交媒体情绪分析数据集捕捉了各种社交媒体平台上充满活力的情绪、趋势和互动。每个条目都揭示了世界各地的人们分享的独特故事——惊喜、兴奋、钦佩、兴奋、满足等等的时刻。原始数据集共732条,13个变量,各变量含义如下:Text:用户生成的内容展示情感Sentiment:情绪分类Timestamp:日期和时间信息User:贡献用户的唯一标识符Platform:内容起源的社交媒体平台Hashtags:识别热门话题和主题Retweets:量化用户参与度(喜欢)

2024-02-28 09:38:00 14342 141

原创 数据分析案例-2023年TOP100国外电影数据可视化

随着全球化的深入发展,电影作为一种文化表达和艺术形式,逐渐超越了国界,成为世界各地观众共同欣赏的对象。2023年TOP100国外电影榜单的发布,正是这一发展趋势的体现。为了更好地理解这一现象,我们决定对这100部电影进行数据可视化分析,以期揭示其背后的文化、市场和艺术特征。

2024-02-20 17:41:21 14091 145

原创 数据分析案例-基于亚马逊智能产品评论的探索性数据分析

数据成为新时代企业不可或缺的资产,不同行业、不同领域的公司都越来越注重数据在公司运营中发挥的作用,从谷歌、亚马逊到阿里、百度、腾讯,都因其拥有大量的用户注册和运营信息,成为天然的大数据公司。显然亚马逊早已开始尝试从数据中发掘价值,长期以来通过大数据分析,尝试定位客户并获取客户反馈,其不仅从每个用户的购买行为中获得信息,还将每个用户在网站上的所有行为都记录下来,充分体现了亚马逊对数据价值的高度敏感和重视及其强大的挖掘能力。

2024-02-15 15:03:01 17467 116

原创 数据挖掘实战-基于决策树算法构建北京市空气质量预测模型

通过分析这些数据,我们将利用决策树算法建立预测模型。决策树算法具有直观易懂、分类效果好等优点,适合用于此类预测问题。我们将采用适当的方法对模型进行训练和优化,以提高预测精度。最终,我们将评估模型的预测效果,并探讨其在实际应用中的可行性和潜在价值。希望通过本实验,能为北京市的空气质量改善工作提供一定的支持。通过基于决策树算法构建的北京市空气质量预测模型的实验研究,我们在多方面取得了显著的进展。首先,我们成功地整合了来自气象、环保、交通等多个领域的大量数据,形成了一个全面而综合的空气质量分析框架。

2024-02-05 12:37:45 21413 66

原创 静态代理IP是如何助力跨境电商运营的?

跨境电商是指企业或个人通过互联网平台,实现不同国家或地区间的商品或服务买卖。它突破了地域限制,让消费者可以购买到更多优质、多样化的商品,同时帮助企业拓展海外市场,提升国际竞争力。跨境电商的本质是通过互联网技术和全球物流网络打破了传统贸易壁垒,为消费者提供更加多元化、便捷化、优质化的购物体验,同时为卖家提供更加广阔的市场和更高的销售机会。跨境电商主要形式包括出口电商、进口电商和海外仓等。

2024-02-02 14:32:46 25131 50

原创 大数据分析案例-基于随机森林算法构建电影票房预测模型

本研究旨在利用随机森林算法构建一种高效的电影票房预测模型,通过综合考虑各种影响因素,提高预测准确性,为电影产业相关方提供科学的决策依据。通过该研究,可以更好地理解影响电影票房的关键因素,为电影从业者提供更全面的市场分析和预测服务。本实验通过对电影数据进行数据可视化、特征工程、建模分析,使用随机森林算法构建预测模型。总的来说,基于随机森林算法构建的电影票房预测模型为电影产业提供了一种强大的工具。然而,对于实际应用,还需要综合考虑业务背景、市场趋势等因素,将模型预测结果与实际情况相结合,形成更全面的决策依据。

2024-01-31 09:44:37 15996 54

原创 拓展全球市场:静态代理IP成为跨境电商战略的关键工具

在当下互联网时代,很多从业者想实现跨境电商平台的全球化布局。海外代理IP成为不可或缺的跨境条件之一,可以在不同的地区使用不同的IP地址,模拟出区位的变化,从而实现对跨境电商平台的全球监控和操作。通过海外代理IP,企业可以了解不同地区的市场需求和消费习惯,精准定位目标客户群体,优化产品和服务,提升销售效果。提到代理IP工具,相信不少互联网企业都不陌生,静态代理IP是代理IP工具的一种,它能够帮助企业开展很多业务。了解如何挑选高质量静态代理IP之前,我们需要明确什么是静态代理IP。

2024-01-26 14:11:19 18581 125

原创 数据分析案例-图书书籍数据可视化分析

数据集来源于Kaggle,这个数据集包含了从wonderbk.com(一个受欢迎的在线书店)抓取的信息。该数据集包含103,063本书的详细信息,其中包含标题、作者、描述、类别、出版商、起始价格和出版日期等关键属性。Title:书的标题。Authors:本书的作者。Description :对本书的简要描述。Category:书籍所属的类别或流派。Publisher:负责本书的出版社。Price:书籍的初始价格。Publish Date:出版年份。

2024-01-19 09:56:40 14947 124

原创 数据挖掘实战-基于机器学习的电商文本分类模型

随着电子商务的蓬勃发展,电商平台上产生了海量的文本数据,包括商品描述、用户评价、客服对话等。这些文本数据包含了丰富的信息,对于电商企业而言,能够充分挖掘这些信息将有助于提升用户体验、优化产品推荐、改进客户服务等方面。然而,由于文本数据的复杂性和庞大数量,传统的人工处理方式已经难以满足需求,因此利用机器学习技术对电商文本进行自动分类成为一项具有重要意义的研究任务。

2024-01-13 12:30:51 18503 98

原创 大数据分析案例-基于LinearRegression回归算法构建房屋价格预测模型

本实验旨在通过使用线性回归算法,基于历史房屋销售数据,构建一个房屋价格预测模型。通过分析房屋价格与各种特征之间的线性关系,我们可以更好地理解这些影响因素对房屋价格的影响程度,并为未来的房地产市场提供更准确的价格预测。通过这个实验,我们可以深入了解线性回归在房地产领域的应用,为相关领域的从业人员和决策者提供有益的参考。此外,我们还将评估模型的性能,并讨论可能的改进和进一步研究方向。这将有助于推动机器学习在房地产领域的应用和发展。

2024-01-07 16:15:48 13610 100

原创 数据分析案例-外国电影票房数据可视化分析

该数据集来源于kaggle,该数据集包含1995年至2018年上映的电影类型统计数据,原始数据集共有300条,9个变量,各变量含义解释如下:Genre:电影的类别或类型。(分类)Year:电影发行的年份。(数字)Movies Released :特定类型和年份发行的电影数量。(数字)Gross:该类型和年份的电影产生的总收入。(数字)Tickets Sold:该类型和年份的电影售出门票总数。(数字)

2024-01-03 18:05:23 18455 142

原创 用户规模破亿!基于文心一言的创新应用已超4000个

全新发布大模型工具中心,集合了百度人工智能多年来的建设成果,包括飞桨产业级模型库、百度大脑AI能力、文心一言工具等,同时支持生态工具接入,赋能开发者高效开发AI原生应用。此外,面向生态中的广大开发者,文心一言开发机制全新升级,新机制深度赋能开发者,更好地适配开发者的具体场景,开发出有极致体验的应用。她表示,文心一言帮助用户降低了专业门槛,成为用户的倾听者、理解者、支持者,更完成了37亿字的文本创作,生成了3亿行代码,覆盖主流编程语言。据了解,百度自2019年起深耕预训练模型研发,发布了文心大模型1.0。

2023-12-28 20:12:17 33401 94

原创 基于机器学习算法的数据分析师薪资预测模型优化研究

目前大陆地区对数据分析师的需求主要集中在北京、上海、深圳地区;相应提供的薪资水平也是这三个地区居于前面,证实了经济较好的地区对该岗位的需求更好、待遇更好;因而,对于互联网等相关企业,北上广深依旧是广大求职者的目标地区;从数据统计情况来看,针对数据分析师在学历方面的要求,目前是学历越高,薪资待遇越好;但相反的是,学历越高,岗位需求并非越大;而针对数据分析师在经验上的要求,目前是经验在3年及以上的岗位缺口更大;

2023-12-26 10:44:51 13842 105

原创 基于人气与协同过滤的图书推荐系统研究与实践

基于人气与协同过滤的图书推荐系统成为了当前研究的热点之一。通过深入研究用户行为数据和图书的人气信息,结合协同过滤算法,可以更好地满足用户的个性化需求,提高推荐系统的精准度和用户满意度。这也是本研究的动机所在,旨在探讨如何有效地整合人气信息和协同过滤算法,构建一种更为强大和智能的图书推荐系统。

2023-12-14 18:37:58 14519 150

原创 基于LSTM和N-gram序列的英文文本生成

本实验旨在探索基于LSTM和N-gram序列的英文文本生成方法,提高生成文本的流畅性、多样性和语义准确性,为自然语言处理领域的相关研究和应用提供有益的参考。

2023-12-07 17:27:51 15864 165

欺诈性电子商务交易数据集

关于数据集 描述 这个合成数据集“欺诈性电子商务交易”旨在模拟来自电子商务平台的交易数据,重点是欺诈检测。它包含交易数据中常见的各种功能,以及专门设计用于支持欺诈检测算法的开发和测试的附加属性。 变量详情 交易ID:每笔交易的唯一标识符。 客户 ID:每个客户的唯一标识符。 交易金额:交易中交换的总金额。 交易日期:交易发生的日期和时间。 付款方式:用于完成交易的方式(例如信用卡、PayPal 等)。 产品类别:交易涉及的产品类别。 数量:交易涉及的产品数量。 客户年龄:进行交易的客户的年龄。 客户位置:客户的地理位置。 使用的设备:用于进行交易的设备类型(例如移动设备、桌面设备)。 IP 地址:用于交易的设备的 IP 地址。 送货地址:产品的发货地址。 帐单地址:与付款方式关联的地址。 Is Fraudulent:交易是否欺诈的二进制指标(1 表示欺诈,0 表示合法)。 账户期限天数:交易时客户账户的期限(以天为单位)。 交易时间:交易发生的时间。 目的 该数据集旨在用于开发和测试电子商务交易中欺诈检测的机器学习模型。它还可用于探索性数据分析、特征工程和基准欺诈检测算法。

2024-05-15

基于随机森林算法构建电影票房预测模型(代码+数据集)

电影票房预测一直是电影产业中的一个重要问题,对于制片方、发行方和影院等利益相关者而言,准确地预测电影票房可以帮助他们做出更明智的决策。在电影产业中,投资决策、市场营销策略、排片安排等方面的决策都受到电影票房预测的影响。因此,构建一种准确可靠的电影票房预测模型对于电影产业的发展具有重要意义。 本研究旨在利用随机森林算法构建一种高效的电影票房预测模型,通过综合考虑各种影响因素,提高预测准确性,为电影产业相关方提供科学的决策依据。通过该研究,可以更好地理解影响电影票房的关键因素,为电影从业者提供更全面的市场分析和预测服务。 数据集来源于kaggle,该数据集包含1995年至2018年上映的电影类型统计数据,原始数据集共有300条,9个变量

2024-05-03

穿针“蚓”线:基于蚯蚓-厨余垃圾的生态立体化养殖处理助农项目.rar

本项目着眼于厨余垃圾的再利用价值,并且将其营养再利用于蚯蚓的养殖,将厨余垃圾处理与蚯蚓养殖一体化考虑,提出了“厨余垃圾处理混合系统——以一个混合系统为主体建立的机械系统”,解决了厨余垃圾处理难的问题,同时也节约了蚯蚓饲料的成本。我们也会提供一些蚯蚓回收渠道,使蚯蚓以及蚯蚓粪为我们的用户带来一笔收入。这样,不但可以减少厨余垃圾的危害还可以为人们带来可观的收入,使垃圾也能赚钱。项目计划落地于农村地区,能够产生大量的工作岗位,推动农村人口就业,这样促进了农村地区的经济发展,从而实现乡村振兴的目标。同时,我们也呼吁人们重视垃圾的处理和垃圾分类意识,增强厨余垃圾的资源化管理和利用效率。

2024-05-03

基于深度学习的猫狗图片分类研究(数据集+实验代码+4000字实验报告)

近年来,深度学习在计算机视觉领域取得了巨大的成功,尤其是在图像分类任务上。图像分类是计算机视觉领域的基本问题之一,而猫狗分类作为图像分类中的经典问题,吸引了广泛的研究兴趣。 猫狗分类问题具有很高的实际应用价值。在现实世界中,人们经常需要对动物进行分类,如在宠物识别、动物行为分析和动物保护等领域。传统的图像分类方法通常需要手工设计特征提取器和分类器,这在处理复杂的图像数据时面临着挑战。 猫狗分类问题的研究可以帮助我们深入理解深度学习在图像分类任务中的应用,并且可以为其他图像分类问题的研究提供经验和指导。此外,研究人员还可以通过比较不同深度学习模型的性能和对比传统方法的效果,评估深度学习在猫狗分类问题上的优势和局限性。 此外,随着深度学习模型的不断发展和算力的提升,研究人员可以尝试更复杂的模型架构、数据增强技术和迁移学习方法,以进一步提高猫狗分类任务的准确性和鲁棒性。 因此,基于深度学习的猫狗分类实验具有重要的研究价值,可以推动深度学习在图像分类领域的发展,同时为实际应用场景提供更好的解决方案。

2024-05-03

基于梯度提升决策树算法预测广告投放收益(数据集+实验代码+6000字实验报告)

随着移动互联网的迅速发展,社会化网络的全面渗透,每个人都有可能在这个时代成为信息的制造者和传播者,这也导致了媒体从传统的主流媒体走向了普遍性。 每一次通讯技术与终端的发展都会使新媒介媒介与形式发生质变,并为广告产业的各个发展阶段打开了生态圈。5 G的逐步实施将会对万物互联的建设起到巨大的促进作用,新媒介的分散性也会越来越明显,新媒体产业必然会迎来一次新的洗牌。 广告投放策略的重中之重就是广告媒介和广告内容,在选择广告媒介上,需要结合媒体规格、点位、播放频次和广告投放费用,以便广告主轻松选择广告媒介。其次在广告内容设计上,需要吸引消费者产生消费的前提是引起兴趣与关注,引导消费者了解产品、认同产品,这便与广告的详细内容、整体创意有关,在投放机制正确的前提下,广告内容将在最后引起消费,从而达到广告投放目的。投放广告是品牌曝光的有效手段,但想要消费者从广告中认识到认知最后认同,广告投放策略就会变得非常重要。本次实验,我们使用Python大数据分析方法研究广告投放收益分析。

2024-05-03

数据分析项目-上饶市旅游景点可视化与评论文本分析(数据集+实验代码+8000字实验报告)

本次实验通过综合运用数据可视化分析、词云图分析、情感分析以及LDA主题分析等多种方法,对旅游景点进行了全面而深入的研究。通过这一系列分析,我们得出了以下结论,并据此对旅游市场的发展趋势和潜在机会进行了展望。 首先,通过数据可视化分析,我们了解到不同景点的评分、评论数以及热度分布情况。 其次,词云图分析为我们揭示了游客在评论中提及的关键词和热点话题。 在情感分析方面,我们发现大部分游客对于所游览的景点持有积极正面的情感态度。 最后,LDA主题分析帮助我们提取了游客评论中的潜在主题。这些主题涵盖了旅游体验、景点特色、历史文化等多个方面,为我们深入了解游客需求和兴趣提供了有力支持。通过对比不同主题的出现频率和分布情况,我们可以发现游客对于不同景点的关注点和偏好有所不同,这为我们制定个性化的旅游推广策略提供了依据。

2024-05-03

基于随机森林算法构建肥胖预测模型并探究肥胖的成因(数据集+实验代码+10000字的实验报告)

肥胖是一个全球性的公共健康问题,它可以在成人、青少年和儿童中出现。同时,注意到儿童肥胖是成年人肥胖的一个危险因素这一令人震惊的事实,从生命的早期阶段就预防和控制肥胖至关重要,也必须考虑到儿童体重的增加必须是渐进的。由于城市化、经济和技术发展带来的生活方式不断变化,儿童受到影响,导致肥胖儿童人数增加,因此,很多研究集中在对儿童肥胖问题的上。 本文使用UCI中一项关于人们饮食习惯和身体状况调查的数据集,分别通过决策树以及随机森林算法对数据进行处理,拟在寻找肥胖的成因。算法通过对14种影响因子进行多标签分类获取各影响因子与肥胖程度之间的权值,最终获取肥胖评估模型。人们可以通过评估模型就自己目前的生活习惯和身体状况来对未来的肥胖程度进行评估,并根据评估结果寻求解决肥胖问题的合理方式。

2024-05-03

水质数据集-120w+条数据.zip

关于数据集 该数据集包含从该地区的普吉特海湾、湖泊和溪流收集的水质样本。 样品 ID:每个采集样品的唯一标识符。 抓取 ID:与样本关联的特定抓取实例的标识符。 配置文件 ID:与样本关联的配置文件的标识符。 样品编号:分配给每个样品的序列号。 收集日期时间:收集样本的日期和时间。 深度(米):收集样本的深度,以米为单位。 地点类型:样本采集地点的类型(例如河流、湖泊、水井)。 区域:收集样本的地理区域或区域。 定位器:指示样本精确位置的定位器信息。 地点:收集样本的特定地点或位置。 参数:样品中测量或分析的参数(例如,pH、溶解氧)。 值:样品中测量的参数值。 单位:参数值的测量单位。 QualityId:指示数据质量的标识符。 实验室限定符:由实验室指定的限定符,表明样品的任何特殊条件或特征。 MDL(方法检测限):参数的方法检测限。 RDL(报告检测限):报告参数的检测限。 文本值:参数值的文本表示。 样本信息:与样本相关的附加信息。 管理员注释:数据管理员提供的注释或评论。 重复次数:样本的重复次数。 重复项:指示重复样本的标识符。 方法:用于分析或测量的方法。

2024-05-03

出租车辆数据集-11万条.zip

关于数据集 该数据集包括所有拥有 TLC 许可且信誉良好且能够驾驶的出租车辆。 TLC 授权的可用出租车辆。此列表准确至“上次更新日期”和“上次更新时间”字段中显示的日期和时间。 对于数据科学家来说,该数据集是分析出租汽车行业构成、了解服务分布(例如轮椅无障碍车辆的流行程度)以及根据许可证到期和续签评估市场动态的丰富资源。此外,它还可用于: 空间分析,根据基址了解不同区域出租车辆的分布情况。 时间分析通过比较不同日期的数据集来跟踪 FHV 行业随时间的变化。 监管合规性监控,例如确保车辆获得适当许可并满足轮椅无障碍等特定服务标准。

2024-05-03

2024 年全电动汽车数据集

关于数据集 该数据集显示了目前通过华盛顿州许可部 (DOL) 注册的电池电动汽车 (BEV) 和插电式混合动力电动汽车 (PHEV)。 电池电动汽车 (BEV) 是一种全电动汽车,使用一个或多个电池来存储电能,为电机提供动力,并通过将车辆插入电源进行充电。插电式混合动力汽车 (PHEV) 是一种使用一个或多个电池为电动机提供动力的车辆;使用另一种燃料,例如汽油或柴油,为内燃机或其他推进源提供动力;并通过将车辆插入电源来充电。 清洁替代燃料汽车 (CAFV) 资格基于 RCW 82.08.809 和 RCW 82.12.809 中概述的燃料要求和纯电动续航里程要求,才有资格获得替代燃料汽车零售和华盛顿州使用税豁免。这些车辆的销售或租赁必须在 2019 年 8 月 1 日或之后进行,并满足购买价格要求,才有资格获得替代燃料汽车零售和华盛顿州使用税豁免。 某个县的每月车辆数量可能与本报告和之前的报告相比有所变化。实施流程是为了在注册时更准确地分配县。 更新日期:2024 年 3 月 12 日

2024-05-03

基于Echarts技术的停车场数据可视化大屏.rar

停车场数据可视化大屏是一种用于展示停车场运行数据的可视化工具,它可以帮助停车场管理人员更好地了解停车场的运行情况,以便进行更加有效的管理和优化。随着城市车辆数量的不断增加,停车场管理变得越来越重要,因此停车场数据可视化大屏也成为了一种非常重要的工具。 该实验的研究背景主要包括以下几个方面: 停车场管理的挑战:随着城市车辆数量的不断增加,停车场的管理变得越来越困难。停车场管理人员需要及时了解停车场的运行数据,以便进行更加有效的管理和优化。 停车场数据的可视化需求:停车场管理人员需要能够将停车场数据进行可视化展示,以便更好地了解停车场的运行情况。传统的表格和柱状图等方式已经无法满足这种需求,因此需要采用更加直观和生动的可视化方式。 Echarts 的应用:Echarts 是一款基于 JavaScript 的开源可视化工具,它具有灵活、易用、直观等特点,非常适合用于停车场数据可视化大屏的构建。

2024-04-29

基于Flask+Bootstrap+机器学习的南昌市租房价格预测系统.rar

本项目使用Flask框架搭建基于机器学习的南昌市租房价格预测系统 (简易版) 整个项目分为以下几个模块: 1.登录和注册模块 2.训练模型模块 3.预测价格模块 4.查看房价信息模块

2024-04-29

二手车交易数据分析与可视化系统.rar

该系统项目涉及Python爬虫、前后端、Mysql数据库

2024-04-06

爬取前程无忧网中大数据相关岗位数据并可视化分析.rar

# 51job_spiders 前程无忧爬虫 【程序运行前确保项目需要的库都已下载】 # 数据爬取: ``` 1、修改51job_info.py代码66行,根据需要修改页数,默认2页,数据分析需要海量数据时可修改成1000页 2、运行51job_info.py 3、输入职位关键词 如:大数据、C语言、软件开发 4、爬取到的数据将储存在51job.xls ``` 程序中注释内容包含大量调试信息,遇到异常时可以打开注释,查看运行情况 爬取过程中因为单页内容较多,请耐心等候 如果程序未能爬取到信息,可能的原因是缺少包,或者该网页源码被修改,需要重新定义正则 # 数据清洗与数据可视化 ``` 1、运行51job_clean.py 2、代码默认对职位的清洗条件的非大数据相关的职位,需要根据你们搜索的职位自行修改 3、清洗后的数据将储存在51job2.xls,(若清洗后的数据中还有错误数据,可修改清洗条件或手动将错误数据删除) 4、运行51job_view.py 4、pyecharts动态图将生成 .html 文件,用浏览器打开即可 ```

2024-04-06

花粉俱乐部Mate60手机系列用户发帖数据爬虫.rar

爬取花粉俱乐部中华为Mate60手机系列的用户发帖数据,包括'用户名','用户ID','发帖时间','类别标签','系列名称','粉丝数','帖子热度','是否有图片','图片数量', '是否有视频','帖子内容','纬度','经度','点赞数','定位城市','设备名','回复数','帖子标题','阅读量', '话题名称','话题文章数','话题简介','话题参与人数','话题阅读量'

2024-04-06

基于Python大数据的民宿评论数据情感分析系统.rar

基于Python大数据的民宿评论数据情感分析系统,设计大数据、爬虫、前后端、Mysql数据库的知识,最后做出一个可视化大屏

2024-04-06

chatgpt接入微信公众号代码+教程.rar

基于GPT-3.5的公众号自动回复机器人 一、介绍 通过`openai`与`wechat`官方的api搭建公众号自动回复的项目. 二、Feature - [x] 解决微信被动回复限制问题。(设定超时时间,滚动返回) - [x] 支持用户语音输入。(要主动开启,设置与开发->接口权限->接收语音识别结果。已关注用户可能24小时内生效,可重新关注尝试) - [x] 设置代理 - [x] prompt 提示、max_tokens、temperature 参数调节 - [x] 正则关键词回复(微信在开启服务器配置后,自带的关键字回复就不能用了)。 - [x] 上下文(可以配置记录上下文对话数量上限)

2023-05-14

携程网关于大唐不夜城用户评论python爬虫.rar

该爬虫使用Python语言编写,主要是爬取携程网中关于西安大唐不夜城的用户评论数据,大家可以更改为其他景点即可使用。

2023-05-14

Python爬虫-前程无忧大数据相关岗位信息.rar

大数据正在成为重要的生产材料。随着更多的企业转向以数据为驱动的运营模式,众多工作岗位将基于大数据进行工作的开展,所以掌握大数据相关技术将成为职场人的基本要求,其中大量的岗位将要求职场人具备一定的数据分析能力。大数据是产业结构升级的重要内容。大数据是产业结构升级的重要内容,要想在未来的职场竞争中获得更多的竞争力,就需要掌握大数据相关技术。从近些年研究生的就业情况来看,大数据相关方向的毕业生往往会获得更多的机会,在薪资待遇方面也具有较为明显的优势。目前大数据领域的人才缺口还是比较大的,岗位需求也逐渐从中高端人才需求向应用型人才过渡,所以目前学习大数据相关技术是不错的选择。针对以上问题以及发展背景,我选择对前程无忧网中的大数据招聘岗位信息进行采集。

2023-01-19

基于随机森林算法预测人类预期寿命-课程设计.rar

本项目是世卫组织建立了一段时间内所有国家健康状况的数据集,其中包括预期寿命,成人死亡率等方面的统计数据。使用此数据集,探索各种变量之间的关系,通过数据集建立模型对预期寿命进行预测以及找出对预期寿命的最大影响因素是什么? 本项目主要解决以下问题: - 最初选择的各种预测因素是否真的影响预期寿命?实际影响预期寿命的预测变量有哪些? - 预期寿命值低于(<65)的国家是否应该增加其医疗保健支出以改善其平均寿命? - 婴儿和成人死亡率如何影响预期寿命? - 是否接受教育对人类寿命有何影响? - 预期寿命与饮酒是正相关还是负相关? - 人口稠密的国家的预期寿命是否有降低的趋势? 数据集:数据/探索影响预期寿命的因素/Life Expectancy Data.csv 案例来源:https://www.kaggle.com/kumarajarshi/life-expectancy-who

2023-01-13

简易版flask构建学生成绩管理信息系统.rar

主要使用Python中的Flask后端框架,结合前端html等技术打造一个简易版的学生成绩管理信息系统。

2023-01-12

基于梯度提升决策树构建金融反欺诈模型-课程设计.rar

决策树例题经典案例

2023-01-12

Scrapy微博爬虫-根据关键词爬取相关微博帖子信息

主要使用Python中第三方库Scrapy爬虫框架,首先你需要阅读README.md文件说明,然后输入你的微博cookie,然后输入关键词、爬取日期等等信息,最后运行即可。

2023-01-12

基于机器学习人工智能助力金融反欺诈学术论文.rar

随着互联网和移动支付技术的发展,影响着金融行业,使得金融等尤其是银行机构发生了质的变化。与此同时,伴随来的是层出不穷、种类繁多的电信网络诈骗,解决这一难题已成为金融行业必须所面对的问题和挑战。机器学习作为AI人工智能领域中最核心的内容,其在识别欺诈手段和方法上可以发挥出巨大的作用,通过训练大量的欺诈数据,总结出欺诈的特征,进而对欺诈进行有效的防范,同时不断的更新新型欺诈手段数据,让模型的泛化能力更强,对于新产生的欺诈手段也能实现精准的识别和预警。

2023-01-12

HTML+CSS+JS构建大数据相关招聘信息可视化大屏

本项目是将爬取到的大数据招聘岗位信息进行数据预处理,接着使用前端三剑客(HTML+CSS+JS)构建可视化大屏,项目非常适合初学前端或可视化的小伙伴。

2023-01-12

小米商城首页(纯HTML+CSS)

本项目是使用纯html和css模仿小米商城首页,压缩包中包含css文件、html文件和媒体图片文件,项目适合初学者学习。

2022-12-26

Flask+vue2电商后台管理信息系统

本项目为前后端分离项目,主要涉及知识点为Flaks+vu2+mysql。功能模块主要有登录退出、账号管理、权限管理、商品管理、订单管理、数据统计等基本功能。此项目适合有前端基础(vue2)、学习了Flask框架的小伙伴练手项目。

2022-10-28

Flask搭建简易版论坛社区

项目主Flask框架,mysql数据库,需要一点前端基础。社区网站有登录、注册(包括邮箱注册)、发表文章、搜索文章、管理文章、评论等基本功能。需要其他扩展功能可自行开发。项目适合正在学习Flask的小伙伴进行练手。

2022-10-28

Flask搭建简易版个人博客网站

本项目主要以Flask框架为主,需要前端三剑客(html,css,js)基础。网站有登录、注册、发布文章、搜索文章、查看文章、发布评论等主要基础功能。其他功能可根据自己需要进行扩展开发。适合学习Flask的初学者在学完知识点之后的实践项目。

2022-10-28

Flask搭建豆瓣Top250可视化网站

使用Flask搭建豆瓣Top250可视化网站,网站主要内容包括首页,Top250电影数据、评分可视化、词云图等。主要涉及的知识点为Flask、html、css、js。非常适合有一点前端的基础,然后正在学习Flask框架的小伙伴,作为一个练手的项目。

2022-10-28

Python爬虫+Flask+Echarts构建全疫情实时可视化大屏

Python爬虫+Flask+Echarts构建全疫情实时可视化大屏。 主要涉及的知识点为前端三剑客(html,css,js),python爬虫,Flask,echarts等。 适合学习了python爬虫,以及flask知识,以及前端(这个不需要懂太多),有半年以上编程学习基础。

2022-10-23

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除