Python数据分析
文章平均质量分 88
国内数据分析行业发展得如火如荼,几乎在各行各业都能见到数据分析的身影,掌握好数据分析实战项目,会帮助许多想转行进入数据领域的同学的必学内容。
AI研习星球
算法辅导、论文辅导、4V1辅导、核心期刊,SCI论文,EI会议、期刊、论文带读、本硕毕业论文。
展开
-
数据分析-29-260万用户大型家电和电子产品购买分析(包含数据代码)
字段名字字段含义event_time该文件包含2020年4月至2020年11月从大型家用电器和电子产品在线商店购买的数据order_id订单编号product_id产品编号产品的类别ID产品的类别分类法(代码名称)brand品牌名称price产品价格user_id用户IDplt.show()原创 2024-02-05 16:58:36 · 644 阅读 · 0 评论 -
数据分析-28-小红书消费情况分析(包含代码和数据)
小红书是一个的生活方式平台和消费决策入口。与其他店商品台不同,在小红书可以购买商品,也可以分享各种攻略和日常。数据来源及说明分析思路数据清洗数据分析结论。原创 2024-01-30 18:12:49 · 1389 阅读 · 0 评论 -
数据分析-27-携程用户预定房型预测(包含数据代码)
数据集为携程用户预定携程房型的数据集,已脱敏,包含以下几个部分:用户数据、酒店数据、房型数据。大家可以根据在用户的历史信息,挖掘出用户对于某些房型偏好,预测哪一个售卖房型(roomid)是用户最终预订的。先对测试数据集的基本字段做一个简单的分析。¶房型预测模型读取数据plt.rcParams['font.sans-serif'] = ['SimHei'] # 指定默认字体。原创 2024-01-29 20:07:31 · 828 阅读 · 0 评论 -
数据分析-26-120年奥运会数据分析(包含代码数据)
本项目是对120年来的奥运会数据集(夏季奥运会)的简单分析。:国家奥委会3个字母的代码与对应国家信息。:参赛运动员基本生物数据和奖牌结果。奥运会里的男性与女性运动员。奥运会历年来的Top。原创 2024-01-18 16:57:50 · 1274 阅读 · 0 评论 -
数据分析-25-电商用户行为可视化分析
电商平台在所有媒体类型中,具有足够的特殊性,是兼具媒体场景和消费场景两大属性的平台,符合品效合一,也因此衍生出了贴合电商“搜索-购买-评价”链条的多种营销模式。随着电商营销产业链上消费行为数据的积累,海量数据中蕴含着无尽的价值,显现了用户不同的购物方式及爱好,基于此背景,本文利用阿里天池中淘宝电商用户数据进行分析。数据集的每一行表示一条用户行为,由用户标识、商品标识、行为类型、用户位置的空间标识、商品分类标识和行为时间组成字段名称字段描述user_id用户标识,抽样&字段脱敏item_id。原创 2024-01-05 19:00:00 · 994 阅读 · 0 评论 -
数据分析-24-母婴产品电商可视化分析(包含代码数据)
今年来母婴的消费逐渐增加,这是一份关于淘宝天猫的一份母婴的销售数据。分析该数据集有利于了解目前市场的销售情况,便于做出运营决策,提高销售额。tianchi_mum_baby_trade_history.csv - 交易记录表tianchi_mum_baby.csv - 婴儿信息表真实数据集的数据量非常大,仅婴儿信息就有900多万,天池数据集只给出了一些样本数据。表:包含29972行,7列。总体销售情况:总体销售量逐年增长但每月销售量的波动大。受到春节的影响,每年年1、2月份的销量下降。原创 2024-01-04 17:17:34 · 1116 阅读 · 0 评论 -
数据分析-23--糖尿病预测(线性回归模型)(包含数据代码)
本次实验的主要内容是使用回归分析和聚类分析来预测某人患糖尿病的可能性和身体的糖尿病指数。本次数据分析实战,对糖尿病数据集进行回归分析。sklearn.datasets 包提供了一些小的数据集,可用于机器学习入门,见下图。导入toy数据的方法介绍任务数据规模加载和返回一个boston房屋价格的数据集回归506*13加载和返回一个鸢尾花数据集分类150*4加载和返回一个糖尿病数据集回归442*10加载和返回一个手写字数据集分类1797*64加载和返回一个健身数据集多分类。原创 2023-12-28 19:00:00 · 2732 阅读 · 0 评论 -
数据分析-22-双12活动前后(包含数据代码)
凌晨时段购买率均远超日常,结合上图(日常和双12日均各时段pv趋势对比),凌晨PV流量是日常的两倍左右,说明活动期间凌晨时段有营销空间,建议商家在合规的情况下为凌晨购买的活跃消费者延长活动时间,促成更多的交易。商品子集都是偏服务类的商品,涵盖阿里巴巴集团十个主要的商品大类,例如汽车售后服务、摄影服务、餐饮、电影等,其特色是线上购买、线下服务。双12期间购买率高峰在0时,日常购买率高峰在10时以后,凌晨最低。12日,pv增量22078,uv增量1542,pv是uv的143倍。用户行为偏好(时间维度)原创 2023-12-28 16:30:00 · 1085 阅读 · 0 评论 -
数据分析-21-黑色星期五消费者用户画像(包含数据代码)
消费者绝对大多数分布是在C类城市的男性,已婚和未婚在消费者中比较均匀的分布,都在50%左右。消费者主要分布在18-45岁之间,且26-35岁之间最多。从职业分布上来看看,单个岗位下单人数排名的前五分别是:程序员、医生、项目管理、警察、农业从业者。绝大多数的消费者的平均消费处于8400-10800美元之间,且不同年龄段消费金额的集中程度差异不大。关注公众号:『AI学习星球黑色星期五消费者用户画像即可获取数据下载。算法学习4对1辅导论文辅导或核心期刊可以通过公众号codebiubiu滴滴我。原创 2023-12-27 13:57:29 · 833 阅读 · 0 评论 -
数据分析-20-宠物小精灵数据挖掘(包含数据代码)
单变量数据可视化变量间关系可视化。原创 2023-12-26 16:30:00 · 1454 阅读 · 0 评论 -
数据分析-19-Thera Bank信贷业务数据(包含数据代码)
本数据集来源于Kaggle上的银行Thera Bank,其是一家拥有不断增长的客户群的银行。这些客户中的大多数是具有不同存款规模的存款用户。为了增加贷款业务的客户量,提升公司的利润,他们随机选取了5000名顾客进行了一次贷款业务的营销宣传尝试,并获得了9%左右的转化率。向银行客户销售更多的个人贷款产品。设计营销活动,以更好的目标营销,以最低的预算提高成功率。识别购买贷款可能性较高的潜在客户。通过建立用户画像,确定目标销售人群,实现精准营销的目的。原创 2023-12-23 15:00:00 · 1239 阅读 · 0 评论 -
数据分析-18-Video Game Sales电子游戏销售分析(包含数据代码)
游戏的发展以及出现回落,具有竞争性和刺激性的游戏更加能够吸引玩家的喜欢,同时经济是否发达的地区与游戏的销量高低具有直接的关系,经济地区的销量更高。关注公众号:『AI学习星球电子游戏销售分析即可获取数据下载。算法学习4对1辅导论文辅导或核心期刊可以通过公众号codebiubiu滴滴我。原创 2023-12-22 14:42:43 · 646 阅读 · 0 评论 -
数据分析-17-IBM人员流失分析(包含代码数据)
随着经济全球化和技术革命的进一步拓展,市场竞争日益激烈。在这场争夺的背后,人才的竞争又是重中之重。人才相对于资本等其他资源的稀缺性将使高素质的人才在各个企业之间流动成为一种常态。而这就很容易造成公司的人员流失,那么造成这些人员流失的原因主要有哪些呢?我们怎么做可以减少人才流失呢?**结论:**根据我们前面的分析可以得出结论,影响离职的因素主要有出差多大学刚毕业没多久的年轻单身人士加班多底层、基层收入低部门男女比例失调销售部门。原创 2023-12-20 18:00:00 · 1167 阅读 · 0 评论 -
数据分析-16-共享单车的数据分析(包含代码数据)
共享单车系统是一种租赁自行车的方法,注册会员、租车、还车都将通过城市中的站点网络自动完成。使用共享单车,可以注册会员,存入一定金额用于使用结束后自动扣费结算;也可以不注册会员,临时使用后通过其提供的支付方式结算费用。人们通过下载APP使用这个系统进行扫码开锁取车,然后从取车地骑到自己的目的地后停放锁车归还,系统自动按实际使用时长计费。共享单车由注册用户与非注册用户构成,而主要群体以注册用户为主。共享单车的用户总数主要受摄氏度、体感温度、湿度、时刻影响比较明显。根据数据分析提出几个建议。原创 2023-12-19 18:00:00 · 1792 阅读 · 0 评论 -
数据分析-15-Bitcoin Historical Data比特币价格预测(包含代码数据)
根据前六步得到的分析数据与模型结果,基于时间序列与四种因素对比特币价格进行预测,并与实际价格趋势曲线进行拟合对比。分析:由图可见,实际曲线与预测曲线拟合较好,说明模型的优越性,预测算法的准确性,有着较好的预测效果。将处理完的数据导入对应的模型中,使用自相关和部分自相关图对参数进行初始近似处理。由于连续的响应变量不满足正态分布,所以数据需要进行Box-Cox变换。对上述四种影响货币价格走向的四种因素分别进行稳定性与时间序列检测。通过对数据库中四种因素来分别分析其对货币价格变化的影响并绘图。原创 2023-12-18 18:00:00 · 680 阅读 · 1 评论 -
数据分析-14-基于Python的信用评分卡数据分析(包含代码数据)
give me some credit 数据集分为训练集和测试集,目的是开发一个申请的评分卡模型,对未来一段时间内借贷人出现违约的概率进行预测,对客户信用进行评估打分。基于聚类方法的异常值检测,通过把数据聚成类,将那些不属于任务一类的数据作为异常值。而数据清洗过程比较繁琐,一般占据了我们整个工作量的60%,所以,需要我们仔细认真的完成这一步骤。但本篇的重点为利用python对数据进行清洗及简单的分析,熟悉数据清洗的步骤和思路,数据建模部分放在机器学习中。接下来,针对提出的问题,即分析的目的来构建模型。原创 2023-12-17 19:14:03 · 2223 阅读 · 0 评论 -
数据分析-13-The Movies Dataset电影数据集分析(包含代码数据)
通过对电影关键字的分析,电影中经常被提及的词语是女性(woman)、独立(independent),其次是谋杀(murder)、爱情(love)、警察(police)、暴力(violence),可见观众对女性和独立方面题材的电影最感兴趣,其次是是犯罪类和爱情类电影。电影公司制作一部新电影推向市场时,要想获得成功,通常要了解电影市场趋势,观众喜好的电影类型,电影的发行情况,改编电影和原创电影的收益情况,以及观众喜欢什么样的内容。通过上面的数据集信息可以知道:整个数据集缺失的数据比较少。原创 2023-12-16 19:00:00 · 1325 阅读 · 0 评论 -
数据分析-12-某电子产品销售数据分析报告及RFM模型(包含数据和代码)
Unnamed: 行号event_time:下单时间order_id:订单编号product_id:产品标号category_id :类别编号category_code :类别brand :品牌price :价格user_id :用户编号age :年龄sex :性别local:省份#划分每个用户的首次购买月份(用来确认用户在几月份是属于新客户)原创 2023-11-27 19:45:00 · 2516 阅读 · 1 评论 -
数据分析-11-淘宝李子柒螺蛳粉店铺及评论分析(包含数据和代码)
本项目主要分析李子柒在淘宝螺蛳粉店铺品牌销量及其评论,可以从用户的评论分析李子柒在淘宝螺蛳粉店铺的总体评价、以及具体什么词汇。可以通过公众号滴滴我。可以通过公众号滴滴我。原创 2023-11-27 17:00:00 · 861 阅读 · 2 评论 -
数据分析-09-学生校园消费分析(包含数据和代码)
在为师生提供优质、高效信息化服务的同时,系统自身也积累了大量的历史记录,其中蕴含着学生的消费行为以及学校食堂等各部门的运行状况等信息。南理工教育基金会将拿出“种子基金”100万元作为启动资金,根据每位贫困学生的不同情况确定具体的补助金额,然后将这些钱“悄无声息”的打入学生的饭卡中,保证困难学生能够吃饱饭。数据分析和建模的方法,挖掘数据中所蕴含的信息,分析学生在校园内的学习生活行为,为改进学校服务并为相关部门的决策提供信息支持。记者昨天从南京理工大学独家了解到,南理工教育基金会正式启动了“暖心饭卡”。原创 2023-11-25 17:00:00 · 2686 阅读 · 0 评论 -
数据分析-10-扒一扒蔡徐坤微博100万+转发量的真假流量粉(包含数据和代码)
项目主要随机抓取蔡徐坤100万+转发的微博《再见,“任性的”千千…》的10万条转发数据,并且分析蔡徐坤真假转发流量的比例以及真假粉丝的用户画像。根据数据分析出真假流量所占比例各有多少,假流量粉丝是如何生产出来的。真实转发粉丝量占总转发数的3.84%可以通过公众号滴滴我。可以通过公众号滴滴我。原创 2023-11-25 17:00:00 · 614 阅读 · 0 评论 -
数据分析-08-B站美食视频图鉴 干饭人干饭魂干饭都是人上人(包含数据和代码)
先统计一些名词for text in tqdm(data['标签']):food_stop_words2=['视频','食材','口感','物','评论','时间','西施','朋友','油管','手工','菜','农村']c=plot_wordclod(noun_topk_words,title="视频介绍中的热点食材分析")原创 2023-11-17 17:00:00 · 208 阅读 · 1 评论 -
数据分析-07-2020年天气差异分析(了解天气差异的元凶 + 包含代码和数据)
通过2020年天气数据处理,对四个城市每月平均温度变化进行分析,以及每年的温度情况进行分析,和一年中空气质量的分布,污染天气的分布,探寻质量差的原因,最后分析了北京空气质量差的原因。array([‘良’, ‘优’, ‘轻度污染’, ‘中度污染’, ‘重度污染’], dtype=object)array([‘良’, ‘优’, ‘轻度’, ‘中度’, ‘重度’], dtype=object)Name: 空气质量指数, dtype: float64。Name: 风力等级, dtype: float64。原创 2023-11-05 22:57:01 · 300 阅读 · 1 评论 -
数据分析-06-游戏APP用户行为统计分析(包含代码和数据)
安装信息表的安装时间范围: 2020-04-19 16:04:54 2020-04-26 15:59:27。注册信息表的安装时间范围: 2020-02-20 13:21:31 2020-04-26 23:44:39。安装信息表的安装时间范围: 2020-04-20 00:02:15 2020-04-26 15:59:27。注册信息表的安装时间范围: 2020-04-20 00:04:51 2020-04-26 23:44:39。Name: 地区, dtype: int64。安装信息: (7282, 9)原创 2023-11-05 11:01:35 · 199 阅读 · 1 评论 -
数据分析-05-确定关键行为+给渠道质量打分(包含代码和数据)
留存魔法数字:找到影响用户留存的最关键变量,之后改善这个变量的数值,从而达到改善留存的目的。比如我们发现:一周内点击分享5次及以上的用户,留存率明显高出30%,所以我们就定5次为魔法数字,然后想办法让用户多分享。从上面的矩阵我们可以看出来的是:启动数与广告展示数呈现弱相关,其他指标之间没有相关性,所以我们需要对这四个指标进行权重打分。目前我们对于变现能力分的评价有4个指标,我们想要对指标进行筛选,用更少的指标计算变现能力分。原创 2023-09-28 11:32:57 · 99 阅读 · 0 评论 -
数据分析-04-百货商场用户画像描述与价值分析(包含代码和数据)
消费偏好:我觉得会稍微偏向与消费的频次,相当于消费的订单数,因为每笔消费订单其中所包含的消费商品和金额都是不太一样的,有的订单所消费的商品很少,但金额却很大,有的消费的商品很多,但金额却特别少。同时,针对传统RFM模型进行了改进,构造了LRFMP模型来分析客户价值,挖掘客户价值的八个字段,并通过WordCloud形式展现了出来,可以对会员用户进行精准画像。从上面可以简要看出,数据中会员卡号存在一些重复值,且会员入会登记时间都有缺失,需要去重去缺失值,因为性别比例缺失较少,故用众数来填补性别上的缺失值。原创 2023-09-22 10:40:17 · 1147 阅读 · 0 评论 -
数据分析-03-上海餐饮情况分析(包含代码和数据)
针对上海市餐饮类,不同菜系在各个区的,口味,服务,环境等的评分以及人均消费的数据分析。从而得出一些餐饮品类的竞争分析,地区竞争力分析,以及甜品店在上海各行政区的分布情况。安装BI工具的Echars。原创 2023-09-19 11:10:34 · 774 阅读 · 2 评论 -
数据分析-02-淘宝用户行为分析(包含代码和数据)
本数据报告以淘宝app平台为数据集,通过行业的指标对淘宝用户行为进行分析,从而探索淘宝用户的行为模式,具体指标包含:日PV和日UV分析,付费率分析,复购行为分析和用户价值RFM分析。在18点左右开始,PV波动比较剧烈,而UV看起来不太明显,因此18点以后是淘宝用户的活跃访问期。淘宝用户的消费次数普遍在10次以内,因此需要重点关注消费次数在10次以内的消费者群体。ARPPU是指每位付费用户身上所获得的收入,它反映的是每个付费用户的平均付费额度。复购率=有复购行为的用户数/有购买行为的用户数。原创 2023-09-14 11:29:04 · 175 阅读 · 1 评论 -
TensorFlow 实战案例:利用 LSTM 进行电量预测(包含代码和数据)
首先进行模型编译,使用adam优化器设置学习率0.01,使用平均绝对误差作为网络训练时的损失函数,网络迭代20次。,真实值 y_test,绘图展示预测值和真实值的偏离程度。大家好,今天和各位分享一下如何使用循环神经网络LSTM完成时间序列预测,本文是针对单个特征的预测。比如对某一时间点预测,规定每20个特征值,预测得到一个标签值。由于只有一列特征数据,相当于,用。由于原始数据最大值和最小值之间相差较大,为了避免数据影响网络训练的稳定性,由于本案例数据量比较少,特征也只有一个,因此不需要使用复杂网络,原创 2023-09-07 11:21:10 · 643 阅读 · 2 评论