徐木叶-CSDN博客

原创 python做时间序列分析详解

时间序列分析是一种统计技术，用于分析按时间顺序排列的数据点。它在许多领域中都有应用，如经济学、气象学、金融学等。时间序列分析的目的是通过对历史数据的学习，来预测未来的趋势、季节性变化、周期性变化等。

2024-09-29 10:00:00 981

这段代码是使用Python的Seaborn和Matplotlib库来创建图表的脚本，用于可视化不同品牌的产品价格与销量的关系。这段代码使用Python的matplotlib和seaborn库来绘制散点图，散点图是一种用于展示两个变量之间关系的图表。这几行代码获取了当前轴上的图例句柄和标签，然后创建了一个新的图例，并将其放置在图表的右上角。这行代码也被注释掉了，它设置了Seaborn的调色板。这行代码也被注释掉了，它设置了Seaborn的调色板。这行代码被注释掉了，如果取消注释，它会使用Seaborn的。

2024-09-27 10:00:00 2635

原创 python使用熵权法评估品类潜能

信息熵是一种衡量信息集中程度的指标，它表示在一个随机变量中，各个取值出现的概率之和为1的情况下，信息量的最大程度。熵权法通过计算各个指标的信息熵，进而确定各个指标的权重，从而实现多指标决策。熵权法是一种基于信息熵原理的权重计算方法，它通过计算各指标的信息熵来确定权重，从而实现多指标决策。这段代码是一个熵权法的使用案例，用于计算和评估不同供应商的品类销售综合得分，并找出得分最高的供应商。通过上述案例可以看出，熵权法在多指标综合评价中具有广泛的应用价值，它能够客观地反映评价对象的性能，为决策者提供有力的支持。

2024-09-23 13:55:36 866

原创用python绘制多变量的小提琴图

使用Python的matplotlib和seaborn库来绘制小提琴图（violin plot），这是一种用于展示数据分布的可视化方法，特别适用于显示多个组的分布情况。这些图表非常适合于展示和比较数据的分布特征，尤其是当数据具有偏态分布或者有多模态（多个峰值）时。

2024-09-17 09:30:00 2087

原创用python对多组变量绘制箱线图

用python对多组变量绘制箱线图，上图是对链接页面信息做可视化分析的结果，一个点是一个链接其中，左边是绘制了IsVarient为0和1的优惠券coupon的箱线图，右边绘制了IsVarient为0和1的促销折扣deal的箱线图.可以得到三点信息：总的来看极少部分的链接会做促销和优惠券，这与我们平时看网页情况不同，因为又优惠券和促销的总是会优先推给消费者。IsVarient为0时，链接做大额促销的很少，运营打法总是会把几个链接放在一起，然后做促销，充分利用流量。高额coupon会比高额促销更普遍。

2024-09-11 10:30:00 691

原创蒙特卡洛模拟原理与python实现

蒙特卡洛方法是一种基于随机数（或更准确地说是伪随机数）来解决数学、物理和工程问题的方法。这种方法以摩纳哥的蒙特卡洛赌场命名，因为赌场中的随机性与这种方法的随机抽样特性相似。

2024-09-07 10:30:00 1858

原创用python做词频统计、词云绘制

这段代码是一个Python脚本，用于分析和可视化一个Excel文件中的评论数据。注释掉的代码块是用于绘制中文词云图的，但由于缺少中文字体路径和翻译API的实现，这部分代码被注释掉了。，这些词在词频统计时会被忽略。，用于保存词组、频数和频率。定义一个无意义词列表。

2024-09-06 10:00:00 1419

原创多个分类变量的卡方检验python代码实现

卡方检验（Chi-squared test）是一种统计检验方法，用于检验观察频数与期望频数之间的差异是否显著，从而判断两个分类变量之间是否独立。以下是卡方检验的数学原理、公式推导和常用背景的介绍：举个例子，比较男生和女生的成绩差异是否有统计意义。

2024-09-05 15:12:16 2242

原创怎么用python初步探索数据

所有分析和建模工作开始前，需要先对数据做初步的了解，包括基本的分布情况和可视化，下面给出几个万金油代码，我日常经常使用，强烈推荐给大家看下所有数值型数据的数值情况，

2024-09-01 10:15:00 378

原创怎么用python调用chatgtp给每个链接生成好评

怎么用python调用chatgtp给每个链接生成好评？已知链接的标题和描述信息，现在利用chatgtp给每个链接生成3条互不重复的15字以

2024-08-31 10:47:22 762 1

中国城市住宅商品房价格研究doc.doc

在过去的20年，伴随中国经济高速增长的，是年均涨幅在9.28%的住宅商品房价格，尽管距离国家首次提出“房住不炒”已经过去6年，在各种“限购”政策下，商品房价格上涨趋势不变，高房价直接导致了生育率的下降，中国家庭资产中配比最大的依旧是房产，房价是青年人选择居住城市的一个重要考量，更是一个复杂的社会经济议题。本文的研究包括： (1) 全国住宅商品房价格的时序回归分析 2002年至2020年由于经济发展，全国住宅商品房价格飞速增长，反应在数据上就是人均年生产总值、总收入等与房价呈高度的正相关，并可以由此建立主成分回归方程，以及ARIMA(1,1,0)模型。 (2) 35个大中城市住宅商品房价格的2019年的多元回归分析城市房价的增长与该城市的别墅高档公寓平均价格、房地产主营业务收入、人均生产总值、住宅完成投资额有密切的正相关。 (3) 31个大中城市住宅销售价格与七个房产指标的时序研究用欧氏距离做计算，使用瓦尔德法进行系统聚类，得到城市按过去20年房价变化分类的谱系图 (4) 对全国八个大城市房价的研究分析对北京、上海、广州、深圳、杭州、南京、长沙、成都的重点研究发现，城镇登记失业人数与房价呈负相关南京的在校小学生数量与房价的相关性不如其他七个城市大，长沙的第三产业占GDP占比与房价相关性没有其他七个城市大，且住宅商品房价格增长可用y=exp(a+bx)方程拟合。 (5) 全国426个重点城区聚类分析全国426个重点城市城区在经过聚类分析后，属于天价类别的36个城区的新房销售价格达到每平米40403.84元以上，其中深圳的所有城区在聚类分析中均属于高价类别。关键词：住宅商品房价格；聚类分析；曲线拟合；ARIMA；

2024-09-23

定投基金的聚类与判别.docx

分别对五类基金进行k均值聚类，利用单位净值、近1年定投收益、近2年定投收益、近3年定投收益、近5年定投收益、手续费聚为两类，这两类基金在每个时间段上的收益都上有显著差异，将收益低的标记为普通基金，普通基金的数量较多，将收益较高的一类基金标记为优质基金，优质基金的数量较少，可以进入投资者的备选名单。将聚类分析得到的类别作为因变量，单位净值、近1年定投收益、近2年定投收益、近3年定投收益、近5年定投收益作为自变量进行费希尔判别、贝叶斯判别和逐步判别，判别的准确率均在95%以上，由逐步判别进入表达式的自变量只有不超过三个，且对每种类型的基金判别式自变量并不相同，由此可以对不同类型基金在选购的关注点上进行比较。本文所用软件为后羿采集器、EXCEL、IBM SPSS Statistics 25，第一个用于在基金定投 _ 天天基金网 (eastmoney.com)中自动爬取数据，后两个用于格式的转换、实现聚类和判别的建模。

2024-09-23

基于决策树的早产预测模型SPSSModeler.zip

2021年（第七届）全国大学生统计建模大赛一等奖作品《基于Binary Logistic回归模型和决策树模型对早产危险因素的探究和预测》的关于决策树的代码和答辩ppt，是一个解决大样本分类型变量的预测问题的优秀参考范例。

2021-12-10

python数据清洗实例（旅游数据）.ipynb

包括了数据清洗全流程的实例：excel导入，定义数据框，按要求删除某一列下为一个指定值的数据记录，遍历数据集，分组分类变量用指定的数值型数值替换，按某一列的值拆分数据集，使用聚类分析将数据集分为两类，标记所属类别少的数据为异常数据