自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(39)
  • 资源 (3)
  • 收藏
  • 关注

原创 python基础练习之—Series

Series 由索引(index)和列组成,可以通过列表,元组,数组,字典来进行创建,本文重点讲解通过列表方式创建。案例一:(1) 通过pandas的Series构造一维数组s,包含元素分别为:河北省,保定市,22135。(1)如图所示,所生成的为一维数组,其中左列为数组中每个元素对应索引,右侧表示数组中所包含的数据。如图,由(1)步构造的数组为3行的数组,对应维度为1,值以列表形式返回。案例二:(1)将索引改为:省,市,面积,构成数组s2。将s2重置,重新构造新索引数组,将index替换为省、市、面积。

2024-01-09 18:22:34 549

原创 数据分析之词云图绘制

试验任务概述:如下为所给CSDN博客信息表,分别汇总了'ai', 'algo', 'big-data', 'blockchain', 'hardware', 'math', 'miniprog'等7个标签的博客。对CSDN不同领域标签类别的博客内容进行词频统计,绘制词频统计图,并根据词频统计的结果绘制词云图。TF(词频)指的是一个词语在文档中出现的频率,它认为在一个文档中频繁出现的词语往往与文档的主题相关性更高。构造关键词列表,根据之前返回的关联度最大词汇对应的下标,回到原数据表中定位,找出对应的词汇。

2023-12-27 17:14:58 1270 2

原创 数据预处理之异常值检测

拍照赚钱”作为移动互联网下的一种自助式服务模式,用户在APP上领取拍照任务并执行,从而获得相应报酬。从数据中可观察到任务定价和任务执行情况,最终定价按位置范围可分为四类:北纬约 23°至 23.08°,东经约113.1°至113.2°;北纬约23.1°至23.2°,东经约113.21°至113.5°;北纬约113.8°至 114.1°,东经约22.5°至22.8°;北纬约22.8°至23. 9°,东经约113.5°至113. 8°。

2023-07-09 22:28:50 692 3

原创 数据预处理之数据规约

PCA(Principal Component Analysis),即主成分分析方法,是一种使用最广泛的数据降维算法。PCA的主要思想是将n维特征映射到k维上,这k维是全新的正交特征也被称为主成分,是在原有n维特征的基础上重新构造出来的k维特征。本质上,通过计算数据矩阵的协方差矩阵,然后得到协方差矩阵的特征值特征向量,选择特征值最大(即方差最大)的k个特征所对应的特征向量组成的矩阵。这样就可以将数据矩阵转换到新的空间当中,实现数据特征的降维。——来自《知乎》

2023-07-05 22:03:31 668 1

原创 对英雄联盟英雄属性数据的预处理及相似度矩阵计算

注:英雄联盟英雄属性数据资源可在博客资源中自行获取。

2023-06-25 21:31:48 706 5

原创 python图像处理实战(三)—图像几何变换

图像几何变换就是在不改变图像像素值的前提下,对图像进行像素变换的处理。通常几何变换可以用来解决由成像的角度、透视位置不合预期等问题。比如拍摄的斜着的路牌,如果我们在只能对现有的照片进行处理的情况下又想要从侧面看到路牌上的字体,那么此时就要用到几何变换。

2023-06-18 14:22:31 6395 31

原创 【挑战全站最全】Linux系统的安装与配置教程——以CentOS为例

🚀作者:那个叫马尔的大夫🚀⭐专栏:操作系统⭐🌼内容:主要分享一些关于Linux操作系统的知识🥧不忘初心,砥砺前行~本文围绕工具准备、安装配置VM虚拟机、安装Linux系统、配置Linux系统网络、连接Xshell五部分展开。

2023-06-04 16:41:44 4421 30

原创 安卓期末复习——题库(二)

7.(单选题, 5.0分)下列迭項中,属于在BaseAdapter中荻取ListView条目 息数的方法的是()?3.(单选题5.0分)下列选项中,用于EditText控件中内容为空吋示提示文本信息的属性为()?1.(单选题, 5.0分)下列选项中,属于设置TextView中文本内容的属性的是()?4.(单选题,5.0分)下列选项中,属于ListView添加迺配器的方法的是()?3.(多选题5.0分)下列选项中,属于Toast显示提示信息时间的参数的是()?

2023-06-04 15:46:39 1222 1

原创 Linux操作系统相关介绍

•开放性指系统遵循世界标准规范,特别是遵循开放系统互连(OSI)国际标准。凡遵循国际标准所开发的硬件和软件,都能彼此兼容,可方便的实现互连。•多用户是指系统资源可以被不同用户使用,每个用户对自己的资源(例如:文件、 设备)有特定的权限,互不影响。• 多任务它是指计算机同时执行多个程序,而且各个程序的运行互相独立。• 良好的用户界面图形用户界面、命令行界面。•设备独立性。

2023-06-02 12:21:52 629 3

原创 安卓期末复习——题库(一)

5. (单选题, 10.0分)Android开发中,如果TableL ayout的第一个TableRow有两个控件, 第二个TableRow有三个控件,那这个TableL ayout的列数为。4.(判断题, 10.0分)使用XML布局文件控制界面布局,能够有效的将界面中布局的代码和Java代码隔离,使程序的结构更加清晰。2. (单选题, 10.0分)下列选项中,属于设置帧布局容器中前景图像的属性的是 A. android:foreground。A.在模拟器上可预览和测试Android应用程序。

2023-05-31 20:14:04 2142 3

原创 网页提交文件无法打开问题解决办法(以学习通为例)

时长会碰到这样的情况,日常实训课在机房写实训作业时,将未完成的作业先暂存先在学习通里,但后续在登陆学习通时发现未提交的附件打不开了,经过翻阅之前web的相关资料,总结出了这样的解决办法,供各位参考。点开一个作业,继续Ctrl+F搜索data 查询objectid属性,此属性和data中的数据地址一样。这样,该作业的网址就构建成功了。可见,网址中objectId的后缀就是数据地址data。构建好网址后, 复制该新网址的链接,作业成功恢复。找到之前学习通提交的作业,F12审查元素。黄线后的内容表示数据地址。

2023-05-31 20:00:27 1719 1

原创 python图像处理实战(二)—二值化图像与线性变换

灰度变换是指根据某种目标条件按一定变换关系逐点改变源图像中每一个像素灰度值的方法。目的是为了改善画质,使图像的显示效果更加清晰。图像的灰度变换处理是图像增强处理技术中的一种非常基础、直接的空间域图像处理方法,也是图像数字化软件和图像显示软件的一个重要组成部分。——来自百度百科 这里采用opencv中的二值化相关方法进行灰度处理,进行灰度变换的非线性变换。

2023-05-30 18:09:25 3777 34

原创 python图像处理实战(一)—图像基础

图像处理是计算机视觉的一个重要研究领域,主要研究如何让计算机代替人眼实现对目标的分类、识别、跟踪和场景理解等内容。

2023-05-25 22:40:10 1384 18

原创 【应统考研必看!】统计学笔记——数据的图表展示

以便研究者通过浏览数据发现一些明显的特征或趋势,找到解决问题的线索。对于通过其他渠道取得的二手数据,则应着重审核数据的适用性和时效性。数值型数据分组的方法有单变量值分组和组距分组,单变值分组是保证每一个变量值作为一组,适合于离散分布且变量值个数较少时,连。数据的预处理是在对数据分类或分组之前所做的必要处理,内容包括数据的审核、筛选、排序等。直方图主要用于展示数值型数据(其中的分组数据)。的上限与下限的差,可以根据最大值,最小值以及组数来确定组距,(2)数据筛选是根据需要找出符合特定条件的某类数据。

2023-05-23 22:33:23 1194 3

原创 【可视化分析项目实战】seaborn核密度估计图绘制

使用目的:核密度估计图是一种可视化的方法,观测的分布锁定在一个数据集,类似于柱状图。KDE使用连续概率密度曲线代表了数据在一个或多个维度。将轴刻度设置为日志。单个值设置单变量分布的数据轴和双变量分布的两个轴。一对值独立设置每个轴。数值被解释为所需的基数(默认为 10)。如图,提取出temp(气温)和windspeed(风度)两列, emp(气温)和humidity(湿度)两列,绘制核密度估计图。布尔值或数字,或一对布尔值或数字。如果为真,则估计累积分布函数。,则遵循现有的轴比例。

2023-05-19 22:00:29 355 8

原创 seaborn数据可视化案例分析—共享单车

Seaborn是基于matplotlib开发的高阶Python数据可视图库,用于绘制更精致、美观的图形,其绘图逻辑与matplotlib基本一致,但呈现效果比matplotlib要清晰美观。常见的图表有散点图、折线图、柱状图等。本文以共享单车数据为例,介绍的Seaborn中的柱状图、散点图以及pandas对数据的相关处理方式,用柱状图、散点图实现对共享单车数据的可视化分析。

2023-05-17 23:10:45 906

原创 基于统计学模型的乐高玩具商品价格研究(课程设计报告)

在目前的预测研究中,通常采用一个传统的模型,可是对于复杂的购物市场,传统的模型仅仅能够提供某一方面的有效信息,无法避免的会丢失另外一些有效数据,从而让该模型难以达到预期的预测结果。我们在此项目中运用了描述性统计方法,计算了标准差和算数平均数,通过箱线图、散点图、柱状图让结果更加鲜明,同时可以观察多种因素。

2023-05-15 22:02:36 81

原创 时间序列预测股票数据—以LSTM模型为例

时间序列是按照一定时间间隔排列的数据,时间间隔可以是任意时间单位,通过对时间序列的分析,我们可以探寻到其中的现象以及变化规律,并将这些信息用于预测。这就需要一系列的模型,用于将原始时间序列数据放进模型中进行训练,并用训练好的时间序列模型来预测未知的时间序列。提供的数据:“中国平安”2016-2018年股票数据,背景为平安保险集团。

2023-05-09 20:57:49 7049 45

原创 统计学—数据的搜集

间接来源是指与研究内容有关的原信息已存在,只是对原信息进行重新加工、整理,使之成为我们进行统计分析可以使用的数据,称为间接来源的数据,即二手资料。抽样误差是由抽样的随机性引起的样本结果与总体真值之间的误差,通过增。非概率抽样分类:方便抽样、判断抽样、自愿样本、滚雪球抽样、配额抽样。员误差、测量误差等。①样本单位数目,在其他条件不变的情况下,样本量越大,抽样误差越小,③抽样方法,一般情况下,不重复抽样的抽样误差要小于重复抽样的抽样误。④抽样组织方式,采用不同的抽样组织方式,也会有不同的抽样误差,一般。

2023-05-04 16:03:39 698

原创 python量化—因子数据获取与处理

3sigma法去极值mean = dt.mean() # 截面数据均值std = dt.std() # 截面数据标准差dt_up = mean + n*std # 上限dt_down = mean - n*std # 下限return dt.clip(dt_down, dt_up, axis=1) # 超出上下限的值,赋值为上下限# Z值标准化mean = dt.mean() # 截面数据均值std = dt.std() # 截面数据标准差# 申万一级行业。

2023-04-25 17:41:39 1296 6

原创 分类算法—决策树练习

而min_samples_split是在预剪枝的方式中,先设定一个样本数阈值,在构造决策树的过程中,当训练样本个数小于该值时,停止树的生长。min_samples_leaf为叶子节点最少样本数,由于样本集随着决策树自顶向下的划分不断减少,如果我们采用后剪枝的方式,用此超参数限制叶子节点最少的样本数,那么当叶子节点的样本数小于这个阈值时,则此节点会和兄弟节点一起被剪枝。Ytest表示数据集里标签列划分出的测试集,用于评估训练出的模型好坏,作为评估模型时的类标签数据。2)Ytrain、Ytest分别表示什么?

2023-04-24 22:38:31 306

原创 数据挖掘分类算法——回归扩展练习

sklearn.metrics.r2_score():输入内容为真实标签、预测标签,基于输入的这两个数组一个为真实值,即真实的测试集,一个为预测值。计算原理为,将真实的测试值标签与由predict()函数计算得到的Xtest的预测结果比较,根据公式。.score():输入内容为测试集X,测试集Y标签,用LinearRegression()模型调用该方法后先再根据方法的评分原则计算Xtest和Ytest的拟合程度。2)利用metrics模块计算绝对均值误差MAE(mean_absolute_error)

2023-04-13 10:22:36 87

原创 统计学笔记

复合型时间序列的预测步骤复合型序列是指含有趋势性、季节性、周期性和随机成分的序列。对这类序列的预测方法通常是将时间序列的各个因素依次分解出来,然后再进行预测,分解法预测通常按下面的步骤进行。 1 确定并分离季节成分。计算季节指数,以确定时间序列中的季节成分。然后将季节成分从时间序列中分离出去,用每一个时间序列观测值除以相应的季节指数,以消除季节性。2 建立预测模型并进行预测。对消除了季节成分的时间序列建立适当的预测模型,并根据这一模型进行预测。3计算出最后的预测值,用预测值乘以相应的季节

2022-11-19 10:18:19 1419

原创 知识图谱构建练习

采用知识图谱完成对电影结构演员关系的搭建

2022-10-26 15:10:51 322

原创 实例1:利用pyecharts绘制3D柱状图 (相关数据可视化课设可在付费资源获取)

利用pyecharts中的3D柱状图模块对三维数据实现可视化。

2022-06-27 16:47:16 2044

原创 应用统计学 笔记

统计学定义:统计学是一门收集,处理,分析,解释并从中得出结论的科学。核心:数据数据分析步骤:收集数据=》处理数据=》分析数据=》解释数据统计学运用在分析数据的方法分为两大类:描述性数据方法。总体规模、对比关系、集中趋势、离散程度、偏态、峰态、......推断性数据分析方法。估计、假设检验、列联分析、方差分析、相关分析、回归分析、......描述统计、推断统计两大类统计学的对象是数据数据有两种形式:数字和文字。如何区分文字和数字:是否可以运算。将数据按照计量尺度不同分三种:计..

2022-05-15 14:52:24 1203

原创 Hbase的安装和多节点配置

Hbase的环境配置分为单机模拟配置、伪分布式及完全分布式。由于完全分布式需要另外安装zookeeper,配置极为麻烦,故这里说明伪分布式的安装步骤。从官网中下载hbase文件包官网下载地址:Apache HBase – Apache HBase™ Home 下载链接,由于官网下载较慢,建议复制链接到讯雷里。2、安装配置hbase将下载好的hbase文件包用tar-zvxf ‘hbase-2.4.11-bin.tar.gz’命令解压。...

2022-05-01 23:28:30 1829 1

原创 自然语言处理:词性标注

步骤一:导入 jieba 库,对文本内容进行分词处理。导入 jieba 库的 posseg 模块,对文本进行分词标注。步骤二:词性统计: 导入 pandas 库,提取出标注返回结果的每项元素的 flag 部分,即词性部分,随后 用 pandas 中的 value_counts 进行词性统计,并用 head()函数返回出现最多的前十行。 词性种类统计: 将原标记数据进行去重处理,再遍历去重后的数据,此时若同样的词出现 n 次,即 为词一样但对应词性不一样,也就是说一个词包

2022-04-26 09:48:48 577

原创 用逆向最大匹配法实现分词处理(python)

流程图:#逆向最大匹配classIMM(object):def__init__(self,dic_path):self.dictionary=set() #定义集合self.maximum=0 #定义最大匹配长度withopen(dic_path,'r',encoding='utf-8')asf: #将存储路径中的语料库打开forlineinf:...

2022-04-08 13:51:54 1399

原创 正则表达式的设计与应用

2022-03-30 12:39:29 390

转载 解决虚拟机ubuntu系统wired选项缺失问题

sudo service network-manager stopsudo rm /var/lib/NetworkManager/NetworkManager.statesudo service network-manager start屡试不爽

2022-03-22 15:51:04 635

原创 按照老师的方式,将四分位距的统计学异常检测如法炮制

import pandas as pdimport numpy as npimport matplotlib.pyplot as pltdata = pd.read_excel("D:\\dataspace\\已结束项目任务数据.xls")data=pd.DataFrame(data)print(data)x0=data.iloc[:,1]x1=data.iloc[:,2]# 选取经纬度两列特征# 计算下四分位点q1=x0.quantile(0.25)print("q1",q1).

2021-12-11 17:00:12 851

原创 爬取豆瓣以及王者所有英雄信息实验报告(小生不才,记得点赞加关注)

实验任务准备工作 学习网络爬虫相关知识和Python编程语法 学习爬虫需要调用的模块用法 python爬虫练习实验 练习urllib、bs、re、xlwt库的调用(了解requests第三方库) 熟悉网络爬虫流程 实验内容任务1(70分):爬取豆瓣电影Top250的基本信息,包括电影的名称(中英文名称分开或者存储为一列都可以)、豆瓣评分、评价数、电影链接,并自动存储生成exce表格。url:豆瓣电影 Top 250此实验需要定义四大模块:主函数模块、url请求模块、..

2021-12-03 21:21:33 1677 3

原创 第十三周数据预处理实验

实验任务准备工作 学习数据预处理描述性分析的内容 在学习通下载文件“insurance.csv”和“doc_sim.csv” 实验内容任务1:导入文件“insurance.csv”,只选取“age”“bmi”“children”“charges”四列属性。导入文件并查看信息:提取“age”“bmi”“children”“charges”四列属性组成新的二维表:任务2:分别计算四列数据的均值、中位数、众数、极差、方差、标准差和上四分位数。...

2021-12-01 23:08:25 1623 2

原创 整理五种相似性和相异性的度量方法

1、首先,先了解相似性和相异度的概念:相似度:两个对象之间相似程度的数值度量,取值范围为0到1。相异度:两个对象之间差异程度的数值度量,通常用“距离”衡量。2、标称属性(含二元属性)相似度和相异度:标称属性可以取2个或多个状态。假设一个标称属性的状态数目为M,则标称数据对象i和标称数据对象j之间的相异性可以根据不匹配率来计算。示例:如图,该图所展示的四类属性均为二元属性,即两个状态。0/1若将小明作为标称数据对象i,小刚作为标称数据对象j,计算两者的相异性与相似性。..

2021-11-28 20:14:23 8407

原创 安卓开发实战——题库

5. (单选题, 10.0分)Android开发中,如果TableL ayout的第一个TableRow有两个控件, 第二个TableRow有三个控件,那这个TableL ayout的列数为。4.(判断题, 10.0分)使用XML布局文件控制界面布局,能够有效的将界面中布局的代码和Java代码隔离,使程序的结构更加清晰。2. (单选题, 10.0分)下列选项中,属于设置帧布局容器中前景图像的属性的是 A. android:foreground。A.在模拟器上可预览和测试Android应用程序。

2021-11-26 20:23:40 9303

原创 linux第十三周作业 shell脚本应用2

课堂实验--文件操作实验任务准备工作 学习Linux shell编程 实验内容任务1:编写脚本程序,判断两个输入参数的数值关系,并输出结果。If elif else 分支语句进行数值比较:$1表示传入的第一个参数,$2表示传入的第二个参数,再通过[ 判断条件 ]语句进行数值比较,其中-gt是大于,-lt是小于。还可用read传入参数。任务2:编写脚本程序,根据输入参数(数字1-7),输出对应的是周几(Monday、Tuesday...Sunday),(使用c..

2021-11-26 18:31:30 1159 1

原创 数据挖掘期中作业(用朴素贝叶斯和决策树挖掘恒星特征)

业务理解(Business Understanding)此次项目的目标是对star.csv数据集中的恒星进行分类挖掘,根据其六个特征使用不同的分类算法建模,对六个标签类别的恒星分类,并探索评估模型的效果。挖掘任务分为四部分:数据准备、数据预处理、建模实例化、评估模型。 目标 这次数据挖掘任务的目标。将star.csv数据集中的数据预处理,对非数值型的特征数据数值化。用分类器划分训练集、测试集。并用贝叶斯和决策树算法建模并训练模型,实现分类及模型评估,得到混淆矩阵、决策树分类图、热力图等成

2021-11-26 14:47:35 1309 1

原创 0-1背包问题的多种办法求解

目录一、问题分析 (一)、题目 (二)、问题分析 二、设计思路 1.回溯法 2.分支限界法 3.动态规划 三、算法设计/问题求解特色及关键技术 (一) 算法设计/问题求解特点 (1) 动态规划法: (2) 回溯法 (3) 分支限界法 四、 算法测试 (一)动态规划法测试时间: (二) 回溯法运行时间: (三) 分支限界法运行时间 五、实验体会 一、问题分析(一)、题目给定n种物品和一个背包。物品i的重量是Wi,其...

2021-06-27 13:26:12 5025 1

哈工大停用词表 .txt

本数据集包含746个中文停用词,可用于中文语料预处理。

2023-12-29

大数据AI博客题目信息数据汇总表

分别汇总了'ai', 'algo', 'big-data', 'blockchain', 'hardware', 'math', 'miniprog'等7个标签的博客信息,用于数据分析之可视化的那篇博文。所需要的可用积分下载。

2023-12-27

拍照任务数据表-用于异常检测

“拍照赚钱”作为移动互联网下的一种自助式服务模式,用户在 APP 上领取拍照任务并执行,从而获 得相应报酬。从数据中可观察到任务定价和任务执行情况,最终定价按位置范围可分为四类:北纬约 23° 至 23.08°,东经约 113.1°至 113.2°;北纬约 23.1°至 23.2°,东经约 113.21°至 113.5°;北纬约 113.8° 至 114.1°,东经约 22.5°至 22.8°;北纬约 22.8°至 23. 9°,东经约 113.5°至 113. 8°。这四个范围分 别对应佛山市、清远市、深圳市和东莞市。 任务未完成可能与地理位置有关,纬度越高,任务未完成可能性比完成可能性越大。此外,店铺拒访 等原因也会造成任务未完成。 现在请你对地理位置进行异常检测,观察哪些数据可能为异常数据。

2023-07-09

欧洲部分球队进球情况数据

欧洲部分球队进球情况数据

2023-07-05

31省消费数据-包括吃穿住行等

31省消费数据-包括吃穿住行等

2023-07-05

英雄联盟的英雄属性数据

属性包括(分组、英雄名字、生命值、生命值回复、魔法值、魔法值回复、移动速度、攻击范围、攻击力、攻击速度、护甲、魔法抗性)

2023-06-25

安卓期末考试备考-题库

安卓(Android)是一种基于Linux内核(不包含GNU组件)的自由及开放源代码的操作系统。主要使用于移动设备,如智能手机和平板电脑,由美国Google公司和开放手机联盟领导及开发。——来自百度百科 现提供安卓期末备考题库,包括单选题、多选题、判断题,题库整理不易,多多支持!

2023-05-31

python图像处理-图片资源

图像处理是计算机视觉的一个重要研究领域,主要研究如何让计算机代替人眼实现对目标的分类、识别、跟踪和场景理解等内容。 OpenCV致力于真实世界的实时应用,通过优化的C代码的编写对其执行速度带来了可观的提升,其应用领域主要有人机互动、物体识别、图像分割、人脸识别、动作识别、运动跟踪、机器人、运动分析、机器视觉、结构分析、汽车安全驾驶等。 该资源为opencv库中需要用到的图片,包括彩色图、灰度图、带噪声图及mask遮挡图像,可以给学习python图像处理的伙伴们提供更多更全面的图像资源。

2023-05-30

共享单车训练数据bike-train.csv

共享单车系统是一种自动化的自行车租赁模式,用户能够从一个地方租借自行车,并根据需要将其归还到不同的地方。目前全世界已经有超过500个共享单车项目。共享单车系统产生的用户数据非常具有研究意义,因为用户使用的时间、季节、天气等实时情况都已经被记录下来。我们可以通过分析这些用户数据,探索用户使用共享单车的规律。 本文选取的数据为共享单车2011-2012年的数据,数据属性包括datetime(日期)、season(季度)、holiday(节日)、workingday(工作日)、weather(天气)、temp(温度)、atemp(体感温度)、humidity(湿度)、windspeed(风速)、casual(发起的非注册用户租赁数量)、registered(已注册用户租赁的数量)、count(总租车人数)。

2023-05-17

单因子检验(回归法及IC值法)源码及课件

在同一试验中,只研究某一个因子的试验方法。是最基本的试验设计方法。单因子试验中所研究的因素,又可分为若干不同的处理级别,这些级别可以是数量上的差异,也可以是性质上的差异。本资源分别采用回归法:即用因子在第 T 期的暴露度与 T + 1期的股票收益率进行线性回归。IC分析法: IC值(Information Coefficient 信息系数)代表因子预测股票收益的能力,常见的 IC 值有两种:Normal IC:某时点某因子在全部股票上的暴露值与其下期回报率的截面相关系数;Rank IC:某时点某因子在全部股票的暴露值排名与其下期回报率排名的截面相关系数。

2023-05-16

部分品牌汽车销量信息数据

本数据包括时间、销售量、在售品牌份额、在售品牌排名及品牌属性列。 共1638条数据。

2023-05-16

python-金融数据挖掘-基于统计学模型的乐高玩具商品价格研究.zip

全球玩具行业都呈现良性发展,中国玩具产业发展一如往常地稳健。随着网购成为中国消费者的重要消费渠道,玩具电商也借机快速发展。在目前的预测研究中,通常采用一个传统的模型,可是对于复杂的购物市场,传统的模型仅仅能够提供某一方面的有效信息,无法避免的会丢失另外一些有效数据,从而让该模型难以达到预期的预测结果。统计学模型是近年来的一种有效的预测方法。我们在此项目中运用了描述性统计方法,计算了标准差和算数平均数,通过箱线图、散点图、柱状图让结果更加鲜明,同时可以观察多种因素。通过此次分析,商家可以调整商品的价格来适应市场价格需求。买方可以通过评论数量来观测商品受欢迎程度,以此作为条件,决定是否购买。 本资源包括PPT、课程设计报告、代码和乐高商品信息数据集文件以及流程图

2023-05-15

40000+条考研信息—数据分析与可视化课程设计(基于python中 pandas、matplotlib、pyecharts库)

现提供 8 份数据集,其中: • 前 6 份:2018-2020 年全国各高校的考研招生分数线相关信息; • 第 7 份:全国大学信息; • 第 8 份:2020 年考研调剂信息。 该资源基于python中的pandas、matplotlib、pyecharts库对以上数据进行预处理、合并、分析以及可视化。 该资源压缩包包括10个基于pyecharts制作的可视化图、8份考研相关信息数据、课程设计报告(word版和pdf版)、和两份代码文件(格式分别为ipynb文件和py文件,内容相同) 成果包括:直方图1个、箱线图1个、柱状图3个、地图1个、饼图1个、折线图1个、雷达图1个、散点图1个、3D柱状图1个 注:由于直方图是基于matplotlib绘制,故图在代码生成结果里,其他图可见pyecharts可视化图文件夹。 注:考研信息选取设定在2017-2020年。

2022-06-27

2020年美国新冠疫情资源

2020年美国新冠疫情资源

2022-05-15

用基本SIR模型实现对美国2020年新冠疫情的预测分析

SIR模型是常见的一种描述传染病传播的数学模型,其基本假设是将人群分为以下三类: 1 易感人群(Susceptible):指未得病者,但缺乏免疫能力,与感病者接触后容易受到感染。 2 感染人群(Infective):指染上传染病的人,他可以传播给易感人群。 3 移除人群(Removed):被移出系统的人。因病愈(具有免疫力)或死亡的人。这部分人不再参与感染和被感染过程。 现根据三类人群,建立基本SIR模型,选取部分2020年美国新冠肺炎数据(165条数据)进行预测分析,最终实现SIR三类人群比率的预测率高于90%的预测模型。

2022-05-15

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除