自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(76)
  • 资源 (1)
  • 收藏
  • 关注

原创 2021年“泰迪杯”数据分析技能B题-肥料登记数据分析赛题

一、背景肥料是农业生产中一种重要的生产资料,其生产销售必须遵循《肥料登记管理办法》,依法在农业行政管理部门进行登记。各省、自治区、直辖市人民政府农业行政主管部门主要负责本行政区域内销售的肥料登记工作,相关数据可从政府网站上自由下载。二、目标对肥料登记数据进行预处理。根据养分的百分比对肥料产品进行细分。从省份、日期、生产商、肥料构成等维度对肥料登记数据进行对比分析。对非结构化数据进行结构化处理。任务 1 数据的预处理任务 1.1附件 1 的产品通用名称存在不规范的情况。请按照复混肥料(掺

2021-12-02 11:49:58 3302 5

原创 2018 年“泰迪杯“数据分析职业技能大赛 B 题

不知道大家有没有这种体会,某件事很久不去做,但真的去做的时候心里会有抗拒感。是不是很久没有做练习题的你才有的体会?让我们一起来看一下2018 年"泰迪杯"数据分析职业技能大赛 B 题 吧~任务 1 数据处理与分析任务 1.1 根据附件 1 中的数据,提取每台售货机对应的销售数据,保存在 CSV文件中,文件名分别为“task1-1A.csv”、“task1-1B.csv”、…、task1-21E.csv”。#任务1site = ['A','B','C','D','E']for i in sit

2021-07-01 15:06:09 4970 1

原创 皮尔逊(Pearson)相关系数与spearman相关系数(Python实现)

概念介绍相关系数:考察两个事物(在数据里我们称之为变量)之间的相关程度。相关系数大小解释相关性绝对值无相关0 - 0.09弱相关0.1 - 0.3中相关0.3 - 0.5强相关0.5 - 1表中所定的标准从某种意义上说是武断的和不严格的。对相关系数的解释是依赖于具体的应用背景和目的。Pearson(皮尔逊)相关系数简介:皮尔逊相关也称为积差相关(或积矩相关)是英国统计学家皮尔逊于20世纪提出的一种计算直线相关的方法。公式也可以化简

2020-08-03 14:58:54 12050 1

原创 灰色关联分析——Excel实现

灰色关联分析概述一般的抽象系统,如社会系统、经济系统、农业系统等都包含多种因素,多种因素共同决定了该系统的发展态势。而人们通常希望知道在众多的因素中,哪些因素是主要因素,哪些因素是次要因素,哪些因素对发展影响大,哪些因素对发展影响小等,这都是系统分析中人们普遍关心的问题。数理统计中的回归分析、方差分析、主成分分析等都是用来进行系统分析的方法,但是存在局限性:要求有大量数据要求样本服从某个典型的概率分布,要求各因素数据与系统特征数据之间呈线性关系且各因素之间彼此无关灰色关联分析就可以弥补这些

2020-08-01 18:43:46 11990 3

原创 一篇搞定文件的操作

offset是相对于某个位置的偏移量,whence指定起始位置(0表示文件开头,1表示当前位置,2表示文件末尾)。open()函数的基本语法为:open(filename, mode),其中filename是文件名(包含路径),mode是打开模式(如’r’、‘w’、‘a’、'r+‘等)。如果文件已存在,且打开模式为’w’,则会覆盖原有内容。如果需要在文件末尾追加内容,可以使用’a’模式打开文件,然后调用write()方法。使用open()函数打开文件,该函数返回一个文件对象,用于后续的文件操作。

2024-06-06 09:38:51 288

原创 numpy操作数据维度

添加维度np . stack。

2024-05-08 17:51:26 112

原创 sklearn的make_blobs函数

make_blobs是一个用于生成随机数据点的实用函数,

2024-05-08 17:37:17 461

原创 读取pems04.npz文件

【代码】读取pems04.npz文件。

2024-04-27 23:39:07 166

原创 无监督学习的评价指标(最全集合)

1.计算a(i) :样本i到同簇内其他样本的平均距离,代表样本i的簇内相似度。a(i)的值越小,说明样本i越应该被聚类到该簇,簇内相似度越高。2.计算b(i):样本i到其他簇内的所有样本的平均距离的最小值,代表样本i的簇间不相似度。b(i)值越大,说明样本i越不应该被聚类到其他簇。轮廓系数用于判断聚类结果的紧密度和分离度。轮廓系数综合了样本与其所属簇内的相似度以及最近的其他簇间的不相似度。轮廓系数的取值范围在[-1,1]之间,系数越大,说明聚类效果越好,簇内相似度越高,簇间差异性越大。

2024-04-27 23:34:00 994 6

原创 macro-averaged Precision和B-CUBED Precision的区别

由于B-cubed Precision的计算涉及到聚类结果和真实标签的对比,而且计算过程相对复杂,这里不提供一个具体的例子。不过,需要注意的是,B-cubed Precision的计算方式使得它能够更好地反映聚类算法在保持样本点相似性和纯度方面的性能。在B-cubed Precision中,首先计算每个样本点的精度,然后对所有样本点的精度取平均值。每个样本点的精度是基于其所属聚类中与其共享相同真实标签的样本点数量来计算的。这种方法能够反映聚类结果中样本点的纯度,即聚类内部样本点的相似度。

2024-04-26 20:29:54 261

原创 nn.DataParallel

nn.DataParallel 是 PyTorch 中的一个模块,用于在多个 GPU 上并行运行模型。当有多个 GPU 并且想要利用它们来加速训练或推理时,这个模块会非常有用。nn.DataParallel 通过对模型中的每个子模块进行复制,并将输入数据分割成多个部分,然后在每个 GPU 上并行处理这些部分来实现并行化。

2024-04-23 22:44:51 541

原创 __init__与args

在Python中,__init__是一个特殊的方法,被称为类的构造函数或初始化方法。它在一个对象被创建时立即调用,用于初始化该对象的属性或执行其他必要的设置。如果使用args作为参数名,它通常是一个元组,用于接收任意数量的位置参数。这在你不确定或想要允许用户传递任意数量的参数时很有用。

2024-04-23 22:02:18 368

原创 nn.Sequential与tensorflow的Sequential对比

nn.Sequential() 是 PyTorch 深度学习框架中的一个类,用于按顺序容器化模块。nn.Sequential 是一个有序的容器,它包含多个网络层,数据会按照在构造函数中传入顺序依次通过每个层。

2024-04-21 06:36:51 365

原创 python第三方库安装问题

【代码】python第三方库安装问题。

2024-04-21 03:16:21 248 1

原创 数据分析报告怎么写

数据分析报告是整个业务分析过程的成果总结,是评定一条业务线的重要参考依据。在进行数据报告撰写时,要注意报告各部分的完整性,一个完整的数据报告应该包括以下部分:报告背景、报告目的、数据来源及情况、分页图表内容、结果总结、趋势预测及应对策略。制作报告之前,需要了解业务背景,注意其目的是什么?每一张表每一个图都是有用且真实的,每个数据指标的定义都要明晰明了,做到抓住重点、精准分析,通过报告可以了解哪些信息?可以发现哪些问题?如何解决问题?应该采取哪些措施?同时需要了解受众群体的特性,这样才能体现报告的价值。**

2023-09-26 16:18:26 260

原创 利用Python合并txt文件

利用Python合并txt文件

2023-01-30 20:03:30 1153 1

原创 假设磁盘的每个磁道分成9个块

当磁头转过A块花了3ms,再花2ms时间,将已转到缓冲区的数据转移到内存中,此时磁头已经来到B块的2/3处,接下来可以花1ms时间读取B,再花27ms,才能完整地读完B,最后花2ms处理,从B块到最后一块都是如此处理,所以最后需要花的时间是。由题目所给条件可知,磁盘转速为27ms/转,每个磁道存放9条记录,因此读出1条记录的时间是27/9 = 3ms。1)若顺序存放这些记录顺序读取,处理该文件要多少时间?2)若要顺序读取该文件,记录如何存放处理时间最短?基础知识:磁盘一旦开始转,就不会停。

2022-09-30 21:02:52 1786 1

原创 大数据可视化技术——平行坐标图、成对关系图、高级折线图

一、平行坐标图平行坐标图是对于具有多个属性问题的一种可视化方法,下图为平行坐标图的基本样式,数据集的一行数据在平行坐标图中用一条折线表示,纵向是属性值,横向是属性类别(用索引表示)。pandas.plotting.parallel_coordinates(frame, class_column, cols=None, ax=None, color=None, use_columns=False, xticks=None, colormap=None, axvlines=True, axvlines_kw

2022-05-25 11:04:25 2509

原创 Topsis模型

第一步:指标同向化import pandas as pdfrom pandas import DataFrameimport numpy as npimport mathdates=pd.read_csv(r"C:\Users\相关数据.csv",encoding='gbk')dates.head()PH为中间型数据,要将区间型指标转换为极大型指标PH_list=[]for i in range(0,len(dates)): PH_list.append(abs(dates.

2022-05-25 10:54:06 445

原创 卡方检验——离散型特征相关性分析

import pandas as pd #导入读入数据的包from sklearn.feature_selection import SelectKBest #卡方检验->判断离散型特征是否相关from sklearn.feature_selection import chi2#读取数据data = pd.read_csv('./2013年八城市融合数据.csv',encoding='gbk')x= data[['归属感有无(0:有 1:无)','户口性质(0:农业 1:非农业)',

2022-05-25 10:44:31 3552 1

原创 第十届泰迪杯数据挖掘B题电力系统负荷预测分析

一、问题背景电力系统负荷(电力需求量,即有功功率)预测是指充分考虑历史的系统负荷、经济状况、气象条件和社会事件等因素的影响,对未来一段时间的系统负荷做出预测。负荷预测是电力系统规划与调度的一项重要内容。短期(两周以内)预测是电网内部机组启停、调度和运营计划制定的基础;中期(未来数月)预测可为保障企业生产和社会生活用电,合理安排电网的运营与检修决策提供支持;长期(未来数年)预测可为电网改造、扩建等计划的制定提供参考,以提高电力系统的经济效益和社会效益。复杂多变的气象条件和社会事件等不确定因素都会对电力系统

2022-05-25 08:45:56 1001

原创 【Python】实现Jupyter Notebook多行输出

from IPython.core.interactiveshell import InteractiveShell InteractiveShell.ast_node_interactivity = "all"不用的时候只输出最后一行的结果添加之后会显示所有输出

2022-02-09 23:26:27 1710

原创 【Python】进度条tqdm

Tqdm 是一个快速,可扩展的Python进度条,可以在 Python 长循环中添加一个进度提示信息,用户只需要封装任意的迭代器 tqdm(iterator)。from tqdm import tqdmimport timefor i in tqdm(range(10)): time.sleep(0.2)针对迭代对象是range()的情况,tqdm还提供了简化版的trange()来代替tqdm(range()from tqdm import trangefor i in trange(10)

2022-01-30 20:34:54 909

原创 pandas按行按列遍历Dataframe的几种方式

iterrows(): 按行遍历,将DataFrame的每一行迭代为(index,Series)对,可以通过row[name]对元素进行访问。itertuples():按行遍历,将DataFrame的每一行迭代为元祖,可以通过row[name]对元素进行访问,比iterrows()效率高。iteritems():按列遍历,将DataFrame的每一列迭代为(列名, Series)对,可以通过row[index]对元素进行访问。...

2022-01-28 23:53:06 2191

原创 【Keras】注意力机制(Attention)

Keras注意力机制注意力机制导入安装包加载并划分数据集数据处理构建模型main函数注意力机制从大量输入信息里面选择小部分的有用信息来重点处理,并忽略其他信息,这种能力就叫做注意力(Attention)。分为 聚焦式注意力和基于显著性的注意力:聚焦式注意力(Focus Attention):自上而下的、有意识的注意力。指有预定目的、依赖任务的、主动有意识地聚焦于某一对象的注意力。基于显著性的注意力(Saliency-Based Attention):自下而上的、无意识的。不需要主动干预,和任务无关

2022-01-15 21:43:15 10226 3

原创 【Keras】LSTM和Bi-LSTM神经网络

KerasLSTM和Bi-LSTM神经网络导入安装包加载并划分数据集数据处理创建LSTM模型并训练评估模型创建Bi-LSTM模型并训练打印Bi-LSTM模型评估Bi-LSTM模型导入安装包import tensorflow.kerasfrom tensorflow.keras.datasets import mnistfrom tensorflow.keras.layers import Dense,LSTM,Bidirectionalfrom tensorflow.keras.utils imp

2022-01-11 15:50:44 1784

转载 【Keras】简单神经网络搭建

Keras简单神经网络搭建

2022-01-10 19:24:43 584

原创 【Keras】简单逻辑回归模型

Keras简单逻辑回归模型导入安装包加载数据创建模型并训练评估模型导入安装包import pandas as pdfrom keras.models import Sequentialfrom keras.layers import Densefrom keras.layers import Flattenimport keras.datasets.mnist as mnist加载数据使用手写数字数据(train_image,train_label),(test_image,test_l

2022-01-10 15:25:38 1016

原创 【Keras】简单线性回归模型

Keras简单线性回归模型导入安装包加载数据创建模型并训练预测与结果可视化导入安装包import pandas as pdfrom keras.models import Sequentialfrom keras.layers import Denseimport sklearn.datasets as datasetsfrom sklearn.model_selection import train_test_splitfrom sklearn.metrics import mean_squ

2022-01-09 21:45:58 646

原创 蒙特卡罗法(Python实现)

Hello,大家好,我是茶哩,我们来学习一个有意思的算法,蒙特卡罗方法。蒙特卡罗法简介工作原理基本步骤求圆周率π的python实例简介蒙特卡罗法(统计模拟方法)是通过从概率模型的随机抽样进行近似数值计算的方法。蒙特卡罗是一个赌场的名字,是一类基于概率的模型的统称。工作原理不断随机抽样逐渐逼近结果一般来说,采样越多,越近似最优解,而永远不是最优解。基本步骤蒙特卡罗算法的基本步骤蒙特卡罗算法一般分为三个步骤,包括构造随机的概率的过程,从构造随机概率分布中抽样,求解估计量。1 构造随机

2022-01-01 17:35:57 4688 2

原创 【机器学习】深度解析Apriori算法

项集、支持度、置信度、最小支持度、最小置信度、频繁项集

2021-12-26 23:49:51 2823

原创 【机器学习】pipeline管道机制

pipeline管道机制,顾名思义就像水管一样,数据就像水一样,在管道之间流动,pipline的每一步就将一节节水管,数据经由这节水管流到下一节水管,流向下一节水管的就是经由上一节水管处理后的数据。例子:from sklearn.pipeline import Pipelinefrom sklearn.preprocessing import StandardScalerfrom sklearn.decomposition import PCAfrom sklearn.datasets impor

2021-12-26 21:26:16 1300

原创 Spark期末复习--容易遗漏的知识点

Spark主要有以下3个特点:spark提供了高级API,开发者只需专注于应用计算本身即可,不用关注集群。spark计算速度快,支持交互式计算和复杂算法。spark是一个通用引擎,可用它来完成各种运算,包括SQL查询、文本处理、机器学习、实时流处理等。spark与hadoop的区别和联系(1)解决问题的方式不同。hadoop是一个分布式数据基础架构,它将巨大的数据集分派到一个集群中,由其中多个节点进行存储,用户不需要专门购买昂贵的服务器硬件,且hadoop还会对这些数据进行排序和跟踪。sp

2021-12-21 15:58:49 1093

原创 Spark期末复习--机器学习算法库

spark机器学习常用库

2021-12-21 09:00:30 2033

原创 Python进阶练习题,新手快码起来

这里有8题进阶练习题,师弟师妹们快码起来吧~

2021-12-20 17:15:20 3057

原创 期末复习--机器学习总结(全)

数据挖掘的定义?数据挖掘是指从大量的、随机的、不完全的、有噪声的、模糊的应用数据中,提取出潜在有价值的信息,该过程自动完成,信息的表现形式可以为规则、概念、模型、模式等。知识发现的过程?确定知识发现的目标数据采集数据探索数据预处理数据挖掘模式评估数据挖掘任务主要集中在哪些方面(也叫数据挖掘的模式类型)?哪些是预测性任务,哪些是描述性任务?主要集中在回归、分类、预测、关联、聚类、异常检测6个方面,前3个是预测性,后3个是描述性pandas两种核心数据结构一维数据结构Series,二

2021-12-20 09:32:11 4827

原创 turtle作字画

全网都在画圣诞树,我来画个苹果字画。

2021-12-19 11:50:08 1228 1

原创 Spark期末复习--SparkSQL

Spark SQL是由DataFrame派生出来的,通过三步创建使用创建DataFrame将DataFrame注册成临时表使用临时表进行查询统计使用RDD创建DataFramefrom pyspark.sql import SparkSessionsqlContext = SparkSession.builder.getOrCreate()定义DataFrame的每一个字段名和数据类型from pyspark.sql import RowsaleRows = salesRDD.map

2021-12-17 22:25:54 1730

原创 Spark 期末复习--RDD总结(包含经典练习题)

什么是RDD?spark处理数据时,会将一整块数据分割成多个分块数据块,这些分块数据块组成的集合,称为RDD(Resilient Distributed Datasets)。RDD是一种可扩展的弹性分布式数据集,是Spark最基本的数据抽象,表示一个只读、且分区不变的数据集合,是一种分布式的内存抽象,不具备schema的数据结构,可以基于任何数据结构创建。弹性分布式数据集(RDD,Resilient Distributed Datasets),它具备像MapReduce等数据流模型的容错特性,并且允许

2021-12-14 10:12:29 4723

原创 ValueError: Can only compute partial correlations for lags up to 50% of the sample size. The request

注意看报错,说lags要小于5,因此设置lags=4

2021-12-13 17:58:32 6917 2

基于子空间对齐的单细胞转录...测序数据的细胞类型预测研究-张柳

本 文 将 一 种 用 于 图 片 识 别 的 迁 移 学 习 算 法 — 子 空 间 对 齐 领 域 自 适 应 ( S ubsp ac e A l i gn m e n t Dom a i n A d apt i on , SA- DA ) 算法用 于 s cRNA 数据 , 通过对齐 源域和 目 标域 的子空 间 实现数据 降 维 、 批次 效应校正和 细胞类型预测 。 首先 , 对源 域和 目 标域进行数据预 处理并通过主 成分分析构 建子空 间 坐标系 ; 其次 , 通过子 空 间 对齐得 到 目 标对齐源坐标系 , 并将数据投影到对齐后 的子空 间 中 , 得到数据 的低 维表示 ; 最后 , 在源域数据上建立 S VM 分类器 , 将源域 中 的 类别信 息迁移 到 目 标 域 中 以 预测 目 标域数据 的 细 胞类型 , 同 时 进行批次效应校正

2023-04-15

最优传输问题的高效算法及应用-郎大宇

最优传输问题的高效算法及应用-郎大宇

2023-04-15

2017-2018年微信小程序市场发展研究报告

2017-2018年微信小程序市场发展研究报告内容包括小程序的发展现状 、小程序用户行为研究、智慧零售类小程序市场表现、餐饮类小程序市场表现、电商类小程序市场表现、 2018年小程序行业发展趋势分析等,希望对大家有帮助。

2020-08-02

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除