XYQLTX-CSDN博客

原创使用tf.tensor_scatter_nd_update对张量进行赋值

主要参数为三个：ref是被赋值的张量，indices是具体的索引位置，是整数类型的张量，updates是要赋值的张量，注意与ref为同样类型。该函数就是将ref[indices]的值替换为updates。tf.tensor_scatter_nd_update()是根据指定索引值（或切片）对张量进行新赋值。注意如果整行的赋值，updates 需要给出这一行所有的新值。对于二维张量的坐标赋值，注意indices 中每个元素为索引的[行，列]。利用行索引赋值整行（切片赋值）对于一维张量的坐标赋值。

2023-04-02 16:09:06 1206 1

原创 tf.data.Dataset数据集的制作及使用的多输入问题

tf.data.Dataset数据集的制作及使用在tf.keras中，我们可以将numpy多维数组数据集整个放入训练接口进行训练，例如model.fit(train_x,train_y,…)。但如果数据集过大，是很难一次放入存储空间的，例如几十G以上的数据。对于大型数据集的高效处理，tf为我们提供了一个高效数据集处理类型tf.data.Dataset。例如，我们常用from_tensor_slices把numpy多维数组数据集train_x,train_y打包为tf.data.Dataset，例如：t

2021-03-20 21:43:55 1516 1

原创 task_05 异常检测—高维数据的异常检测

一、高维数据的异常检测随着维度的增加，数据空间的大小（体积）会以指数级别增长，使数据变得稀疏，这便是维度诅咒的难题。维度诅咒不止给异常检测带来了挑战，对距离的计算，聚类都带来了难题。例如基于邻近度的方法是在所有维度使用距离函数来定义局部性，但是，在高维空间中，所有点对的距离几乎都是相等的（距离集中），这使得一些基于距离的方法失效。本文主要学习两种集成方法。1.1 Feature Bagging算法主要过程：（1）选择基分类器，在子集上计算异常得分。标准化数据集S，大小为n×dn\times d

2021-01-24 17:39:31 214

原创 task_04异常检测—基于相似度的方法

一、基于距离的度量“异常值”通常指具有特定业务意义的那一类特殊的异常值。噪声可以视作特性较弱的异常值，没有被分析的价值。噪声和异常之间、正常数据和噪声之间的边界都是模糊的。异常值通常具有更高的离群程度分数值，同时也更具有可解释性。1.1k近邻方法的一种拓展版基于距离的异常检测有这样一个前提假设，即异常点的 kkk 近邻距离要远大于正常点。解决问题的最简单方法是使用嵌套循环。第一层循环遍历每个数据，第二层循环进行异常判断，需要计算当前点与其他点的距离，一旦已识别出多于 kkk 个数据点与当前点的距离

2021-01-21 21:52:29 251 1

原创 task_3异常检测——线性相关方法

2、数据可视化以breast-cancer-unsupervised-ad数据集为例做一些简单的数据可视化。#coding:utf-8#导入warnings包，利用过滤器来实现忽略警告语句。?这个不知道是干什么用的import warningswarnings.filterwarnings('ignore')import numpy as npimport pandas as pd import matplotlib.pyplot as pltimport seaborn as snsi

2021-01-18 21:11:43 197

原创 task_2异常检测方法—统计学习方法

一、基于统计学方法的异常检测主要原理是：学习一个拟合给定数据集的生成模型，然后识别该模型低概率区域中的对象，把它们作为异常点。也就是说，包括两个步骤，第一，给出概率模型，第二，考虑对象有多大可能符合该模型。根据如何指定和学习模型，异常检测的统计学方法可以划分为两个主要类型：参数方法和非参数方法。参数方法：假定正常的数据对象被一个以Θ\ThetaΘ为参数的参数分布产生。该参数分布的概率密度函数f(x,Θ)f(x,\Theta)f(x,Θ)给出对象xxx被该分布产生的概率。该值越小，xxx越可能是异常点

2021-01-15 22:22:40 312

原创 task_综合练习2

一、大作业四下面给出了3090显卡的性能测评日志结果，每一条日志有如下结构：Benchmarking #2# #4# precision type #1##1# model average #2# time : #3# ms其中#1#代表的是模型名称，#2#的值为train(ing)或inference，表示训练状态或推断状态，#3#表示耗时，#4#表示精度，其中包含了float, half, double三种类型，下面是一个具体的例子：Benchmarking Inference float

2021-01-13 23:06:08 152

原创异常检测——task01

一、异常检测1.1 概念异常检测是指识别出与正常数据不同的数据，与预期行为差异大的数据。因此异常检测一般都是不平衡的分类或聚类。1.2 典型应用场景其应用背景有很多，这里主要介绍故障检测。故障是指：当系统的某个特征参数发生了不可接受的偏移时，称系统发生了故障。故障检测就是判断系统是否发生了故障并判断故障的类型和硬件位置；1.3 故障检测的简要介绍故障可以分为两类：一类是预期故障，就是在故障模式库中存在的故障；另一类是非预期故障，这类故障客观存在，但是故障模式库中没有记录。前者往往存在对应的监测记

2021-01-12 19:56:27 630 1

原创 task_10时间序列

一、作业现有一份关于太阳辐射的数据集:df = pd.read_csv('../joyful-pandas-master/data/solar.csv',usecols=['Data','Time', 'Radiation','Temperature'])df.head()1 将 Date, Time 合并为一个时间列 Datetime ，同时把它作为索引后排序。2 每条记录时间的间隔显然并不一致，请解决如下问题：2.1 找出间隔时间的前三个最大值所对应的三

2021-01-10 21:51:53 290

原创 task09 - 分类数据 pandas的category对象

一、作业Ex2：钻石数据集现有一份关于钻石的数据集，其中 carat, cut, clarity, price 分别表示克拉重量、切割质量、纯净度和价格。1 分别对 df.cut 在 object 类型和 category 类型下使用 nunique 函数，并比较它们的性能。2 钻石的切割质量可以分为五个等级，由次到好分别是 Fair, Good, Very Good, Premium, Ideal ，纯净度有八个等级，由次到好分别是 I1, SI2, SI1, VS2, VS1, VVS2, VV

2021-01-07 23:09:56 296

原创 task_08 文本数据

一、作业Ex1：房屋信息数据集现有一份房屋信息数据集如下：In [114]: df = pd.read_excel('data/house_info.xls', usecols=[ .....: 'floor','year','area','price']) .....: In [115]: df.head(3)Out[115]: floor year area price0 高层（共6层） 1986年建 58.23

2021-01-06 22:54:59 154

原创 task_07缺失数据

import numpy as npimport pandas as pd 一、作业在数据处理中，含有过多缺失值的列往往会被删除，除非缺失情况与标签强相关。下面有一份关于二分类问题的数据集，其中 X_1, X_2 为特征变量， y 为二分类标签。df = pd.read_csv('../joyful-pandas-master/data/missing_chi.csv')df.head()df.isna().mean()df.y.value_counts(normalize=True)事

2021-01-03 23:36:46 152

原创 task_练习

作业一增加一列表示该公司该年份的收入熵指标import numpy as npimport pandas as pd # 一、导入数据df1 = pd.read_csv('../company.csv')df1.head()df2 = pd.read_csv('../company_data.csv')df2.head()#二、要根据df1对df2进行分类,可以用连接的方法构造一个新的DataFramedf1.shape#(1048, 2)df2.shape#(964022, 4)

2021-01-01 23:27:40 204 1

原创 task_6连接

一、作业# 作业1import pandas as pd import os import sys import glob# 调用os读取目录下的所有文件path = r'data/us_report' all_files = glob.glob(os.path.join(path, "*.csv")) df_from_each_file = (pd.read_csv(f) for f in all_files)# 设置多

2020-12-29 23:24:27 149

原创 task_5变形

一、作业# 作业1df = pd.read_csv('data/drugs.csv').sort_values([ 'State','COUNTY','SubstanceName'],ignore_index=True)df.head()#将第1问中的结果恢复为原表。df3 = df2.melt(id_vars=['State', 'COUNTY', 'SubstanceName'], value_vars=[2010,2011,2012,2013,2014,

2020-12-27 23:44:46 183

原创 task 4 分组

一、作业#作业1df = pd.read_csv('data/car.csv')df.head(5)#先过滤出所属 Country 数超过2个的汽车，即若该汽车的 Country 在总体数据集中出现次数不超过2则剔除，#再按 Country 分组计算价格均值、价格变异系数、该 Country 的汽车数量，#其中变异系数的计算方法是标准差除以均值，并在结果中把变异系数重命名为 CoV 。def CoV(x): return x.std()/x.mean()gb1 = df.grou

2020-12-25 23:02:31 213 2

原创 pandas 学习task3_索引

一、作业#作业1df = pd.read_csv('../joyful-pandas-master/data/company.csv')df.head()#分别只使用 query 和 loc 选出年龄不超过四十岁且工作部门为 Dairy 或 Bakery 的男性。df.query("age<=40 & department in ['Dairy', 'Bakery']")df.loc[df.age<=40].loc[df.department.isin(['Dairy', '

2020-12-22 23:51:00 285

原创 Task 2 pandas基础

一、作业df = pd.read_csv('../joyful-pandas-master/data/pokemon.csv')df.head()#1.对 HP, Attack, Defense, Sp. Atk, Sp. Def, Speed 进行加总，验证是否为 Total 值。total1 = df[['HP','Attack','Defense','Sp. Atk','Sp. Def','Speed']].sum(1)(total1 == df['Total']).sum() == df[

2020-12-19 23:45:27 482 1

原创 task1 pandas基础

一、作业利用列表推导式写矩阵乘法。一般的矩阵乘法根据公式，可以由三重循环写出。请将其改写为列表推导式的形式。#作业M1 = np.random.rand(2,3)M2 = np.random.rand(3,4)res = np.empty((M1.shape[0],M2.shape[1]))for i in range(M1.shape[0]): for j in range(M2.shape[1]): item = 0 for k in range

2020-12-16 23:21:57 179

原创 Python学习笔记task9 - 文件

作业1、打开中文字符的文档时，会出现乱码，Python自带的打开文件是否可以指定文字编码？还是只能用相关函数？使用open(path, 'r', encoding = 'utf-8') 来打开文件就可以。中文字符好像默认是用gbk编码方式来读取，所以会报错2、编写程序查找最长的单词输入文档: res/test.txt题目说明:""" Input file test.txt Output file ['general-purpose,', 'object-oriente

2020-08-08 11:41:35 269

原创 Python学习笔记task8 -模块

作业1、怎么查出通过 from xx import xx导⼊的可以直接调⽤的⽅法？可以用一个dir()来返回这个包中含有的方法。例如：>>> import math>>> dir(math)['__doc__', '__loader__', '__name__', '__package__', '__spec__', 'acos', 'acosh', 'asin', 'asinh', 'atan', 'atan2', 'atanh', 'ceil', 'copy

2020-08-07 21:45:46 228

原创 Python学习笔记task7 - 类和对象

1. 作业1，2. 类和对象2.1 定义及基本框架用class来申明一个类,可自定义一个类，再在类里面定义它的方法和属性。类是一个属性以及方法的集合。属性就是一堆数据，方法就是一堆函数，类里面的函数就叫方法。对象是类中的一个个体。方法的执行：对象.方法()属性的获取：对象.属性，注意：不需要加括号在一个类中定义方法的时候。定义方法的形式与函数定义基本一致。但是输入方法的函数名后面的括号中，一定要加 self这个对象本身，且一定要放在第一个。在调用这个方法的时候不需要输入进去，因为数据已经

2020-08-05 22:34:25 255

原创 Python学习笔记task6 -函数，匿名函数

作业1、怎么给函数编写⽂档？在函数内部加注释2、怎么给函数参数和返回值注解？加注释3、闭包中，怎么对数字、字符串、元组等不可变元素更新。需要 nonlocal 关键字去声明，然后修改但是如果是列表，字典这样的就可以不用，直接用索引修改。这里关于函数接收参数和形参实参以及全局变量局部变量还想说一下自己的理解和体会:1. 在函数外面定义的变量叫全局变量，在整个程序中都有效，函数中可以直接引用它。2. 函数的输入参数实际上是输入的实参的内存地址，而不是具体的数值。3. 在函数里，是一个形参

2020-08-02 23:19:34 183

原创 Python学习笔记task5-字典，集合，序列

1. 作业1.1 字典作业1，#作业dic = { 'python': 95, 'java': 99, 'c': 100 }'''字典的长度是多少请修改'java' 这个key对应的value值为98删除 c 这个key增加一个key-value对，key值为 php, value是90获取所有的key值，存储在列表里获取所有的value值，存储在列表里判断 javascript 是否在字典中获得字典里所有value 的和获取字典里最大的value

2020-07-31 21:51:00 686

原创 Python学习笔记task4-列表、元组、字符串

Python学习笔记4-列表、元组、字符串1、作业1.1 列表作业1.2 元组作业1.3 字符串作业2、列表2.1 切片切片：选取数据一段的值，用冒号表示从第i个位置取到第j个位置。切片的索引从0开始，0表示第一个值，而最后一位不被取到，python中对所有类型数据的索引都是用[]的。name = 'abcdef'name[1]#b#name[70]#IndexError: string index out of rangename[0:4]#'abcd'name[1:70]

2020-07-28 00:40:04 593 1

原创 python学习笔记3 task3

python学习笔记3 task31. 作业1，1、猜数字游戏题目描述:电脑产生一个零到100之间的随机数字，然后让用户来猜，如果用户猜的数字比这个数字大，提示太大，否则提示太小，当用户正好猜中电脑会提示，“恭喜你猜到了这个数是…”。在用户每次猜测之前程序会输出用户是第几次猜测，如果用户输入的根本不是一个数字，程序会告诉用户"输入无效"。import randomsecret = random.randint(1,100) #[1,3]之间的随机数i = 1while True: p

2020-07-25 00:05:12 252 1

原创 python学习笔记2 task2

python学习笔记2 task2作业1.编写一个Python程序来查找那些既可以被7整除又可以被5整除的数字，介于1500和2700之间。# 1，定义一个空列表存储结果，用循环来索引1500到2700之间的数字#2，用条件判断数字是否能被5整除，也能被7整除，能被整除的输出#3，返回数字到列表中def divis(m,n,s,t): if m>=n: print('参数输入错误') else: result = [] for

2020-07-23 23:29:27 359

原创 python 学习笔记 task1

python 学习笔记1、输入输出>>>num1 = input('请输入第一个数字：')>>>num2 = input('请输入第二个数字：')请输入第一个数字：10请输入第二个数字：112、数据类型

2020-07-20 22:20:40 260 2

原创 SVM 练习的学习笔记

SVM 练习的学习笔记#算法方面在程序编写之前，对于算法的公式一定要都先写成矩阵的形式，确保维度一支，我这里后面直接根据矩阵和向量的维度大小一致而得到的表达式，不知道有啥好的技巧没有。。。。对于svm整个流程来说，应该是1，在训练集中，写出我的目标函数形式，然后对于这个二次规划问题，用quadprog函数，即写成这个函数目标与约束的形似，注意如果没有那项约束就把它写成[]，这样可以得到α，！！！然后注意这里是在训练集练习得到的我的分界面的w和b，所以是将训练集的数据与α代入w的表达式中，由于b的唯一

2020-07-18 19:42:35 414

XYQLTX的博客