- 博客(30)
- 收藏
- 关注
原创 锚框与锚框类别信息的确定
1.锚框目标检测算法通常会在输入图像中采样大量的区域,然后判断这些区域中是否包含感兴趣的目标,并调整区域边缘从而更准确地预测目标的真实边界框(ground-truth bounding box)。下采样(subsampled)(或称为缩小图像 或降采样(downsampled))的主要目的有两个:1、使得图像符合显示区域的大小;2、生成对应图像的缩略图(最直观的理解,所以深度学习领域对被卷积核之后的特征图叫下采样,从尺寸角度来看,大部分确实会缩小尺寸)。上采样(upsampling) (或称为放大图
2020-12-19 21:08:11 432 1
原创 数据建模及模型评估
Task05:数据建模及模型评估混淆矩阵混淆矩阵就是分别统计分类模型归错类,归对类的观测值个数,然后把结果放在一个表里展示出来。这个表就是混淆矩阵。混淆矩阵多用于判断分类器(Classifier)的优劣,适用于分类型的数据模型,如分类树(Classification Tree)、逻辑回归(Logistic Regression)、线性判别分析(Linear Discriminant Analysis)等方法。真实值是positive,模型认为是positive的数量(True Positive=T
2020-08-27 23:10:00 979
原创 基于机器学习cifar10分类分类预测
Task03:基于支持向量机的分类预测cifar10分类import numpy as npimport platformimport pickleimport osimport matplotlib.pyplot as pltimport time#赵于钧 加载数据def load_pickle(f): version = platform.python_version_tuple() if version[0] == '2': return pickl
2020-08-26 21:49:35 711
原创 python数据挖掘建模决策树
决策树决策树方法在分类、预测、规则提取等领域有着广泛应用。20世纪70年代后期和80年代初期,机器学习研究者J.Ross Quinlan提出了ID38算法以后,决策树在机器学习、数据挖掘领域得到极大的发展。Quinlan 后来又提出了C4.5,成为新的监督学习算法。1984年, 几位统计学家提出了CART分类算法。ID3和CART算法几乎同时被提出,但都是采用类似的方法从训练样本中学习决策树。决策树是一树状结构,它的每-一个叶 节点对应着-一个分类,非叶节点对应着在某个属性上的划分,根据样本在该属性上的
2020-08-25 23:06:26 310
原创 Python数据可视化matplotib 库
Task04:数据可视化7.1 matplotib 库matplotlib库是专门用于开发2D图表(包括3D图表)的,近年来被广泛应用于科技圈( http://matplolib.org )。在促使它成为使用最多的数据图形化表示工具的众多优点中,以下几点最为突出:使用起来极其简单以渐进、交互式方式实现数据可视化表达式和文本使用LaTeX排版对图像元素控制力更强可输出PNG、PDF、SVG和EPS等多种格式matplotlib的设计初衷是在图形视图和句法形式方面尽可能重建跟Matlab类似的
2020-08-25 22:43:55 465
原创 Task05:数据挖掘之建模预测
Task05:建模预测1. 线性回归模型线性回归对于特征的要求:特征符合线性行和可加性。假设因变量为Y,自变量为X1,X2,则回归分析的默认假设为Y=b+a1X1+a2X2+ε。 线性性:X1每变动一个单位,Y相应变动a1个单位,与X1的绝对数值大小无关。可加性:X1对Y的影响是独立于其他自变量(如X2)的特征之间应相互独立。理解线性回归模型线性回归五大假设:1)线性性 & 可加性,2)误差项(ε)之间应相互独立,3)自变量(X1,X2)之间应相互独立,4)误差项(ε)的方差应为常
2020-08-24 22:54:49 293
原创 04、特征工程
Task04:特征工程特征工程指的是把原始数据转变为模型的训练数据的过程,它的目的就是获取更好的训练数据特征,使得机器学习模型逼近这个上限。特征工程能使得模型的性能得到提升,有时甚至在简单的模型上也能取得不错的效果。特征工程在机器学习中占有非常重要的作用,一般认为括特征构建、特征提取、特征选择三个部分。特征构建比较麻烦,需要一定的经验。 特征提取与特征选择都是为了从原始特征中找出最有效的特征。它们之间的区别是特征提取强调通过特征转换的方式得到一组具有明显物理或统计意义的特征;而特征选择是从特征集合中挑选一
2020-08-23 21:33:26 213
原创 数据分析之数据重构
Task03:数据重构数据从一种几何形态到另一种几何形态,数据从一种格式到另一种格式的转换,包括结构转换、格式转换、类型替换等(数据拼接、数据裁剪、数据压缩等),以实现空间数据在结构、格式、类型上的统一,多源和异构数据的联接与融合。重构前存在的问题一、使用难:主题表是由领域应用驱动设计的,定制性比较强,没有很好地考虑扩展和通用性,需求变化就很难重用。基于这些表进行再次汇聚、关联都比较困难。二、质量差:相同指标在不同领域中的算法不统一,常存在数据一致性问题,数据质量差。三、性能低: 所有的主题表都
2020-08-23 21:19:26 829
原创 数据挖掘时间序列模型
Task03:时间序列模型对某一个或一组变量x(t)进行观察测量,将在一系列时刻t1, t2, …, tn (t为自变量)按照时间次序排列,并用于解释变量和相互关系的数学表达式。<t2<…< tn="" )="" 所得到的离散数字组成序列集合x(t1),="" x(t2),="" …,="" x(tn),我们称之为时间序列。时间序列分析是根据系统观测得到的时间序列数据,通过曲线拟合和参数估计来建立数学模型的理论和方法。它一般采用曲线拟合和参数估计方法(如非线性最小二乘法)进行。ARM
2020-08-22 22:27:48 613
原创 机器学习猫狗分类
Task02:基于决策树的分类预测猫狗分类from keras.models import Sequentialfrom keras.layers import Conv2D, MaxPooling2D, Flatten, Dense, Dropoutfrom keras.optimizers import RMSpropfrom keras.preprocessing.image import ImageDataGenerator# 下面的一部分是进行数据预处理import osimp
2020-08-22 22:07:16 1620 1
原创 02:时间序列规则
Task02:时间序列规则时间序列法是一种统计分析方法,在宣传工作中根据一定时间的数据序列预测未来发展趋势的方法。亦称时间序列趋势外推法。这种方法适用于处于连续过程中的事物的预测。它需要有若干年的数据资料,按时间序列排列成数据序列,其变化趋势和相互关系要明确和稳定。针对周期因子的优化按列提取中位数是一种简单而有效的提取周期因子的方法。中位数十分鲁棒,不受极端值的影响。但中位数损失了很多信息。实践中,可以在此基础上进一步优化。比如可以提取一个均值和一个中位数,然后将均值和中位数融合。融合的比例按照测试集
2020-08-21 20:56:15 581
原创 02:数据清洗及特征处理
Task02:数据清洗及特征处理导入numpy、pandas包和数据import numpy as npimport pandas as pdprint(pd.__version__) # 1.0.3载入数据df=pd.read_csv('train.csv')df.head()1、缺失值观察与处理缺失值的处理方法函数名描述dropna根据每个标签的值是否缺失数据来筛选轴标签,并根据允许丢失的数据来确定阈值fillna用某些值填充缺失的数据或使用插值的方法
2020-08-21 20:29:38 171
原创 基于python数据分析
Task01:数据探索与分析1、数据质量分析数据质量分析是数据挖掘中数据准备过程的重要–环,是数据预处理的前提,也是数据挖掘分析结论有效性和准确性的基础,没有可信的数据,数据挖掘构建的模型将是空中楼阁。数据质量分析的主要任务是检查原始数据中是否存在脏数据,脏数据一般是指不符合要求,以及不能直接进行相应分析的数据。在常见的数据挖掘工作中,脏数据包括如下内容。口、缺失值。异常值。不一致的值。重复数据及含有特殊符号(如#、¥、*)的数据。2、缺失值分析数据的缺失主要包括记录的缺失和记录中某个字段
2020-08-20 21:33:38 808
原创 基于逻辑回归的分类预测鸢尾花分类
Task01:基于逻辑回归的分类预测鸢尾花分类# -*- coding: utf-8 -*-"""Created on Mon Jun 22 10:32:41 2020@author: asus"""import pandas as pdfrom pandas.plotting import scatter_matrixfrom matplotlib import pyplotfrom sklearn.model_selection import train_test_splitf
2020-08-20 20:47:59 867
原创 数据分析之数据加载
Task01:数据加载及探索性数据分析输入输出通常可以划分为几个大类:读取文本文件和其他更高效的磁盘存储格式,加载数据库中的数据,利用Web API操作网络资源。读写文本格式的数据因为其简单的文件交互语法、直观的数据结构,以及诸如元组打包解包之类的便利功能,Python在文本和文件处理方面已经成为一-]招人喜欢的语言。pandas提供了-些用于将表格型数据读取为DataFrame对象的函数。其中read_ csv和read_ table 可能会是你今后用得最多的。pandas中的解析函数
2020-08-19 20:59:15 896 1
原创 Task09:python中的文件
Task09:文件从文件中读取数据文本文件可存储的数据量很多:天气数据、交通数据等。每当需要分析或修改存储在文件中的信息时,读取文件都很有用,对数据分析应用程序来说尤其如此。例如,你可以编写一个这样的程序:读取一个文本文件的内容,重新设置这些数据的格式并将其写入文件,让浏览器能够显示这些内容。要使用文本文件中的信息,首先需要将信息读取到内存中。为此,你可以一次性读取文件的全部内容,也可以以每次一行的方式逐步读取。读取整个文件要读取文件,需要一个包含几行文本的文件。关键字with在不再需要访问文件
2020-08-07 23:40:24 163
原创 Task08:python模块与datetime模块
Task08:模块与datetime模块模块Python 模块(Module),是一个 Python 文件,以 .py 结尾,包含了 Python 对象定义和Python语句。import 语句格式:模块名.函数名当解释器遇到 import 语句,如果模块在当前的搜索路径就会被导入。注:一个模块只会被导入一次,不管你执行了多少次import。这样可以防止导入模块被一遍又一遍地执行。import module1[, module2[,... moduleN]]# 导入模块import sup
2020-08-07 23:18:14 121
原创 Task07:python中的类
Task07:类和对象类方法和静态方法Python其实可以支持类方法定义,区别前面的实例方法,同时只是静态方法定义,类方法和静态方法类似,都可以通过类调用(同时也支持对象调用)区别在于类方法第一个参数为cls,会自动绑定到类,而静态方法不会自动绑定到类。class Bird: @classmethod def fly(cls): print('类方法fly:',cls) @staticmethod def info(p): print(
2020-08-05 21:49:34 122
原创 python中的函数简单运用
Task06:函数与Lambda表达式要执行函数定义的特定任务,可调用该函数。需要在程序中多次执行同一项任务时,你无需反复编写完成该任务的代码,而只需调用执行同一项任务时,你无需反复编写完成该任务的代码,而只需调用执行该任务的函数,让Python运行其中的代码。你将发现,通过使用函数,程序的编写、阅读、测试和修复都将更容易。返回值函数并非总是直接显示输出,相反,它可以处理一些数据,并返回一个或一组值。函数返回的值被称为返回值。在函数中,可使用return语句将值返回到调用函数的代码行。返回值让你能够将
2020-08-02 22:47:43 107
原创 Task05:python中的字典
Task05:字典1.字典在Python中,字典是一系列键—值对。每个键都与一个值相关联,你可以使用键来访问与之相关联的值。与键相关联的值可以是数字、字符串、列表乃至字典。事实上,可将任何Python对象用作字典中的值。在Python中,字典用放在花括号{}中的一系列键—值对表示。alien_0 = {'color': 'green', 'points': 5} 键—值对是两个相关联的值。指定键时,Python将返回与之相关联的值。键和值之间用冒号分隔,而键—值对之间用逗号分隔。在字典中,你想存储
2020-07-31 21:09:09 151
原创 pyyhon列表、元组
Task04:列表、元组列表创建数值列表列表非常适合用于存储数字集合,而Python提供了很多工具,可帮助你高效地处理数字列表。明白如何有效地使用这些工具后,即便列表包含数百万个元素,你编写的代码也能运行得很好。使用函数range()Python函数range()让你能够轻松地生成一系列的数字。for value in range(1,5): print(value) # 用range()时,如果输出不符合预期,请尝试将指定的值加1或减1。使用range()创建数字列表要创建数字列
2020-07-28 21:22:16 268
原创 Task03:python的异常处理
Task03:异常处理Python使用被称为异常的特殊对象来管理程序执行期间发生的错误。每当发生让Python不知所措的错误时,它都会创建一个异常对象。如果你编写了处理该异常的代码,程序将继续运行;如果你未对异常进行处理,程序将停止,并显示一个traceback,其中包含有关异常的报告。异常是使用try-except代码块处理的。try-except代码块让Python执行指定的操作,同时告诉Python发生异常时怎么办。使用了try-except代码块时,即便出现异常,程序也将继续运行:显示你编写的友
2020-07-25 21:16:12 176
原创 python if条件循环结构
Task02:if条件循环结构1、if语句1.1、简单的if语句简单的if语句只有一个测试和一个操作:if conditional_test: do something 在第1行中,可包含任何条件测试,而在紧跟在测试后面的缩进代码块中,可执行任何操作。如果条件测试的结果为True,Python就会执行紧跟在if语句后面的代码;否则Python将忽略这些代码。age = 19 if age >= 18: print("You are old enough tovo
2020-07-23 20:16:12 1285
原创 python变量、运算符、数据类型及位运算
Task01:变量、运算符、数据类型及位运算1、变量1.1、变量的命名和使用在Python中使用变量时,需要遵守一些规则和指南。违反这些规则将引发错误。变量名只能包含字母、数字和下划线。变量名可以字母或下划线打头,但不能以数字打头,例如,可将变量命名为message_1,但不能将其命名为1_message。变量名不能包含空格,但可使用下划线来分隔其中的单词。例如,变量名greeting_message可行,但变量名greeting message会引发错误。不要将Python关键字和函数名用作变
2020-07-22 20:20:36 143
原创 Task05:基于pandas综合练习
Task05:综合练习一、端午节的淘宝粽子交易问题(1) 请删除最后一列为缺失值的行,并求所有在杭州发货的商品单价均值。(2) 商品标题带有“嘉兴”但发货地却不在嘉兴的商品有多少条记录?(3) 请按照分位数将价格分为“高、较高、中、较低、低”5 个类别,再将 类别结果插入到标题一列之后,最后对类别列进行降序排序。(4) 付款人数一栏有缺失值吗?若有则请利用上一问的分类结果对这些缺失 值进行合理估计并填充。(5) 请将数据后四列合并为如下格式的 Series:商品发货地为 ××,店铺为 ××,共
2020-07-01 20:35:33 211
原创 时序数据的创建
Task04:时序数据一、时序的创建1. 四类时间变量元素类型 创建⽅式名称 :① Date times(时间点/时刻) 描述:描述特定⽇期或时间点 元素类型:Timestamp 创建方式:to_datetime或date_range② 名称:Time spans(时间段/时期) 描述:由时间点定义的⼀段时期 元素类型:Period 创建方式:Period或period_range③名称: Date offsets(相对时间差) 描述:⼀段时间的相对⼤小(与夏/
2020-06-29 22:26:29 444
原创 分类数据的创建及排序
Task03:分类数据分类数据类型在以下情况下非常有用 :一个字符串变量,只包含几个不同的值。将这样的字符串变量转换为分类变量将会节省一些内存。变量的词汇顺序与逻辑顺序(“one”,“two”,“three”)不同。 通过转换为分类并指定类别上的顺序,排序和最小/最大将使用逻辑顺序,而不是词法顺序。作为其他python库的一个信号,这个列应该被当作一个分类变量(例如,使用合适的统计方法或plot类型)。分类数据Task03:分类数据⼀、category的创建及其性质1. 类变量的创建1.1.1.⽤
2020-06-27 20:06:28 286
原创 ⽂本数据
Task02:文本数据⼀、string类型的性质string类型和object不同之处:① 字存⽅法(string accessor methodsstr.count)会回相应数据的Nullable类型而object会随失值的存在而改变回类型② Series⽅法不在string上使⽤例 Series.str.decode()因为存储的是字串而不是字节③ string类型在失值存储或运时类型会⼴为pd.NA而不是浮点型np.nan其余部内容在当本下完⼀但合Pandas的发展式我们仍部⽤string
2020-06-26 21:49:15 309
原创 基于pandas缺失数据处理
一、处理缺失值缺失数据会在很多的数据分析中出现,而pandas的目标之一就是尽可能无痛地处理缺失数据值。对于pandas对象中表现出缺失值并不完整,可是对于大部分用户是可用的。对于数值型数据,pandas使用浮点值NaN,我们称NaN为容易检测到的标识值。...
2020-06-23 21:24:55 285
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人