荒原之感-CSDN博客

原创文件与文件系统

1.打开文件open(file, mode=‘r’, buffering=None, encoding=None, errors=None, newline=None, closefd=True)fileObject.close() 用于关闭一个已打开的文件。关闭后的文件不能再进行读写操作，否则会触发ValueError错误。fileObject.read([size]) 用于从文件读取指定的字符数，如果未给定或为负则读取所有。fileObject.readline()读取整行，包括 “\n”

2020-08-08 21:56:46 260

原创模块与datetime

1.把定义存放在文件中，为一些脚本或者交互式的解释器实例使用，这个文件被称为模块（Module）。模块是一个包含所有你定义的函数和变量的文件，其后缀名是.py。模块可以被别的程序引入，以使用该模块中的函数等功能。这也是使用 Python 标准库的方法。容器 -> 数据的封装函数 -> 语句的封装类 -> 方法和属性的封装模块 -> 程序文件2.命名空间命名空间因为对象的不同，也有所区别，可以分为如下几种：内置命名空间（Built-in Namespaces）：Python

2020-08-07 17:07:50 207

原创类与对象，魔法方法

1.对象 = 属性 + 方法对象是类的实例。换句话说，类主要定义对象的结构，然后我们以类为模板创建对象。类不但包含方法定义，而且还包含所有实例共享的数据。继承：子类自动共享父类之间数据和方法的机制多态：不同对象对同一方法响应不同的行动2.Python 的 self 相当于 C++ 的 this 指针。类的方法与普通的函数只有一个特别的区别 —— 它们必须有一个额外的第一个参数名称（对应于该实例，即该对象本身），按照惯例它的名称是 self。在调用方法时，我们无需明确提供与参数 self 相对应的参

2020-08-05 19:46:01 539

原创函数与Lambda表达式

1.函数的定义函数以def关键词开头，后接函数名和圆括号()。函数执行的代码以冒号起始，并且缩进。return [表达式] 结束函数，选择性地返回一个值给调用方。不带表达式的return相当于返回None。2.函数参数arg1为位置参数；arg2为默认参数，调用函数时，默认参数的值如果没有传入，则被认为是默认值。默认参数一定要放在位置参数后面，不然程序会报错；*args - 可变参数，可以是从零个到任意个，自动组装成元组；**kw - 关键字参数，可以是从零个到任意个，自动组装成字典。3.参数组

2020-08-02 20:07:41 160

原创字典集合序列

1.字典的定义字典是无序的键:值（key:value）对集合，键必须是互不相同的（在同一个字典之内）。dict 内部存放的顺序和 key 放入的顺序是没有关系的。dict 查找和插入的速度极快，不会随着 key 的增加而增加，但是需要占用大量的内存。通过构造函数dict来创建字典。dict() 创建一个空的字典。通过key直接把数据放入字典中，但一个key只能对应一个value，多次对一个key放入 value，后面的值会把前面的值冲掉。2.字典的内置方法dict.fromkeys(seq[,

2020-07-31 21:28:44 716

原创列表元组字符串

1.列表是有序集合，没有固定大小，能够保存任意数量任意类型的 Python 对象，语法为 [元素1, 元素2, …, 元素n]。2.列表定义：a = [1,2,3]3.列表内容可更改 (mutable)，因此附加 (append, extend)、插入 (insert)、删除 (remove, pop) 这些操作都可以用在它身上。list.append(obj) 在列表末尾添加新的对象，只接受一个参数，参数可以是任何数据类型，被追加的元素在 list 中保持着原结构类型。list.extend(se

2020-07-28 20:55:27 655

原创异常处理

1.异常就是运行期检测到的错误。计算机语言针对可能出现的错误定义了异常类型，某种错误引发对应的异常时，异常处理程序将被启动，从而恢复程序的正常运行。2.try - except 语句try 语句按照如下方式工作：首先，执行try子句（在关键字try和关键字except之间的语句）如果没有异常发生，忽略except子句，try子句执行后结束。如果在执行try子句的过程中发生了异常，那么try子句余下的部分将被忽略。如果异常的类型和except之后的名称相符，那么对应的except子句将被执行。最后执行tr

2020-07-25 20:31:33 180

原创条件循环语句

1.if 语句的代码块只有当条件表达式结果为真时才执行，否则将继续执行紧跟在该代码块后面的语句。单个 if 语句中的条件表达式可以通过布尔操作符 and，or和not 实现多重条件判断。2.if-elsePython 提供与 if 搭配使用的 else，如果 if 语句的条件表达式结果布尔值为假，那么程序将执行 else 语句后的代码。3.if - elif - else 语句elif 语句即为 else if，用来检查多个表达式是否为真，并在为真时执行特定代码块中的代码。4.assert

2020-07-22 19:29:24 503

原创变量、运算符与数据类型与位操作

1.在 Python 中，# 表示注释，作用于整行。‘’’ ‘’’ 或者 “”" “”" 表示区间注释，在三引号之间的所有内容被注释2.运算符有算术运算符，比较运算符和逻辑运算符3.位运算符4.其他运算符注意：（1） is, is not 对比的是两个变量的内存地址（2）==, != 对比的是两个变量的值5.数据类型与转换可以通过type()查看数据类型类型转换：转换为整型 int(x, base=10)转换为字符串 str(object=’’)转换为浮点型 float(x)

2020-07-22 19:11:45 153

原创零基础入门CV赛事-Task5 模型集成

1.集成学习方法在机器学习中的集成学习可以在一定程度上提高预测精度，常见的集成学习方法有Stacking、Bagging和Boosting，同时这些集成学习方法与具体验证集划分联系紧密。2.深度学习中的集成学习（1）DropoutDropout可以作为训练深度神经网络的一种技巧。在每个训练批次中，通过随机让一部分的节点停止工作。同时在预测的过程中让所有的节点都其作用。如下图所示。（2）TTA测试集数据扩增（Test Time Augmentation，简称TTA）也是常用的集成学习技巧，数据扩

2020-06-02 20:37:18 175

原创 Task4 模型训练与验证

构造验证集在模型的训练过程中，模型只能利用训练数据来进行训练，模型并不能接触到测试集上的样本。因此模型如果将训练集学的过好，模型就会记住训练样本的细节，导致模型在测试集的泛化效果较差，这种现象称为过拟合（Overfitting）。与过拟合相对应的是欠拟合（Underfitting），即模型在训练集上的拟合效果较差。随着模型复杂度和模型训练轮数的增加，CNN模型在训练集上的误差会降低，但在测试集上的误会逐渐降低，然后逐渐升高，而我们为了追求的是模型在测试集上的精度越高越好。导致模型过拟合的情况..

2020-05-30 21:55:53 335

原创零基础入门CV赛事-Task3 字符识别模型

1.CNN介绍卷积神经网络（简称CNN）是一类特殊的人工神经网络，是深度学习中重要的一个分支。CNN在很多领域都表现优异，精度和速度比传统计算学习算法高很多。特别是在计算机视觉领域，CNN是解决图像分类、图像检索、物体检测和语义分割的主流模型。CNN每一层由众多的卷积核组成，每个卷积核对输入的像素进行卷积操作，得到下一次的输入。随着网络层的增加卷积核会逐渐扩大感受野，并缩减图像的尺寸。CNN是一种层次模型，输入的是原始的像素数据。CNN通过卷积（convolution）、池化（pooling）、非线性

2020-05-24 21:33:37 400

原创零基础入门CV赛事-Task2 数据读取与数据扩增

1.图像读取用pillow读取，该库较为常用，且比较简单。调用下面语句即可：im =Image.open(cat.jpg’)2.数据扩增要使训练结果更好，更具有泛化性能，需要对数据进行扩增。torchvison库中自带的的方法有如下图此外，还可调用其他库或自己编写。例如im2 = im.filter(ImageFilter.BLUR)进行图片模糊操作。3.Pytorch读取图像首先需要将所给训练集变成Pytorch可读取的dataset格式，代码如下然后用train_loader载入

2020-05-21 22:49:39 183

原创零基础入门CV - Task 01 赛题理解

1.赛题数据训练集数据包括3W张照片，验证集数据包括1W张照片，包括4W张照片。数据中包括测试集训练集、验证集和测试集中所有字符的位置框。2.数据标签标签名称标签含义top 左上角坐标height 字符高度left 左上角坐标width 字符宽度label 字符编码（具体含义如下图所示）3.评测指标Score=编码识别正确的数量/测试集图片数量4.数据读取

2020-05-20 20:07:35 165

原创模型融合

1.模型融合是比赛后期一个重要的环节，大体来说有如下的类型方式2.Stacking介绍将个体学习器结合在一起的时候使用的方法叫做结合策略。对于分类问题，我们可以使用投票法来选择输出最多的类。对于回归问题，我们可以将分类器输出的结果求平均值。上面说的投票法和平均法都是很有效的结合策略，还有一种结合策略是使用另外一个机器学习算法来将个体机器学习器的结果结合在一起，这个方法就是Stacking。在...

2020-04-04 22:43:29 107

原创机器学习---建模调参

1.将数据标准化2.数据处理完毕后，建立LGB模型，用其cv函数调参，寻找合适的n_estimators（以下只列出部分调参过程及结果）3.鉴于时间关系，用cv函数大致找出合适参数后，不采用网格搜索，而是用交叉验证简单尝试部分参数取得结果后，运行得到结果（后续选好模型后再进一步精细调参）...

2020-04-01 21:30:51 163

原创零基础入门数据挖掘-Task3 特征工程

1.创建特征汽车已购买时间，并删除原数据中与时间特征相关的属性2.将“power”特征做分桶处理3.将部分特征做标准化处理4.利用KNN填充nan5.将价格做对数变换后提取作为y_train，并删除一些无关特征...

2020-03-28 20:12:50 111

原创 Datawhale 零基础入门数据挖掘-Task2 数据分析

1.首先导入库，读取文件并观察数据的shape2.分别查看训练集和测试集的前五行数据简单观察一下即可2.查看训练集和测试集的数据缺失情况，可以看到训练集和测试集的“bodyType”、“fuelType”、“gearbox”存在缺失4.查看各特征的取值范围，检查有无异常值。可以发现“notRepairedDamage”值存在"-"，可判断为其为缺失的另一种形式，故将其替换为nan，并...

2020-03-24 19:06:53 95

原创深度学习相关知识2

一.批量归一化和残差网络1.批量归一化**对输入的标准化（浅层模型）：**处理后的任意一个特征在数据集中所有样本上的均值为0、标准差为1。标准化处理输入数据使各个特征的分布相近**批量归一化（深度模型）：**利用小批量上的均值和标准差，不断调整神经网络中间输出，从而使整个神经网络在各层的中间输出的数值更稳定。（1）对全连接层做批量归一化（2）对卷积层做批量归⼀化位置：卷积计算之后、应...

2020-02-25 15:24:03 187

原创深度学习相关知识

一.过拟合、欠拟合及其解决方案一类是模型无法得到较低的训练误差，我们将这一现象称作欠拟合（underfitting）；另一类是模型的训练误差远小于它在测试数据集上的误差，我们称该现象为过拟合（overfitting）。在实践中，我们要尽可能同时应对欠拟合和过拟合。虽然有很多因素可能导致这两种拟合问题，在这里我们重点讨论两个因素：模型复杂度和训练数据集大小。方法1：L2 范数正则化方法2...

2020-02-18 15:48:24 166

原创线性回归&文本预处理

线性回归1.**模型：**为了简单起见，这里我们假设价格只取决于房屋状况的两个因素，即面积（平方米）和房龄（年）。接下来我们希望探索价格与这两个因素的具体关系。线性回归假设输出与各个输入之间是线性关系:price=warea⋅area+wage⋅age+bprice=warea⋅area+wage⋅age+b2.**数据集：**我们通常收集一系列的真实数据，例如多栋房屋的真实售出价格和它们对...

2020-02-13 17:11:08 1195

原创机器学期之贝叶斯分类器

1.相关概念生成模型：在概率统计理论中, 生成模型是指能够随机生成观测数据的模型，尤其是在给定某些隐含参数的条件下。它给观测值和标注数据序列指定一个联合概率分布。在机器学习中，生成模型可以用来直接对数据建模（例如根据某个变量的概率密度函数进行数据采样），也可以用来建立变量间的条件概率分布。条件概率分布可以由生成模型根据贝叶斯定理形成。常见的基于生成模型算法有高斯混合模型和其他混合模型、隐马尔可夫...

2020-01-20 19:22:18 234

原创机器学习之聚类

1.概念无监督学习：无监督学习是机器学习的一种方法，没有给定事先标记过的训练示例，自动对输入的数据进行分类或分群。无监督学习的主要运用包含：聚类分析、关系规则、维度缩减。它是监督式学习和强化学习等策略之外的一种选择。一个常见的无监督学习是数据聚类。在人工神经网络中，生成对抗网络、自组织映射和适应性共振理论则是最常用的非监督式学习。聚类：聚类是一种无监督学习。聚类是把相似的对象通过静态分类...

2020-01-18 18:12:38 416

原创机器学习之决策树

1.决策树解释决策树是什么东西？就是我们平常所说的if-then条件，我们把它组合成树的结构. 决策树中有两种结点，叶子结点和非叶子结点. 其中非叶节点代表的条件，叶子结点表示的实例所属的类别.我们如何生成这个决策树呢，最主要的一点就是选择那个特征作为当前树的分割结点，这就叫做特征选择，有了特征选择就有了决策树的生成，最后我们还有进行决策树剪枝(后面会提到为什么剪枝).看个统计学习方法上的例...

2020-01-16 12:00:51 236

原创机器学习之逻辑回归

1.逻辑回归的原理逻辑回归常用于分类问题，例如判断是良性肿瘤还是恶性肿瘤，判断是垃圾邮件还是正常邮件，等等。理想的替代函数应当预测分类为0或1的概率，当为1的概率大于0.5时，判断为1，当为1的概率小于0.5时，判断为0。因概率的值域为[0,1]。常用的替代函数为Sigmoid函数，即：其中2.逻辑回归损失函数推导及优化P(y|x;θ)=h(x)y(1−h(x))(1−y)P(y|x;θ)=...

2020-01-13 20:35:57 148

原创机器学习线性回归

1.线性回归的原理进入一家房产网，可以看到房价、面积、厅室呈现以下数据：我们可以将价格和面积、厅室数量的关系习得为f(x)=θ0+θ1x1+θ2x2f(x)=θ0+θ1x1+θ2x2，使得f(x)≈yf(x)≈y，这就是一个直观的线性回归的样式。2.线性回归的一般形式：有数据集{(x1,y1),(x2,y2),…,(xn,yn)}{(x1,y1),(x2,y2),…,(xn,yn)},其...

2020-01-11 21:21:08 264

原创机器学习概述

机器学习分类监督学习监督学习是指利用一组已知类别的样本调整分类器的参数，使其达到所要求性能的过程，也称为监督训练或有教师学习。在监督学习的过程中会提供对错指示，通过不断地重复训练，使其找到给定的训练数据集中的某种模式或规律，当新的数据到来时，可以根据这个函数预测结果。监督学习的训练集要求包括输入和输出，主要应用于分类和预测。2. 非监督学习与监督学习不同，在非监督学习中，无须对数据集进行标...

2020-01-08 22:57:41 78

ahjghjv的博客