love1005lin-CSDN博客

原创 MathType如何导入word

目标：分别安装好office 和 Mathtype。Mathtype激活不激活对这个没有影响。如何将MathType 成功以及如何导入word 中。出现失败的原因：1.版本兼容性问题我用的是win10 office2016 mathtype 7 一般问题不大2.确定受信任位置（这个很重要下边会说）、3.拷贝文件不要放错位置一共三个文件一.下载office下载和最新版mathtype 自行百度下载二.打开word2016确定受信任位置：查看方式：文件-选项-

2022-03-03 14:10:14 25388 14

原创 Python添加源

已Windows 系统下为例子（Linux添加方式不同）在cmd中输入以下命令自动添加清华源（选择其他源只需要把网址换掉就可以）。pip config set global.index-url https://pypi.tuna.tsinghua.edu.cn/simple会自动生成pip.ini的文件，放在下边的目录：完成！...

2022-01-19 13:17:45 1665

原创机器学习-李宏毅视频笔记

持续整理中

2022-01-11 00:12:38 366

原创随机数种子（seed）

在科学技术和机器学习等其他算法相关任务中，我们经常需要用到随机数，为了把握随机数的生成特性，从随机数的随机无序中获得确定和秩序。我们可以利用随机数种子(random seed)来实现这一目标，随机数种子，可以使得引入了随机数的整个程序，在多次运行中得到确定的，一致的结果。1. 随机数种子python自带的random函数：import random# print(help(random))def test_random_seed_in_std_lib(seed=0, cnt...

2021-12-27 15:06:26 19983

原创深度学习-循环神经网络（RNN）

循环神经网络（Recurrent Neural Network）上一章我们已经介绍了CNN，可能我们会想这里为什么还需要构建一种新的网络RNN呢？因为现实生活中存在很多序列化结构，我们需要建立一种更优秀的序列数据模型。文本：字母和词汇的序列语音：音节的序列视频：图像帧的序列时态数据：气象观测数据，股票交易数据、房价数据等循环神经网络是一种人工神经网络，它的节点间的连接形成一个遵循时间序列的有向图，它的核心思想是，样本间存在顺序关系，每个样本和它之前的样本存在关联。通过神经网络在时序上的展开，

2021-11-19 16:18:12 1261 1

原创深度学习-计算图

计算图计算图的引入是为了后面更方便的表示网络，计算图是描述计算结构的一种图，它的元素包括节点(node)和边(edge)，节点表示变量，可以是标量、矢量、张量等，而边表示的是某个操作，即函数。下面这个计算图表示复合函数关于计算图的求导，我们可以用链式法则表示，有下面两种情况。情况1情况2求导举例：例1a = 3, b = 1 可以得到 c = 3, d = 2, e = 6∂e∂a=∂e∂c∂c∂a=d=b+1=2\frac{\partial e}{\partia

2021-11-19 15:48:16 3555

原创深度学习-卷积神经网络（CNN）

CNN基本原理经典CNN卷积神经网络基本原理卷积神经网络的基本结构大致包括：卷积层、激活函数、池化层、全连接层、输出层等。卷积层二维卷积运算：给定二维的图像I作为输入，二维卷积核K，卷积运算可表示为 S(i,j)=(I∗K)(i,j)=∑m∑nI(i−m,j−n)K(m,n)S(i, j)=(I * K)(i, j)=\sum_{m} \sum_{n} I(i-m, j-n) K(m, n)S(i,j)=(I∗K)(i,j)=∑m∑nI(i−m,j−n)K(m,n)，卷积核需要进行上下翻转.

2021-11-19 11:40:06 8347

原创深度学习-BP算法

BP算法多层感知器的训练使用误差反向传播算法(Error Back Propagation)，即BP算法。BP算法最早有沃博斯于1974年提出，鲁梅尔哈特等人进一步发展了该理论。BP算法的基本过程前向传播计算：由输入层经过隐含层向输出层的计算网络输出误差反向逐层传递:网络的期望输出与实际输出之差的误差信号由输出层经过隐含层逐层向输入层传递由“前向传播计算”与“误差反向逐层传递”的反复进行的网络训练过程BP算法就是通过比较实际输出和期望输出得到误差信号，把误差信号从输出层逐层向前传播得到各

2021-11-19 11:02:19 2034

原创深度学习-机器学习（核函数）

核函数和映射没有关系。核函数只是用来计算映射到高维空间之后的内积的一种简便方法。一般英文文献对Kernel有两种提法，一是Kernel Function，二是Kernel Trick。从Trick一词中就可以看出，这只是一种运算技巧而已，不涉及什么高深莫测的东西。其实是一个非常简单的概念。首先给你两个向量 X，Z。在一般的机器学习方法，比如 SVM 里面，这里一个向量是一个实体。比如一个向量代表一个人。每个向量有两个维度，身高和体重。比如可以有：X=(180,70)Z=(160,50)

2021-11-18 11:30:40 492

原创深度学习-数学基础

矩阵论矩阵基本知识矩阵：是一个二维数组，其中的每一个元素一般由两个索引来确定一般用大写变量表示，m行n列的实数矩阵，记做A \in R_{m \times n}.张量(Tensor)：是矢量概念的推广，可用来表示在一些矢量、标量和其他张量之间的线性关系的多线性函数。标量是0阶张量，矢量是一阶张量，矩阵是二阶张量，三维及以上数组一般称为张量。矩阵的秩(Rank)：矩阵列向量中的极大线性无关组的数目，记作矩阵的列秩，同样可以定义行秩。行秩=列秩=矩阵的秩，通常记作rank(A)。矩阵的逆若矩阵A

2021-11-17 21:35:09 463

原创 Normalization 的联系

**防止梯度爆炸和梯度消失**它是所有深层网络模型都需要的标准网络层，因为随着网络层数的增加，通过多层的计算后输出可能开始出现过大或过小的情况，这样可能会导致学习过程出现异常，模型可能收敛非常慢。因此都会在一定层后接规范化层进行数值的规范化，使其特征数值在合理范围内。(1) Batch normalization，就是“批规范化”。1.BN的计算就是把一个Batch每个通道的NHW单独拿出来归一化处理.2.针对每个channel我们都有一组y,β，所以可学习的参数为2*C.3.当b.

2021-10-13 21:10:15 134

原创 Transformer-基础

Positional Encodding 位置编码的作用是为模型提供当前时间步的前后出现顺序的信息。因为 Transformer不像RNN那样的循环结构有前后不同时间步输入间天然的先后顺序，所有的时间步是同时输入，并行推理的，因此在时间步的特征中融合进位置编码的信息是合理的。思考:为什么上面的公式可以作为位置编码?我的理解:在上面公式的定义下，时间步p和时间步p+k的位置编码的内积，即是与p无关，只与k有关的定值(不妨自行证明下试试)。也就是说，任意两个相距k个时间步的位置编码向量的内积都是相

2021-10-13 17:19:06 1161

原创个人比赛证书

2021-10-09 15:10:09 162

原创天池ORC文本识别任务比赛(二)

前期处理Baseline所遇到的问题如上篇文章所说，文章链接如下：https://mp.csdn.net/mp_blog/creation/editor/118769772上分策略：1.调整模型的超参数并且重新finetune2.改进检测的流程（前置方向检测等）3.尝试在其他模型基础上进行finetune(例如运用完整的端到端ORC模型，PGNet)4.添加均衡化和透视变换等预处理5.搭建更优的模型结构并且从零进行训练对于该比赛题目进行数据增强的策略：1.锐化，对

2021-07-19 21:33:13 156

原创天池ORC文本识别任务比赛

赛题链接：https://tianchi.aliyun.com/competition/entrance/531902/information

2021-07-15 21:53:28 231

原创 Pandas.reset_index()和.set_index()使用

当我们进行数据清洗或者进行排序的时候，原数据的索引不在是从零开始的索引，这样就需要我们使用reset_index()记住你那个重置索引。使用reset_index（）将索引重新分配给序列号基本用法删除原始索引：参数drop 更改原始对象：参数inplace 使用reset_index（）和set_index（）将索引更改为另一列（重置）原始数据：我们可以发现数据索引从0开始排到890。我们进行选择处理：（选取Pclass==3的样本）可以看到，索引标号不再连续.

2021-06-29 15:59:41 1454

原创 Pandas读取（read_csv与read_table的区别）

Pandas加载方式：注意，read_csv和read_table都是是加载带分隔符的数据，每一个分隔符作为一个数据的标志，但二者读出来的数据格式还是不一样的，read_table是以制表符 \t 作为数据的标志，也就是以行为单位进行存储。read_csv和read_table应用区别：而 read_csv读完后是一个891行12列的数组，每一个字符串作为一列，这是二者的区别。还有固定宽度读取的read_ffw 和table 的效果一样。可以看出，读完后每个字...

2021-06-29 10:26:24 1630

原创 python自动化--爬虫简单应用

爬虫常见Python库Requests:安装:pip install requests或者conda安装conda install requestsre.status_code 响应的HTTP状态码re.text 响应内容的字符串形式(返回的是服务器响应内容的字符串形式，也就是文本内容)rs.content 响应内容的二进制形式(用于图片、视频、音频等内容的获取、下载)rs.encoding 响应内容的编码 (爬取内容的编码形似，常见的编码方式有 ASCII、GBK、UTF-8

2021-06-26 20:29:26 290

原创 python自动化--PDF

安装与PDF相关的库：PyPDF2和pdfplumberPyPDF2作用：读取、写入、分割、合并PDF文件pdfplumber作用：更好的读取PDF文件内容、提取PDF中表格对应的官网链接：PyPDF2：https://pythonhosted.org/PyPDF2/pdfplumber：https://github.com/jsvine/pdfplumber安装：pip install PyPDF2pip install pdfplumber批量拆分def .

2021-06-23 21:01:23 169 1

原创 Python自动化--world

安装与word有关的包python 处理 Word 需要用到 python-docx 库，终端执行如下安装命令：pip3 install python-docx

2021-06-20 21:36:38 329

原创 Linux-用户和组管理

一.用户和用户组1.1 what is user?Linux是多用户多任务的操作系统，也就是说，多个用户可以同时登陆执行不同任务。用户需要使用系统资源则需向系统管理员申请账户进入系统。不同的用户则拥有不同的权限。...

2021-06-19 10:42:20 91

原创 Python自动化--Excel

安装与Excel有关系的包：方法一：直接使用pip命令安装**openpyxl**模块`pip install openpyxl`

2021-06-18 20:35:21 71

原创 Linux --- 安装

我觉得学linux不是说不使用windows，毕竟功能侧重不同，如果后来装了linux，还折腾半天只为装网易云、QQ、office那还是用windows吧，所以建议你装一个双系统或者在虚拟机VMware或者VirtualBox里使用linux。1、虚拟机中安装Linux（推荐）虚拟机下安装Linux最简单，我个人也比较推荐入门学习。安装好虚拟机、准备好linux镜像文件后面基本是傻瓜式安装。（1）Linux下载初学者建议选择Ubuntu或者Debian，社区论坛都比较活跃，有问题也容易找解决方案h

2021-06-16 21:52:22 78

原创文件自动处理

文件自动处理1.1 读写文件我们知道，程序运行时，可以用变量来保存运算结果，但如果希望程序运行关闭后，依然可以查看运行后的结果，就需要将数据保存到文件中。简单点，你可以将文件内容理解为一个字符串值，大小可能有几个GB。本节将学习，如何使用python在硬盘上创建、读取和保存文件。1.1.1 文件与文件路径文件的两个属性：“路径”和“文件名”，路径指明文件在计算机上的位置，文件名是指该位置的文件的名称。比如，我的电脑上，有个名字为Datawhale - 开源发展理论研究.pdf的文件，它的路径在D

2021-06-16 21:42:06 102

原创 Linux 初认识

Linux初认识UNIX/Linux系统结构UNIX/Linux 系统可以粗糙地抽象为 3 个层次（所谓粗糙，就是不够细致、精准，但是便于初学者抓住重点理解），如图 3 所示。底层是 UNIX/Linux 操作系统，即系统内核（Kernel）；中间层是 Shell 层，即命令解释层；高层则是应用层。内核层内核层是 UNIX/Linux 系统的核心和基础，它直接附着在硬件平台之上，控制和管理系统内各种资源（硬件资源和软件资源），有效地组织进程的运行，从而扩展硬件的功能，提高资源的利用效率，为用户提

2021-06-14 21:42:46 76

原创 Pytorch-Sampler类的使用

Pytorch-Sampler类我们在训练神经网络时，如果数据量太大，无法一次性将数据放入到网络中进行训练，所以需要进行分批处理数据读取。这一个问题涉及到如何从数据集中进行读取数据的问题，pytorch框提供了Sampler基类与多个子类实现不同方式的数据采样。子类包括：- Sequential Sampler（顺序采样）- Random Sampler（随机采样）- Subset Random Sampler（子集随机采样）- Weighted Random Sampler（加权随机采样）等等

2021-06-04 10:52:18 3040 1

原创数据挖掘比赛-天池工业蒸汽量预测

赛题背景火力发电的基本原理是：燃料在燃烧时加热水生成蒸汽，蒸汽压力推动汽轮机旋转，然后汽轮机带动发电机旋转，产生电能。在这一系列的能量转化中，影响发电效率的核心是锅炉的燃烧效率，即燃料燃烧加热水产生高温高压蒸汽。锅炉的燃烧效率的影响因素很多，包括锅炉的可调参数，如燃烧给量，一二次风，引风，返料风，给水水量；以及锅炉的工况，比如锅炉床温、床压，炉膛温度、压力，过热器的温度等。评测指标预测结果以mean square error作为评判标准。赛题链接https://tianchi.aliyun.com

2021-05-23 21:34:04 164

原创图像处理库Pillow的使用

PillowPIL：Python Imaging Library，是Python平台事实上的图像处理标准库了。但是PIL仅支持到Python 2.7，加上年久失修，于是一群志愿者在PIL的基础上创建了兼容的版本，名字叫Pillow，支持最新Python 3.x。下面来介绍如何安装及使用Pillow库。安装pip install pillow在安装后通过在python控制台中输入"import PIL"命令可以验证是否成功安装。使用Pillow下边所有实验所使用的测试图片如下：1.读取图像

2021-05-20 16:26:03 1700 1

原创数据挖掘比赛-天池挖掘幸福感

赛题背景在社会科学领域，幸福感的研究占有重要的位置。这个涉及了哲学、心理学、社会学、经济学等多方学科的话题复杂而有趣；同时与大家生活息息相关，每个人对幸福感都有自己的衡量标准。如果能发现影响幸福感的共性，生活中是不是将多一些乐趣；如果能找到影响幸福感的政策因素，便能优化资源配置来提升国民的幸福感。目前社会科学研究注重变量的可解释性和未来政策的落地，主要采用了线性回归和逻辑回归的方法，在收入、健康、职业、社交关系、休闲方式等经济人口因素；以及政府公共服务、宏观经济环境、税负等宏观因素上有了一系列的推测和发现

2021-05-18 21:37:25 253

原创解决：AttributeError: ‘dict_items‘ object has no attribute ‘copy‘

在使用 XGBoost 的过程中遇到如下问题：**AttributeError: ‘dict_items’ object has no attribute ‘copy’ **源代码：from sklearn.datasets import load_irisimport xgboost as xgbfrom xgboost import plot_importancefrom matplotlib import pyplot as pltfrom sklearn.model_selection

2021-05-15 19:27:45 1199

原创 plt.tight_layout()

plt.tight_layout()tight_layout会自动调整子图参数，使之填充整个图像区域。这是个实验特性，可能在一些情况下不工作。它仅仅检查坐标轴标签、刻度标签以及标题的部分。当你拥有多个子图时，你会经常看到不同轴域的标签叠在一起。plt.rcParams['savefig.facecolor'] = "0.8"def example_plot(ax, fontsize=12): ax.plot([1, 2]) ax.locator_params(nbins=3)

2021-05-12 10:12:26 8338

原创集成学习-Stacking-Python实现

基于前面对Blending集成学习算法的讨论，我们知道：Blending在集成的过程中只会用到验证集的数据，对数据实际上是一个很大的浪费。为了解决这个问题，我们详细分析下Blending到底哪里出现问题并如何改进。在Blending中（Blending文章链接），我们产生验证集的方式是使用分割的方式，产生一组训练集和一组验证集，这让我们联想到交叉验证的方式。顺着这个思路，延伸出了stacking这种模型的方案。1.Stacking简介stacking严格来说并不是一种算法，而是精美而又复杂的，对模型集

2021-05-11 20:11:44 3815

原创集成学习-Blending-Python实现

对于机器学习和深度学习来说，用单模型的效果往往都没有进行模型融合后的效果好。而对模型来说，我们需要选择具有多样性，准确性的模型，对于融合的方式来说也有很多种，比如最简单的取平均或者投票法，较为复杂的就是Blending和Stacking。这一篇主要讲一下blending，下一篇讲解一下stacking，二者都是用了两层的模型。1. Blending简介Blending是一种模型融合的方式，第一层通过将训练集出一部分作为holdout set,然后通过剩下的数据生成模型对holdout set 进行预测，

2021-05-11 16:45:03 760 1

原创分布式训练 - 多机多卡 (DDP)

起初为调用大规模的模型训练，单卡GPU是不够使用的，需要借用服务器的多GPU使用。就会涉及到单机多卡，多机多卡的使用。在这里记录一下使用的方式和踩过的一些坑。文中若有不足，请多多指正。由于分布式的内容较多，笔者准备分几篇来讲一次下深度学习的分布式训练，深度学习的框架使用的是Pytorch框架。----1.分布式训练的理论基础----2.GPU训练----3.单机多卡的使用----4.多机多卡的使用在前边的文章中已经提到了怎样进行单机单卡和单机多卡进行分布式训练，那可能有小伙伴会有疑问能不能进行多

2021-05-06 16:51:13 13982 7

原创分布式训练 - 单机多卡（DP和DDP）

起初为调用大规模的模型训练，单卡GPU是不够使用的，需要借用服务器的多GPU使用。就会涉及到单机多卡，多机多卡的使用。在这里记录一下使用的方式和踩过的一些坑。文中若有不足，请多多指正。由于分布式的内容较多，笔者准备分几篇来讲一次下深度学习的分布式训练，深度学习的框架使用的是Pytorch框架。----1.分布式训练的理论基础----2.GPU训练----3.单机多卡的使用----4.多机多卡的使用在GPU训练文章中我们已经了解到了多GPU的训练，最简单的是单机多卡操作torch.nn.DataP

2021-05-04 21:48:58 12117 11

原创分布式训练 -GPU训练

起初为调用大规模的模型训练，单卡GPU是不够使用的，需要借用服务器的多GPU使用。就会涉及到单机多卡，多机多卡的使用。在这里记录一下使用的方式和踩过的一些坑。文中若有不足，请多多指正。由于分布式的内容较多，笔者准备分几篇来讲一次下深度学习的分布式训练，深度学习的框架使用的是Pytorch框架。----1.分布式训练的理论基础----2.GPU训练----3.单机多卡的使用----4.多机多卡的使用首先第一个问题：我们为什么要用GPU训练？ GPU 训练有哪些好处？不急不急，让我们带着问题慢慢来

2021-05-01 21:59:16 3487 6

原创分布式训练 — 理论基础

起初为调用大规模的模型训练，单卡GPU是不够使用的，需要借用服务器的多GPU使用。就会涉及到单机多卡，多机多卡的使用。在这里记录一下使用的方式和踩过的一些坑。文中若有不足，请多多指正。由于分布式的内容较多，笔者准备分几篇来讲一次下深度学习的分布式训练，深度学习的框架使用的是Pytorch框架。----1.分布式训练的理论基础----2.单机多卡的使用----3.多机多卡的使用分布式训练的需求和重要性不需要多说，最近新提出的预训练模型，普通的16G的显存已经不足以支撑深度学习模型训练的要求了，这时候

2021-05-01 11:17:28 2148 2

原创 Python中argparse模块的使用

Python argparse模块argparse 模块的作用：直接使用命令行与python进行交互，是用来处理命令行参数的库。（不需要安装，直接调用）argparse 使用简化成四个步骤：1：import argparse2：parser = argparse.ArgumentParser()3：parser.add_argument()4：parser.parse_args()上面四个步骤解释如下：首先导入该模块；然后创建一个解析对象；然后向该对象中添加你要关注的命令行参数和选项，每一

2021-04-30 14:17:52 1529 1

原创 Python中 -m 的使用和原理

Python -m 的使用和原理在使用命令行Python时，有很多的使用选项：使用python --help来查看：usage: python [option] … [-c cmd | -m mod | file | -] [arg] …本文想要聊聊比较特殊的“-m”选项：关于它的典型用法、原理解析与发展演变的过程。-m mod run library module as a script (terminates option list)"mod"是“module”的缩写，即“-m”

2021-04-30 12:48:47 2636 8

原创分布式训练启动工具—Launch utility

Launch utility概述：torch.distributed 提供了一个启动工具，即 torch.distributed.launch，用于在每个单节点上启动多个分布式进程。其同时支持 Python2 和 Python 3。launch 可用于单节点的分布式训练，支持 CPU 和 GPU。对于 GPU 而言，若每个进程对应一个 GPU，则训练将取得最大性能。可通过指定参数（nproc_per_node），让 launch 在单节点上创建指定数目的进程（不可大于该节点对应的 GPU 数目）。该

2021-04-30 11:14:09 1648 1

空空如也

空空如也