- 博客(51)
- 资源 (7)
- 收藏
- 关注
原创 STL C++
vectorpush_back(data)//在尾部添加一个数据pop_back() //弹出数组的最后一个数据(void)at(idx) //得到编号位置的数据begin() //返回指向容器第一个元素的迭代器end() //返回指向容器最后一个元素的迭代器front() //返回容器中最开始的元素back() ...
2019-09-01 22:01:22 249
转载 FE离群点分析+分布分析
离群点单变量分析首先用标准化(标准化不会改变数据相对分布的特性)把数据转变成正态分布,分别查看最大和最小的十个值saleprice_scaled = StandardScaler().fit_transform(df_train['SalePrice'][:,np.newaxis]);low_range = saleprice_scaled[saleprice_scaled[:,0].ar...
2019-07-30 12:35:52 605
转载 kaggle数据分析的学习经验
由于大多数机器学习模型对非正态分布的数据的效果不佳,因此,我们对数据进行变换,修正倾斜:log(1+x)删除离群点train.drop(train[(train['OverallQual']<5) & (train['SalePrice']>200000)].index, inplace=True)train.drop(train[(train['GrLivArea'...
2019-07-19 21:33:57 993
原创 IEEE Fraud Detection Competition思路探索
训练集和测试集的数据分在两个不同的表里。通过统计发现只有少部分train_transaction中的TransactionID可以在train_identity中找到对应# Here we confirm that all of the transactions in `train_identity`print(np.sum(train_transaction['TransactionID...
2019-07-18 19:52:35 1294
原创 tencent_ad_compeition
复赛与竞争量有关计算每个旧广告在每天每个广告位的曝光量和竞争量,曝光量除以竞争量=曝光率,得到每天的曝光率。旧广告规则:100-22号的广告语23号的广告有重叠,24号旧广告的exp=0.75exp23+0.25*exp10-22旧广告建模:特征:10号到22号的竞争量曝光率,将18号作为validdata,用18号之前的数据对18号曝光量进行预测再将旧广告的规则与旧广告建模的结果进行融...
2019-07-18 19:51:41 319
原创 线性回归+逻辑回归+softmax回归
线性回归线性回归模型的均方差损失函数是一个凸函数,这意味着如果你选择曲线上的任意 两点,它们的连线段不会与曲线发生交叉(译者注:该线段不会与曲线有第三个交点)。这 意味着这个损失函数没有局部最小值,仅仅只有一个全局最小值。同时它也是一个斜率不能 突变的连续函数。这两个因素导致了一个好的结果:梯度下降可以无限接近全局最小值。 (只要你训练时间足够长,同时学习率不是太大 )。训练模型意味着找到一...
2019-07-14 20:24:48 308
原创 NLP的特征工程及数据预处理的分类
cleaning大小写同一解码去特殊符号修剪单词内部的错误符号tokenizingtokenizeN-Gramsskip-gramschar-gramsremove清除停用词,稀有单词roots修剪单词的前几个字符修正单词回词根...
2019-07-13 16:14:33 386 1
原创 特征工程(PPT)
数据决定上限,模型逼近上限类别特征类别特征的特点:当类别基数较大时在处理后会产生非常稀疏的特征,难以处理缺失值。onehot encodingonehot之前要去掉NAN值label encoding对非线性树算法有用不增加维度count encoding将类别名替换为这一类别出现的次数对离群点很敏感可以尝试加入 log平滑可能会引入共线性LabelCoun...
2019-07-13 16:03:34 978
原创 用keras使用glove预训练的词向量来构建实验的embedding矩阵-以Jigsaw Unintended Bias in Toxicity Classification比赛baseline为例
数据加载import numpy as np # linear algebraimport pandas as pd # data processing, CSV file I/O (e.g. pd.read_csv)import os# print(os.listdir("../input"))# print(os.listdir("../input/crawl300d2m"))...
2019-07-11 16:27:37 1471 1
转载 keras使用word2cev在imdb数据集上做词嵌入,构建embedding矩阵
数据加载import numpy as npimport pandas as pdfrom sklearn.model_selection import train_test_splitfrom sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score, confusion_matrixf...
2019-07-10 18:28:55 1110
原创 机器学习基础
批量学习(batch learning)和在线学习(online learning)批量学习当模型训练之后就不再train,只用于test,当有新数据加入时,需要重新训练整个模型,这样的学习方式比较浪费时间和计算资源在线学习将训练数据分为多个mini-batch ,每一步的训练代价较小在线学习涉及到一个学习率的选取。学习率过大会导致模型忘记之前的训练数据,学习率过小会导致学习太慢,对新数据...
2019-07-09 14:02:03 332
转载 pytorch RNN处理文本
数据预处理见 NLP数据预处理 词的编码以及取batchimport torchimport torch.nn as nnimport numpy as npfrom torch.nn.utils import clip_grad_norm_from data_utils import Dictionary, Corpus# Device configurationdevice...
2019-07-07 19:29:57 909
转载 NLP数据预处理
词的编码以及取batchimport torchimport osclass Dictionary(object): def __init__(self): self.word2idx = {} self.idx2word = {} self.idx = 0 def add_word(self, word): ...
2019-07-07 18:09:45 684
转载 pytorch Sequential卷积神经网络(padding)
数据准备import torchimport torch.nn as nnimport torchvisionimport torchvision.transforms as transforms# Device configurationdevice = torch.device('cuda:0' if torch.cuda.is_available() else 'cpu')...
2019-07-07 15:52:16 1438
转载 pytorch LSTM图像分类
一个问题:pytorch官方文档对LSTM的输入参数的格式是input of shape (seq_len, batch, input_size),但是本例中images.reshape(-1, sequence_length, input_size)的输入格式为batch,seq_len, input_size,是不是官文写错了?import torch import torch.nn...
2019-07-07 14:05:52 7820 13
转载 pytorch简单的全连接网络
定义device,方便在所有机器上运行。将模型变量和模型的输入变量转为to devicewith torch.no_grad()开始test模式import torchimport torch.nn as nnimport torchvisionimport torchvision.transforms as transforms# Device configurationd...
2019-07-07 10:36:40 3576
转载 pytorch简单的逻辑回归
import torchimport torch.nn as nnimport torchvisionimport torchvision.transforms as transforms# Hyper-parameters input_size = 784num_classes = 10num_epochs = 5batch_size = 100learning_rate ...
2019-07-07 10:33:13 207
转载 pytorch简单的线性回归
import torchimport torch.nn as nnimport numpy as npimport matplotlib.pyplot as plt# Hyper-parametersinput_size = 1output_size = 1num_epochs = 60learning_rate = 0.001# 拟合一个线性回归,y=w*x+bx_tr...
2019-07-06 18:21:38 184
转载 pytorch迁移学习,使用预训练模型
# Download and load the pretrained ResNet-18.resnet = torchvision.models.resnet18(pretrained=True)# 将参数设置为不可修改for param in resnet.parameters(): param.requires_grad = False# 替换网络的顶层resnet.fc...
2019-07-06 18:14:05 2398
原创 pytorch常用的数据预处理
DataLoader使用dataloader方便数据取出。定义CustomDataset类方便对接dataloader类型class CustomDataset(torch.utils.data.Dataset): def __init__(self): # TODO # 1. Initialize file paths or a list of f...
2019-07-06 17:42:31 858
原创 pytorch梯度
tensor梯度的相关性若一个节点requires_grad被设置为True,那么所有依赖它的节点的requires_grad都为True。0 import torch1 x=torch.ones(1)2 w=torch.ones(1,requires_grad=True)3 y=x*w4 x.requires_grad,w.requires_grad,y.requ...
2019-07-06 17:02:12 2404
原创 pytorch RNN实现分类
数据加载(简单看)from __future__ import unicode_literals, print_function, divisionfrom io import openimport globimport osimport torchdef findFiles(path): return glob.glob(path)#print(findFiles('data/n...
2019-07-06 15:56:34 3963 1
转载 pytorch RNN(构建多个相似结构的模型)
加载数据(简单看)from __future__ import unicode_literals, print_function, divisionfrom io import openimport globimport osimport unicodedataimport stringall_letters = string.ascii_letters + " .,;'-"n_...
2019-07-05 17:16:50 878
转载 pytorch保存 加载模型
state_dictstate_dict结构通过层去匹配参数张量Define model class TheModelClass(nn.Module): def __init__(self): super(TheModelClass, self).__init__() self.conv1 = nn.Conv2d(3, 6, 5)...
2019-07-04 20:29:34 239
转载 pytorch之GPU数据并行
使模型在gpu上运行在原来的代码上修改了两处,如代码标注所示device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")net.to(device)#1.网络参数数据要是GPU格式for epoch in range(2): # loop over the dataset multiple times ...
2019-07-04 18:57:01 638
转载 pytorch之简单的卷积神经网络
网络样例import torchimport torch.nn as nnimport torch.nn.functional as F#输入图片的格式是32*32class Net(nn.Module): def __init__(self):#只是定义网络中需要用到的方法 super(Net, self).__init__() # 1 in...
2019-07-04 17:14:00 1700
转载 pytorch 张量基本操作
张量初始化构造一个未初始化的张量torch.empty(5,3)构造一个随机初始化的张量 torch.rand(5,3)构造一个指定数据类型的全0张量torch.zeros(5,2,dtype=torch.long)通过以读取的数据构建张量 torch.tensor([5,5,5,5,5])借助已有张量的size构造新的张量 y=torch.randn_like(x,dtype=tor...
2019-07-04 14:12:02 2914
转载 卷积参数详解
当输入的数据为32*32*3,卷积核大小为5*5*3且slide=1时,得到(32-5+1)*(32-5+1)*(3-3+1)=28*28*1,同时如果我们有6个卷积核,那么得到的是28*28*6大小的输出
2019-07-04 11:41:39 1146 1
原创 linux上tensorflow2-gpu的环境配置及安装过程
安装tf2的cpu运行版本使用pip安装几个包即可,但是tf2-gpu需要一定的cuda等环境,所以这里使用anaconda来安装tf2-gpu的虚拟环境,简化安装过程。安装anaconda下载Anaconda3-5.0.1-Linux-x86_64.sh,下载地址为: https://repo.continuum.io/archive/index.html,需要将anaconda加入到环境...
2019-07-02 14:22:00 3667
转载 tensorflow做简单的词嵌入
加载数据vocab_size = 10000(train_x, train_y), (test_x, text_y) = keras.datasets.imdb.load_data(num_words=vocab_size)print(train_x[0])print(train_x[1])数据预处理word_index = keras.datasets.imdb.get_word_...
2019-07-01 17:37:39 444
转载 tensorflow文本卷积
卷积例子:inputs = tf.placeholder(‘float’, shape=[None, 6, 8])out = tf.layers.conv1d(inputs, 5, 3)说明: 对于一个样本而言,句子有6个词,词向量的维度为8,filters=5(输出维度为5), kernel_size=3(卷积核大小为3), 所以卷积核的维度为38,那么输入68经过38的卷积核卷积后得到的...
2019-07-01 15:22:58 354
转载 tensorflow之模型集成
from tensorflow.keras import layersimport numpy as npfrom tensorflow.keras.wrappers.scikit_learn import KerasClassifierfrom sklearn.ensemble import VotingClassifierfrom sklearn.metrics import acc...
2019-06-30 20:45:14 969
转载 keras之权重初始化
在神经网络训练中,好的权重 初始化会加速训练过程。下面说一下kernel_initializer 权重初始化的方法。不同的层可能使用不同的关键字来传递初始化方法,一般来说指定初始化方法的关键字是kernel_initializer 和 bias_initializermodel.add(Dense(64, kernel_initializer=initializers.random_norma...
2019-06-30 20:34:16 11489
转载 tensorflow最简单的回归与分类例子
回归数据准备# 导入数据(x_train, y_train), (x_test, y_test) = keras.datasets.boston_housing.load_data()print(x_train.shape, ' ', y_train.shape)print(x_test.shape, ' ', y_test.shape)模型# 构建模型model = kera...
2019-06-30 18:21:44 503
原创 tesnorflow回归
数据加载dataset_path = keras.utils.get_file('auto-mpg.data', 'https://archive.ics.uci.edu/ml/machine-learning-databases/auto-mpg/auto-mpg.data') ...
2019-06-30 17:00:07 218
转载 tensorflow 特征工程
https://blog.csdn.net/u014021893/article/details/80423112https://blog.csdn.net/u014061630/article/details/82937333https://blog.csdn.net/qq_22238533/article/details/78980319https://blog.csdn.net/cjo...
2019-06-29 20:16:33 1086
原创 python的循环同一处理
features = {key:np.array(value) for key,value in dict(features).items()}
2019-06-29 17:08:32 232
转载 keras处理欠拟合和过拟合
baselineimport tensorflow.keras.layers as layersbaseline_model = keras.Sequential([ layers.Dense(16, activation='relu', input_shape=(NUM_WORDS,)), layers.Dense(16, activation='relu'), l...
2019-06-29 10:58:15 1750
转载 keras.Sequential 实现简单的文本分类
IMDB数据imdb=keras.datasets.imdb(train_x, train_y), (test_x, text_y)=keras.datasets.imdb.load_data(num_words=10000)#参数num_words=10000表示数据集保留了最常出现的10,000个单词。为了保持数据大小的可处理性,罕见的单词会被丢弃。print(type(train_x...
2019-06-29 10:01:32 560
数据挖掘 刘莹 国科大 考试题目 及考点总结及课后题 解析(吐血整理
2019-11-07
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人