python
文章平均质量分 76
Rachel_nana
学习R语言、python中……
展开
-
pytorch学习十一 ---- 学习率调整策略以及tensorboad
在优化器中有很多超参数,如学习率、momentum等。其中学习率直接控制参数更新的一个大小,在整个训练当中,学习率也不是一成不变的。为什么要调整学习率?学习率是直接控制更新的步伐,从梯度下降的公式可以看出,参数更新中是学习率乘以一个梯度(更新量),在这里学习率直接控制了参数更新的大小。一般我们在刚开始训练时,学习率会设定比较大,让更新步伐较大,到了后期,学习率LR会下降,让参数更新的步伐变...原创 2019-11-13 10:55:59 · 846 阅读 · 0 评论 -
pytorch学习十 ---- 优化器
1、什么是优化器?首先我们回忆一下机器学习的五大模块:数据、模型、损失函数、优化器、迭代训练在损失函数中我们会得到一个loss值,即真实标签与预测标签的差异值,对于loss我们通常会采用pytorch中的autograd自动求导机制进行求导,优化器拿到每个参数的导数会根据优化策略去更新我们的模型的参数,并使得模型的loss值呈下降趋势。因此优化器的主要作用是采用梯度去更新我们模型中的可...原创 2019-11-11 12:30:31 · 2640 阅读 · 0 评论 -
pytorch学习九---损失函数
损失函数(一)损失函数概念损失函数是衡量模型输出与真实标签的差异在我们讨论损失函数时,经常会出现以下概念:损失函数(Loss Function)、代价函数(Cost Function)、目标函数(Objective Function)。这三者有什么区别及联系呢?Loss Function是计算一个样本的差异,代价函数是计算整个样本集的差异的平均值:目标函数是更广泛的概念...原创 2019-11-07 11:51:23 · 1423 阅读 · 0 评论 -
pytorch学习八--权值初始化
正确的权值初始化可以加快模型的收敛,不恰当的初始化会引发梯度消失和爆炸梯度消失与爆炸不恰当初始化如何引起梯度消失和爆炸的:下面是三层的全连接网络,我们来看第二个隐藏权值梯度是如何求取的X 如果,则,从而导致了梯度消失;如果,则,从而导致了梯度爆炸。一旦引发...原创 2019-11-05 11:52:28 · 1586 阅读 · 0 评论 -
pytorch学习七 -- 网络层-池化-线性-激活函数
卷积运算:卷积核在输入信号(图像)上滑动,相应位置上进行乘加。卷积核:又称为滤波器,过滤器,可认为是某种模式,某种特征卷积过程类似于用一个模板去图像上寻找与它相似的区域,与卷积核模式越相似,激活值越高,从而实现特征提取。AlexNet卷积核可视化,发现卷积核学习到是边缘、条纹、色彩这一些细节模式,这也印证了卷积核是某种特征提取器,而具体是哪一种特征、哪一种学习器完全是由模型决定的。...原创 2019-11-02 12:36:23 · 1006 阅读 · 0 评论 -
pytorch学习六--模型创建步骤与nn.module
模型模块包括两部分:模型创建与权值初始化;模型创建又包括构建网络层(卷积层、池化层、激活函数层等)和拼接网络层(LeNet、AlexNet、ResNet等);权值初始化有Xavier、Kaiming、均匀分布、正态分布等。LeNet网络结构运算示意图nn.moduletorch.nn.Parameter:张量子类,表示可学习参数,如weight、bias torch...原创 2019-11-02 12:36:11 · 460 阅读 · 0 评论 -
pytorch学习五 --数据增强transforms
数据增强数据增强又称为数据增广,数据扩增,它是对训练集进行变换,使训练集更丰富,从而让模型更具泛化能力。 数据增强 ---> 如我们高考之前做的五年高考,三年模拟一 、 transforms. -- crop1. transforms.CenterCrop(size)功能:从图像中心裁剪图片 size:所需裁剪图...原创 2019-11-02 12:35:40 · 9114 阅读 · 0 评论 -
pytorch学习四:pytorch数据读取机制D
学习pytorch数据读取机制中两个重要模块dataloader与Dataset:通过一个人民币分类实验来学习pytorch是如何从硬盘中读取数据的,并深入学习数据读取中涉及的两个模块DataSet与Dataloader;熟悉数据预处理处理transforms方法的运行机制:数据在读取到pytorch之后通常都需要对数据进行预处理,包括尺寸缩放、转换张量、数据中心化或标准化等等,这些操作都是通...原创 2019-11-02 12:34:59 · 694 阅读 · 0 评论 -
pytorch学习3 -- 自动求导系统autograd
对pytorch的自动求导系统中常用两个方法:torch.autograd.back和torch.autograd.grad进行介绍torch.autograd.backward(tensors,grad_tensors=None,retain_graph=None,create_graph=False)tensors:用于求导的张量,如loss retain_graph:保存计算图 ...原创 2019-11-02 12:34:08 · 440 阅读 · 0 评论 -
Linux安装python的.tar.gz包
centos安装py .tar.gz包最近在服务器安装py包时发现很多pip easy_install都不好用,于是 记录下原生态的安装方法。以pyhs2为例 其余的大同小异啦ヽ(*≧ω≦)ノ一、尝试pip安装pip install pyhs21安装完成后测试pyhtonimport pyhs212不报错的话,恭喜,你不需要再继续看下去了。ヽ(*・ω・)ノ二、....转载 2019-09-09 16:06:41 · 7044 阅读 · 0 评论 -
生成对抗网络
生成对抗网络说明:本文中代码与dc_gan.py的运行结果一致,可直接运行(https://github.com/PaddlePaddle/book/blob/develop/09.gan/dc_gan.py)进行验证。背景介绍生成对抗网络(Generative Adversarial Network[1],简称GAN)是非监督式学习的一种方法,通过让两个神经网络相互博弈的方式进...翻译 2019-09-06 12:58:57 · 3163 阅读 · 0 评论 -
词向量
背景介绍本章我们介绍词的向量表征,也称为word embedding。词向量是自然语言处理中常见的一个操作,是搜索引擎、广告系统、推荐系统等互联网服务背后常见的基础技术。在这些互联网服务里,我们经常要比较两个词或者两段文本之间的相关性。为了做这样的比较,我们往往先要把词表示成计算机适合处理的方式。最自然的方式恐怕莫过于向量空间模型(vector space model)。在这种方式里,...翻译 2019-08-29 17:51:41 · 1145 阅读 · 0 评论 -
Spark SQL与 DataFrame
Spark SQL是Spark生态系统中非常重要的组件,其前身为Shark。Shark是Spark上的数据仓库,最初设计成与Hive兼容,但是该项目于2014年开始停止开发,转向Spark SQL。Spark SQL全面继承了Shark,并进行了优化。Shark即Hive on Spark,为了实现与Hive兼容,Shark在HiveQL方面重用了Hive中的HiveQL解析、逻辑执行计划翻译...原创 2019-08-29 15:13:36 · 1893 阅读 · 0 评论 -
RNN与情感分析
情感分析本教程源代码目录在https://github.com/PaddlePaddle/book/tree/develop/06.understand_sentiment,初次使用请您参考Book文档使用说明:https://github.com/PaddlePaddle/book/blob/develop/README.cn.md。背景介绍在自然语言处理中,情感分析一般是指判断...翻译 2019-08-29 17:52:57 · 5930 阅读 · 0 评论 -
管道(Pipeline)和特征融合(FeatureUnion)
Pipeline:chaining(链接)estimatorsPipeline可以用于把多个estimators级联合成一个estimator。这么做的原因是考虑了数据处理过程的一系列前后相继的固定流程,比如:feature selection --> normalization --> classification。在这里,Pipeline提供了两种服务:Convenie...转载 2019-08-16 14:20:12 · 1357 阅读 · 0 评论 -
python 导入包时报错 ImportError: /lib64/libstdc++.so.6: version `CXXABI_1.3.8' not found 的解决办法
strings /usr/lib64/libstdc++.so.6|grep CXXABI 查看是否有“CXXABI_1.3.8”,没有说明需要安装进入python的安装路径下的lib文件夹(我这里python安装在/home/public/anaconda)查看libstdc++.so.6的最高版本将libstdc++.so.6的最高版本复制到/usr/lib64/目录下(...转载 2019-08-16 11:51:34 · 2055 阅读 · 0 评论 -
ERROR:Cannot uninstall 'llvmlite', It is a distutils... 和 KeyError: 'figure.constrained_layout.use'
安装pandas_profiling出现如下错误:pip install pandas_profiling然后我分别升级这几个包:(base) C:\Users\Rachel>pip install pandas==0.23.4Collecting pandas==0.23.4 Downloading https://files.pythonhosted.org/p...原创 2019-08-11 09:40:42 · 3885 阅读 · 0 评论 -
python 表格转换(数据透视)
1、导入数据import pandas as pdimport numpy as npimport pandas as pdtable = pd.DataFrame({'cust_id':[10001,10001,10002,10002,10003], 'type':['Normal','Special_offer',\ ...原创 2018-06-06 20:59:13 · 2448 阅读 · 0 评论 -
python 字典嵌套
import csvdata = csv.reader(open("data_data.csv","r"))datatrain = open("train.csv","w")datatest = open("test.csv","w")cell = {}for line in data: if line[2] not in cell: cell[lin原创 2018-05-18 12:44:59 · 199 阅读 · 0 评论 -
python csv文件读取
#按行进行读取的import numpy as npimport csv# 通过csv读取文件csvRead = csv.reader(open('C:\\Users\\Rachel\\Desktop\\CR\\raw_data.csv','r'))# 打开写入文件的窗口csvWrite = open('C:\\Users\\Rachel\\Desktop\\CR\\dataresu...原创 2018-05-18 12:28:44 · 330 阅读 · 0 评论 -
pandas 读取 — 写入excel 文件
import pandas as pd# 读取文件# data = pd.read_csv("E:\\working\\2018_5_9\\data\\Cl_data\\grids.csv",header = None)data = pd.read_excel("E:\\working\\2018_5_9\\data\\Cl_data\\grids.xlsx",header = N...原创 2018-05-18 12:12:40 · 14050 阅读 · 1 评论 -
python os模块常用函数
os.chdir() 方法用于改变当前工作目录到指定的路径。os.chdir(path)os.getcwd() 方法用于返回当前工作目录。os.getcwd() #!/usr/bin/python# -*- coding: UTF-8 -*-import os, syspath = "/tmp"# 查看当前工作目录retval = os.getcwd()pr...翻译 2018-05-31 09:22:03 · 230 阅读 · 0 评论 -
python map、join函数
map() 会根据提供的函数对指定序列做映射。第一个参数 function 以参数序列中的每一个元素调用 function 函数,返回包含每次 function 函数返回值的新列表。map(function, iterable, ...)其中function -- 函数,有两个参数 iterable -- 一个或多个序列>>>def square(x) :...翻译 2018-05-31 10:46:03 · 7417 阅读 · 0 评论 -
python 清洗数据
1、导入数据import pandas as pdimport os import numpy as npos.chdir(r"E:\Python_learning\data_science\train_0529\5Preprocessing")camp = pd.read_csv('teleco_camp_orig.csv')camp.head()Out[1]: ...原创 2018-06-06 20:53:15 · 2103 阅读 · 0 评论 -
特征编码one-hot与dummy的区别与联系
在模型的训练过程中,我们会对数据集的连续特征进行离散化操作,如使用简单的LR模型,然后对离散化后的特征进行one-hot编码或哑变量编码。这样通常会使得我们模型具有较强的非线性能力。one-hot编码思想:将离散化特征的每一种取值都成是一种状态,若你的这一特征中有N个不同的取值,那么我们就可以将这些特征抽象成N种不同的状态,one-hot编码保证了每一个取值只有一种状态处于“激活态”,也就...原创 2019-03-03 12:20:43 · 2794 阅读 · 0 评论 -
centos中Python里的matplotlib画图中文显示方框问题
1.查看系统是否有可用的中文字体from matplotlib.font_manager import FontManagerimport subprocess fm = FontManager()mat_fonts = set(f.name for f in fm.ttflist)print (mat_fonts)output = subprocess.check_output...原创 2019-07-18 11:49:26 · 1719 阅读 · 0 评论 -
centos中Python的selenium包和firefox的匹配问题
将下载解压的geckodriver放在/usr/local/bin目录下即可仍报错,版本不匹配仍是版本不匹配的问题1.在centos中参看firefox的版本:为45.0.9firefox -v #centos查看火狐版本2.根据百度,我们安装firefox版本为57.0.4,安装路径如下:需要的版本有firefox 57.0.4cd /usr/local...原创 2019-07-18 11:55:45 · 292 阅读 · 0 评论 -
报错:SyntaxError: Non-UTF-8 code starting with '\xbc' in file
E:\program\Anaconda3\python.exe E:/working/education_case/code/text_classification/code/构建文本分类器.py File "E:/working/education_case/code/text_classification/code/构建文本分类器.py", line 2SyntaxError: Non...原创 2019-07-12 11:07:07 · 13226 阅读 · 0 评论 -
centos中安装Python决策树的画图工具graphviz
1.首先安装graphvizyum -y install graphviz2.安装python插件graphvizpip installgraphviz3.安装Python插件pydotpluspip installpydotplus看到一个资料博客,保存一下:https://blog.csdn.net/luanpeng825485697/article/d...原创 2019-07-30 16:42:36 · 513 阅读 · 0 评论 -
修改Jupter notebook的路径
首先需要安装好anaconda3,安装好后选择jupyter notebook后点击右键,选择 “更多”,然后选择 “打开文件位置”。接着右击Jupyter notebook选择,选择 “属性”选择属性后弹出对话框如下:在该对话框操作如下:1.目标中 删除%%内的内容及%2.起始位置中 修改为 存放路径3.点击 高级 选项,勾选 “用管理员身份运行” 选项,点击...原创 2019-08-08 13:30:38 · 2003 阅读 · 0 评论 -
模型评估与选择
1.经验误差与过拟合错误率(error rate):分类错误的样本占样本总数的比例如果在个样本中有个样本分类错误,则错误率为,相应地,称为“精度”(accuracy),即“精度= 1-错误率”。误差(error):我们把学习器的实际预测输出与样本的真实输出之间的差异训练误差(training error)或经验误差(empirical error):学习器在训练集上的误差泛化误...原创 2019-08-04 22:26:05 · 519 阅读 · 0 评论 -
描述性统计分析
数据分析之前,需先明确变量的度量类型。变量的度量类型主要分三种:名义、等级、连续;1、名义变量:如饮料类型;1.1 描述名义变量的分布:频数表、柱形图2、等级变量:如饮料包装大小; 3、连续变量:饮料的体积(比例数据)、饮料的温度(间隔数据)3.1 描述连续变量的分布 :直方图 3.1.1 需要对变量进行分布探索,并了解以下情况: ...原创 2018-06-07 10:56:17 · 44986 阅读 · 1 评论