Ubuntu
独自凌寒
这个作者很懒,什么都没留下…
展开
-
本地远程连接服务器上的Jupyter Notebook设置方法
jupyter notebook是一个基于浏览器的python数据分析工具,使用起来非常方便,具有极强的交互方式和富文本的展示效果。jupyter是它的升级版,它的安装也非常方便,一般Anaconda安装包中会自带。安装好以后直接输入jupyter notebook便可以在浏览器中使用。但是它默认只能在本地访问,如果想把它安装在服务器上,然后在本地远程访问,则需要进行如下配置:1. 登陆远程服...原创 2019-11-29 19:17:45 · 2935 阅读 · 0 评论 -
ID3、C4.5、CART三种算法优缺点比较
ID3D3算法十分简单,核心是根据“最大信息熵增益”原则选择划分当前数据集的最好特征,信息熵是信息论里面的概念,是信息的度量方式,不确定度越大或者说越混乱,熵就越大。在建立决策树的过程中,根据特征属性划分数据,使得原本“混乱”的数据的熵(混乱度)减少,按照不同特征划分数据熵减少的程度会不一样。在ID3中选择熵减少程度最大的特征来划分数据(贪心),也就是“最大信息熵增益”原则。同时这是最早提...原创 2019-08-07 15:50:29 · 9288 阅读 · 0 评论 -
随机森林(Random Forest)算法原理
集成学习(Ensemble)思想、自助法(bootstrap)与bagging集成学习(ensemble)思想是为了解决单个模型或者某一组参数的模型所固有的缺陷,从而整合起更多的模型,取长补短,避免局限性。随机森林就是集成学习思想下的产物,将许多棵决策树整合成森林,并合起来用来预测最终结果。首先,介绍自助法(bootstrap),这个奇怪的名字来源于文学作品 The Adventure...转载 2019-08-08 14:22:17 · 962 阅读 · 0 评论 -
python机器学习案例系列教程——决策树(ID3、C4.5、CART)
决策树简介决策树算是最好理解的分类器了。决策树就是一个多层if-else函数,就是对对象属性进行多层if-else判断,获取目标属性(类标签)的类别。由于只使用if-else对特征属性进行判断,所以一般特征属性为离散值,即使为连续值也会先进行区间离散化。在机器学习中,决策树是一个预测模型,他代表的是对象属性与类别属性之间的一种映射关系。分类决策树概念:是一种描述对实例进行分类的树形结构。...转载 2019-08-05 18:57:55 · 575 阅读 · 0 评论 -
机器学习之随机森林和GBDT的区别以及Xgboost和GBDT的区别
随机森林:理解:多棵决策树(CART树)https://blog.csdn.net/blank_tj/article/details/82081002组合而成,分类问题:每棵树投票找最高票;回归问题:每棵树的值求和取平均。特点:随机森林基于Bagging https://blog.csdn.net/blank_tj/article/details/82229322,所以每次训练随机从总数据D...转载 2019-08-05 18:56:54 · 548 阅读 · 0 评论 -
决策树、Bagging、随机森林、Boosting、Adaboost、GBDT、XGBoost
决策树(Descision Tree)决策树介绍决策树基于“树”结构进行决策:- 每个“内部节点”对应于某个属性上的测试- 每个分枝对应于该测试的一种可能结果(即属性的某个取值)- 每个叶节点对应于一个“预测结果”决策树学习的三个步骤特征选择决策树的生成决策树的修剪特征选择是决定用哪个特征来划分特征空间;特征选择的准则:信息增益或信息增益比案例:预测小明今天出门...转载 2019-08-05 18:56:13 · 379 阅读 · 0 评论 -
随机森林,GBDT,XGBoost的对比
随机森林 RF RandomForest 随机森林的集成学习方法是bagging,但是和bagging 不同的是bagging只使用bootstrap有放回的采样样本,但随机森林即随机采样样本,也随机选择特征,因此防止过拟合能力更强,降低方差。使用的融合方法:bagging一种集成学习算法,基于bootstrap sampling 自助采样法,重复性有放回的随机采用部分样本进行训练最...转载 2019-08-05 18:54:40 · 724 阅读 · 0 评论 -
PyCharm设置仿sublime配色__Py版本2018.1
配色效果图:1. File --- Setting --- Apperance & Behavior --- Theme: Darcula2. File ---Setting---Editor---Color Scheme Font---Scheme---Monokai3. 备份原Monokai方案,会创建新的MonokaiCopy方案,我们在Copy...原创 2019-07-07 12:30:06 · 464 阅读 · 0 评论 -
解决ubuntu系统matplotlib库中文无法显示或乱码
笔者在网上找了各种各样的教程,尝试了很多方法,最终发现以下方法最简单。1. 在ubuntu系统中,找到原windows系统的C盘,然后搜索simhei.ttf,把该文件复制。2. 我的matplotlib库是在Ananconda中,来到 home/Anaconda/wangdong/lib/python3.6/site-packages/matplotlib/mpl-data/fonts...原创 2019-07-05 18:26:08 · 138 阅读 · 0 评论 -
(window系统,ubuntu系统服务器)pycharm通过ssh连接远程服务器
1. 各种远程连接终端操作浪费时间,麻烦之前一致用putty,ssh,修改代码,或者本地修改,上传到服务器,各种不爽,现在改用xshell,但是有时候还是不方便感觉,于是自己配置了远程连接pycharm,这样不用总是到代码里修改,直接在windows(或者ubuntu)下pycharm里修改再保存就可以实现同步更新到服务器里的代码里了。2、content配置Deployment...原创 2019-07-10 17:16:06 · 1165 阅读 · 1 评论 -
Ubuntu安装pycharm并设置快捷启动方式
1.下载解压后,终端进入目录下的bin目录,执行sh ./pycharm.sh进行相关设置激活等2.设置快捷启动方式,执行命令。sudo gedit /usr/share/applications/pycharm.desktop在文件中添加代码[Desktop Entry]Type=ApplicationName=PycharmGenericName=Pycharm3Co...原创 2019-07-04 14:37:02 · 544 阅读 · 0 评论 -
集成学习(Ensemble Learning)-bagging-boosting-stacking
基本概念元算法(meta-algorithm),所谓“三个臭皮匠,顶个诸葛亮”,在做决策时,通常会听取多个专家而不只是一个人的意见。例如,医院在遇到罕见病例时会组织多个专家进行临床会诊,共同分析病例以给出手术方案。这就是元算法背后的思路,元算法也叫集成方法(ensemble method)。集成学习(Ensemble Learning)就是使用一系列学习器进行学习,并使用某种规则将各个学习...原创 2019-08-08 16:56:04 · 704 阅读 · 0 评论 -
ID3、C4.5、CART三种决策树的区别
决策树是如何工作的一棵决策树包含一个根结点、若干个内部结点和若干个叶结点;叶结点对应于决策结果,其他每个结点则对应一个属性测试;每个结点包含的样本结合根据属性测试的结果被划分到子结点中;根结点包含样本全集,从根结点到每个叶结点的每个叶结点的路径对应一个判定测试序列。决策树学习的目的是为了产生一棵泛化能力强,也就是能够处理未见实例的决策树。ID3决策树信息熵是度量样本集合纯度最常用的...原创 2019-08-07 15:39:15 · 491 阅读 · 0 评论 -
Python 二进制, 十进制, 十六进制转化
十六进制 到 十进制使用 int() 函数 ,第一个参数是字符串 '0Xff' ,第二个参数是说明,这个字符串是几进制的数。 转化的结果是一个十进制数。>>> int('0xf',16)15二进制 到 十进制>>> int('10100111110',2) 1342八进制 到 十进制>>> int('1...原创 2019-08-26 15:21:25 · 860 阅读 · 0 评论 -
cnn中关于平均池化和最大池化的理解
接触到pooling主要是在用于图像处理的卷积神经网络中,但随着深层神经网络的发展,pooling相关技术在其他领域,其他结构的神经网络中也越来越受关注。一个典型的卷积神经网络结构图,其中的卷积层是对图像的一个邻域进行卷积得到图像的邻域特征,亚采样层就是使用pooling技术将小邻域内的特征点整合得到新的特征。作用pooling的结果是使得特征减少,参数减少,但pooling的目的并...原创 2019-08-16 14:20:32 · 1198 阅读 · 0 评论 -
卷积神经网络CNN基本概念(二)上采样 下采样
缩小图像:或称为下采样(subsampled)或降采样(downsampled)主要目的有两个:1、使得图像符合显示区域的大小;2、生成对应图像的缩略图。放大图像:或称为上采样(upsampling)或图像插值(interpolating)主要目的是放大原图像,从而可以显示在更高分辨率的显示设备上。对图像的缩放操作并不能带来更多关于该图像的信息, 因此图像的质量将不可避免地受到影响...原创 2019-08-16 11:07:32 · 5758 阅读 · 1 评论 -
数据预处理:独热编码(One-Hot Encoding)和labelEncoder标签编码
一、问题由来在很多机器学习任务中,特征并不总是连续值,而有可能是分类值。离散特征的编码分为两种情况: 1、离散特征的取值之间没有大小的意义,比如color:[red,blue],那么就使用one-hot编码 2、离散特征的取值有大小的意义,比如size:[X,XL,XXL],那么就使用数值的映射{X:1,XL:2,XXL:3}使用pandas可以很方便的对离散型特征进行on...原创 2019-08-12 11:21:52 · 805 阅读 · 0 评论 -
深度学习:词嵌入Embedding
词嵌入词嵌入其实就是将数据的原始表示表示成模型可处理的或者是更dense的低维表示(lz)。One-hot Embedding假设一共有m个物体,每个物体有自己唯一的id,那么从物体的集合到有一个trivial的嵌入,就是把它映射到中的标准基,这种嵌入叫做One-hot embedding/encoding.一般使用的低维embedding应用中一般将物体嵌入到一个低维空间(n...原创 2019-08-12 10:58:02 · 1341 阅读 · 0 评论 -
深度学习中Embdeding层俩大作用的个人理解
首先,我们有一个one-hot编码的概念。假设,我们中文,一共只有10个字。。。只是假设啊,那么我们用0-9就可以表示完比如,这十个字就是“我从哪里来,要到何处去”其分别对应“0-9”,如下:我从哪里来要到何处去012345678 9那么,其实我们只用一个列表就能表示所有的对...原创 2019-08-12 10:10:59 · 923 阅读 · 0 评论 -
广告点击率模型中,LR,GBDT+LR,FM,DNN等模型的优点和缺点?实际效果如何?
LR优点:1.是一个很好的baseline,效果不错,当然因为效果不错,所以后续的版本想超过它,真的还是很难的。2.实际简单,有开源的工具可以直接用来训练,在线的代码也写起来比较容易。缺点:1.因为是线性模型,所以有选择交叉特征的工作,这部分工作消耗大量的精力,但往往没什么效果。一般都是wrapper方法选择,每轮可能都要进行小时级的运算,理论上要进行2^n轮(n是特征数),但...原创 2019-08-10 16:00:41 · 1601 阅读 · 0 评论 -
自编码器及其相关模型
自编码器是一种无监督的神经网络模型,其核心的作用是能够学习到输入数据的深层表示。当前自编码器的主要应用有俩个方面:一是特征提取;另一个是非线性降维,用于高维数据的可视化,与流行学习关系密切。自编码器(AutoEncoder,AE):最原始的AE网络是一个三层的前馈神经网络结构,由输入层、隐藏层和输出层构成。对于二值神经网络,也就是输入层的每个神经元只能取值0或1,那么损失函数通常由...原创 2019-08-14 14:37:36 · 400 阅读 · 0 评论 -
决策树模型 ID3/C4.5/CART算法比较
一、决策树的优点和缺点优点:决策树算法中学习简单的决策规则建立决策树模型的过程非常容易理解, 决策树模型可以可视化,非常直观 应用范围广,可用于分类和回归,而且非常容易做多类别的分类 能够处理数值型和连续的样本特征缺点:很容易在训练数据中生成复杂的树结构,造成过拟合(overfitting)。剪枝可以缓解过拟合的负作用,常用方法是限制树的高度、叶子节点中的最少样本数量。 学...原创 2019-08-07 16:04:55 · 223 阅读 · 0 评论 -
TFRecords文件的存储与读取讲解及代码实现
TFRecords是TensorFlow中的设计的一种内置的文件格式,它是一种二进制文件,优点有如下几种:统一不同输入文件的框架它是更好的利用内存,更方便复制和移动(TFRecord压缩的二进制文件, protocal buffer序列化)是用于将二进制数据和标签(训练的类别标签)数据存储在同一个文件中一、TFRecords存储在将其他数据存储为TFRecords文件的时候,需要经...原创 2019-05-13 15:53:19 · 949 阅读 · 0 评论 -
ubuntu16.04安装pyaudio报错
一般百度,官网上显示:在window上用pip安装在ubuntu等linux上安装用apt安装但我都尝试了,都不能正确安装,报出错误,安装失败。显示类似如下错误:fatal error: portaudio.h: No such file or directory尝试很多,说用 sudo apt-get install python-pyaudio python3...原创 2018-10-14 17:05:55 · 1674 阅读 · 0 评论 -
module 'h5py' has no attribute 'File' 解决办法
之前运行一直没有出现过的问题,现在换了环境总是出现AttributeError: module 'h5py' has no attribute 'File'解决办法:AttributeError: module 'h5py' has no attribute 'File'这个问题通常是由于h5py这个库的不规范造成。比如说,我是混着使用pip和conda,可能这就是使得出现这个...原创 2018-09-28 14:35:21 · 14111 阅读 · 5 评论 -
keras运行报错
TypeError: while_loop() got an unexpected keyword argument 'maximum_iterations' 当使用Bilstm层的时候Use Keras 2.1.2 Tensorflow 1.4.1 更换版本即可。这是版本中的问题。原创 2018-10-12 21:23:24 · 2123 阅读 · 1 评论 -
keras加载模型出错
keras加载模型出错 IOError: Unable to open file (File signature not found)又一次加载时报错了,IOError: Unable to open file (File signature not found)h5py\_objects.pyx in h5py._objects.with_phil.wrapper (C:\aroot\w...原创 2018-10-12 21:20:58 · 11194 阅读 · 3 评论 -
出现类似Intel MKL FATAL ERROR: Cannot load libmkl_avx2.so or libmkl_def.so错误
网上解决办法很多,不过的我的问题是在pycharm上运行一段代码,就出现Intel MKL FATAL ERROR: Cannot load libmkl_avx2.so or libmkl_def.so无法加载。同时在spyder环境下运行就出现kernel dead ,什么需要重启同时,在终端也出现Intel MKL FATAL ERROR: Cannot load libmkl_av...原创 2018-09-14 10:35:50 · 5020 阅读 · 1 评论 -
基于内容推荐算法详解
原文地址:https://blog.csdn.net/nicajonh/article/details/79657317Collaborative Filtering Recommendations (协同过滤,简称CF) 是目前最流行的推荐方法,在研究界和工业界得到大量使用。但是,工业界真正使用的系统一般都不会只有CF推荐算法,Content-based Recommendations (C...转载 2018-09-09 16:54:32 · 330 阅读 · 0 评论 -
ubuntu16.04-spyder内不能写中文解决办法
问题:电脑系统是ubuntu16.04系统,自带各种中文输入法,可是安装的spyder编辑器里面不能输入中文或这中文注释。怎么办? 解决办法:找到文件 /usr/lib/x86_64-linux-gnu/qt5/plugins/platforminputcontexts/libfcitxplatforminputcontextplugin.so,将文件复制在自己创建的A...原创 2018-08-23 17:21:15 · 1155 阅读 · 1 评论 -
Ubuntu16.04最常用的解决启动Navigator图像化界面问题
方法一:$ source ~/anaconda3/bin/activate root$ anaconda-navigator方法二:$ conda install -c anaconda anaconda-navigator$ anaconda-navigato总结:方法一是大多数启动方法;直接在anaconda的激活环境里启动方法二是在anaconda的激活环...原创 2018-08-08 17:41:41 · 954 阅读 · 0 评论 -
解决Ubuntu16.4系统下Anaconda下启动navigator闪退,出现如下错误时的解决办法
wangdong@wangdong-Precision-5820-Tower:~$ source activator tensorflowbash: activator: 没有那个文件或目录wangdong@wangdong-Precision-5820-Tower:~$ source activate tensorflow(tensorflow) wangdong@wangdong-Pr...原创 2018-08-08 17:29:05 · 1758 阅读 · 0 评论 -
python--re模块
Python--re模块正则表达式正则表达式本身是一种小型的、高度专业化的编程语言,而在python中,通过内嵌集成re模块,程序员们可以直接调用来实现正则匹配。正则表达式模式被编译成一系列的字节码,然后由用C编写的匹配引擎执行。正则表达式是用来匹配处理字符串的 python 中使用正则表达式需要引入re模块如:import re #第一步,要引入re模块a = re....原创 2018-10-18 21:18:47 · 184 阅读 · 0 评论 -
修改/etc/environment/进不了系统,出现循环登录
解决方案:1、开机--ubuntu16.042、到来一个图形界面,要求输入用户密码那个--3、ctrl+alt+F1在此模式下输入你的用户名和密码4、输入命令 /usr/bin/sudo /usr/bin/vi /etc/environment 修改environment里面的内容,改回去,就是里面都删除了,就留一句PATH="/usr/local/sbin:/u...原创 2018-10-21 15:26:14 · 678 阅读 · 0 评论 -
关于Ubuntu16.04中WPS不能输入中文的问题
问题:Ubuntu16.04自带的libre对于office的格式兼容性太差,只好安装了WPS。但是WPS文字、表格、演示均不能输入中文。 原因:环境变量未正确设置。 解决办法:WPS文字打开终端输入:sudo vim /usr/bin/wps1添加一下文字到打开的文本中(添加到“#!/bin/bash”下面):export XMODIFIERS="@im=fcitx"expo...原创 2018-11-10 13:21:39 · 491 阅读 · 0 评论 -
TensorFlow学习: 保存TFRecord文件
一.重要APIⅠ tf.python_io.TFRecordWriter类把记录写入到TFRecords文件的类.__init__(path,options=None)作用:创建一个TFRecordWriter对象,这个对象就负责写记录到指定的文件中去了. 参数: path: TFRecords 文件路径 options: (可选) TFRecordOptions对象...原创 2019-05-13 15:43:05 · 298 阅读 · 0 评论 -
tensorflow学习——tfreader格式,队列读取数据tf.train.shuffle_batch()
1、说明tf.train.shuffle_batch()这个函数的功能是:Creates batches by randomly shuffling tensors.但需要注意的是它是一种图运算,要跑在sess.run()里This function adds the following to the current Graph:在运行这个函数时它会在当前图上创建如下的东西:...原创 2019-05-13 15:30:10 · 221 阅读 · 0 评论 -
tf.cast()数据类型转换
tf.cast()函数的作用是执行 tensorflow 中张量数据类型转换,比如读入的图片如果是int8类型的,一般在要在训练前把图像的数据格式转换为float32。cast定义:cast(x, dtype, name=None)第一个参数 x:待转换的数据(张量)第二个参数 dtype: 目标数据类型第三个参数 name: 可选参数,定义操作的名称int32转换为flo...原创 2019-05-10 20:46:30 · 568 阅读 · 0 评论 -
关于tf.GraphKeys.UPDATA_OPS
1、tf.control_dependencies首先我们先介绍tf.control_dependencies,该函数保证其辖域中的操作必须要在该函数所传递的参数中的操作完成后再进行。请看下面一个例子。import tensorflow as tfa_1 = tf.Variable(1)b_1 = tf.Variable(2)update_op = tf.assign(a_1, 10...原创 2019-05-10 19:11:27 · 7221 阅读 · 1 评论 -
验证集与测试集有什么区别?为什么要分训练集、验证集和测试集?
测试集与验证集的存在主要是为了把调参与评估泛化能力分为两个相对独立的步骤,体现了正交化思想。 验证集一般用于进一步确定模型中的超参数(例如正则项系数、神经网络中隐层的节点个数,k值等),而测试集只是用于评估模型的精确度(即泛化能力)。 举个例子:假设建立一个BP神经网络,对于隐含层的节点数目我们并没有很好的方法取确定,此时一般将节点数设为某一具体的值,通过训练出...原创 2019-05-14 16:37:55 · 3119 阅读 · 0 评论