2019年03月_Takoony

12月 11月 10月 09月 08月 07月 06月 05月 04月 03月 02月 01月

原创 tmux常用命令

新建sessiontmux new -s sessionname杀掉session（可以在tmux里，也可以在tmux外）tmux kill-session -t sessionname从非tmux进入已经建好的tmuxtmux attach-session sessionname从tmux退出当前session先ctrl+b激活终端，然后ctrl+z新建窗口...

2019-03-22 19:24:42 193

原创 vim+python3的字符串却不能使用中文

ss=“爱江山更爱美人“会出现错误，无法编码这个地方会出错是因为vim工具的encoding编码为cp936临时解决方案，在vim命令行：set encoding=utf-8

2019-03-22 14:26:03 383

原创 isnull与isna的区别

说明两者其实是一样的；都是函数isna;isnull就是一个别名而已

2019-03-21 23:23:00 3922

转载 AutoML HPO-bayesion-optimization

# Pandas and numpy for data manipulationimport pandas as pdimport numpy as np# Modelingimport lightgbm as lgb# Evaluation of the modelfrom sklearn.model_selection import KFoldMAX_EVALS = ...

2019-03-20 17:26:22 648

原创 11 Python Pandas tricks that make your work more efficient

Pandas is a widely used Python package for structured data. There’re many nice tutorials of it, but here I’d still like to introduce a few cool tricks the readers may not know before and I believe the...

2019-03-20 17:11:49 172

原创 pip安装包一直提示找不到

pip install warnings，operator，functools找不到；因为这些不需要安装；导入以下命令均可以成功importwarningsimportoperatorimportfunctools有些导入包的名字不一定等同于安装包名...

2019-03-20 10:45:47 3407

原创 anaconda双版本完美并存

一、问题起源：电脑上只安装了python2.7，由于深度学习的需要，需要安装python3.6的版本，由于python包太多，安装麻烦，所以选择安装anaconda3，；二、解决方案：1.尝试过再安装一个anaconda3版本，但存在一些冲突，所以又卸载2.直接安装anaconda3到anaconda2的envs目录下，不添加环境变量（本质上仍是双版本安装），但在安装ten...

2019-03-19 12:33:23 1810

原创第一次使用码云

1.在码云网站上创建一个项目，例如名为test 记录其地址例https://git.oschina.net/NYang/test.git2.在本地电脑上建立一个空文件夹，3.建立连接 git user.name user.email git地址4.保持一致，先pull下来，将远程的pull到本地电脑上，保持一致5.测试本地修改，然后上传，新建个init.txt文档； git ad...

2019-03-19 12:30:44 702

原创 centos7怎么安装中文环境支持包

网上搜索使用yum groupinstall chinese-support；error：不存在这样的包最后使用这个有效yumgroupinstall "fonts" 有效Vi/etc/sysconfig/i18n修改：LANG=en_CN.UTF8改为 LANG=zh_CN.UTF8; 保存退出还有最重要的一步:xshell终端设置:重启；终端没有中文乱码...

2019-03-18 19:18:20 6839 1

原创 linux安装anaconda3时出现error，the size of should be 6* bytes

问题：linux安装anaconda3时出现error，the size of ** should be 6*** bytessh Anaconda3.5.2**************.sh出现error：提示 the size of …… shoulde be bytes尝试了很多方法；在同事的帮助下，同事用xftp上传一个3.4版本的，然后可以安装，最后说用xftp上传试...

2019-03-18 16:40:20 4312

原创 centos系统所需软件

对于centos非常重要的一个地址：http://vault.centos.org/gcc+bzip2(Anaconda所需)gcc及所需依赖包下载的官方地址:http://vault.centos.org/7.5.1804/os/x86_64/Packages/所需的依赖：centos安装命令：rpm -Uvh *.rpm --nodeps --force...

2019-03-17 16:15:08 220

原创 Linux下二进制包、源代码包、rpm.binary与rpm.source

要提供三种格式的mysql包：rpm格式、二进制格式、源码格式：（tar打包，gz压缩）rpm格式：libjpeg-devel-6b-33.x86_64.rpm #rpm格式很好区分，（等同于window下的exe文件）二进制包：mysql-3.23.58-pc-linux-i686.tar.gz #二进制格式的包名字很长，有版本号、适应平台、适应的硬件类型等，格式：m...

2019-03-17 14:43:17 1683

转载高斯过程理解-好文

def plot_unit_gaussian_samples(D): p = figure(plot_width=800, plot_height=500, title='Samples from a unit {}D Gaussian'.format(D)) xs = np.linspace(0, 1, D) for...

2019-03-14 20:53:58 1445

原创禁止vim生成 un~文件

set noundofile set nobackup set noswapfile

2019-03-14 19:38:59 185

原创随机过程的理解

随机过程的本质有两个要点：一是随机，二是过程；随机说明任何时候结果都存在不确定性，即分布函数（或者概率密度函数）；过程体现的是时间；在时间t时，随机变量服从某一分布，另一时刻随机变量服从某一分布；如图所示：如果随机过程中的所有随机变量服从高斯分布，就是高斯过程了；...

2019-03-14 11:32:46 7465 1

原创贝叶斯优化的初步理解

最优值是高方差和平均值是比较高的（前提是优化函数为最大值），如图所示：黑色实线是平均值；虚线为目标函数真实值，黑点为已经抽样的点包括x与y；红色的点是新选择的x；新选择的x是要考虑高方差与高预测值的，而不仅仅是高预测值；当时我不理解获得函数曲线为什么没有与实线同步（即只考虑预测值）本质上有两个数学要点，一个是随机过程/高斯过程；二是贝叶斯概率；高斯过程主要是针对每个超参数组的...

2019-03-14 11:26:56 1928

转载机器学习中的高斯过程简介-好文

import matplotlib.pyplot as pltimport numpy as npfrom itertools import cyclecolor_cycle = cycle('kbryg')n_variable = 20n_sample = 5plt.figure(figsize=(500, 300))sig...

2019-03-13 22:51:38 948

转载 RandomizedSearchCV 和GridSearchCV

# -*- coding: utf-8 -*-import timeimport numpy as npfrom sklearn.datasets import load_digitsfrom sklearn.ensemble import RandomForestClassifierfrom sklearn.grid_search import GridSearchCVfrom s...

2019-03-13 19:49:39 378

转载调参必备--Grid Search网格搜索

什么是Grid Search 网格搜索？Grid Search：一种调参手段；穷举搜索：在所有候选的参数选择中，通过循环遍历，尝试每一种可能性，表现最好的参数就是最终的结果。其原理就像是在数组里找最大值。（为什么叫网格搜索？以有两个参数的模型为例，参数a有3种可能，参数b有4种可能，把所有可能性列出来，可以表示成一个3*4的表格，其中每个cell就是一个网格，循环过程就像是在每个网格里遍历、搜...

2019-03-13 19:35:40 1295

转载缺失值处理的三种方法

缺失值处理的三种方法：直接使用含有缺失值的特征；删除含有缺失值的特征（该方法在包含缺失值的属性含有大量缺失值而仅仅包含极少量有效值时是有效的）；缺失值补全。常见的缺失值补全方法：均值插补、同类均值插补、建模预测、高维映射、多重插补、极大似然估计、压缩感知和矩阵补全。（1）均值插补如果样本属性的距离是可度量的，则使用该属性有效值的平均值来插补缺失的值；如果的距离是不可度量的，则...

2019-03-12 20:48:23 63664 1

原创 python3月新增知识点

np.ptp:peak to peak

2019-03-12 19:50:36 122

转载 one-hot与哑变量(dummy variable)的区别

在机器学习问题中，我们通过训练数据集学习得到的其实就是一组模型的参数，然后通过学习得到的参数确定模型的表示，最后用这个模型再去进行我们后续的预测分类等工作。在模型训练过程中，我们会对训练数据集进行抽象、抽取大量特征，这些特征中有离散型特征也有连续型特征。若此时你使用的模型是简单模型（如LR），那么通常我们会对连续型特征进行离散化操作，然后再对离散的特征，进行one-hot编码或哑变量编码。这样的操...

2019-03-12 19:35:43 3486

转载 PCA和whitening

　PCA：　　PCA的具有2个功能,一是维数约简（可以加快算法的训练速度，减小内存消耗等），一是数据的可视化。　　PCA并不是线性回归，因为线性回归是保证得到的函数是y值方面误差最小，而PCA是保证得到的函数到所降的维度上的误差最小。另外线性回归是通过x值来预测y值，而PCA中是将所有的x样本都同等对待。　　在使用PCA前需要对数据进行预处理，首先是均值化，即对每个特征维，都减掉该维的...

2019-03-12 10:47:17 869 1

原创 Identity matrix 与whitening的理解

Awhitening transformationorsphering transformationis alinear transformationthat transforms a vector ofrandom variableswith a knowncovariance matrixinto a set of new variables whose covarian...

2019-03-12 10:43:21 1223

原创 categorical data and numerical data

原以为：categorical data是离散型数据，numerical data是连接型数据；其实错的离谱；本质上来讲，是能不能用来计算；categorical是不能用来计算的，比如性别；而数值型数据是可以用来计算的，数值型数据包括离散型与连续型的；比如说统计抛硬币的次数，那只能是1，2，3，4等整数表示；Most data fall into one of two groups:...

2019-03-12 10:32:49 2903

转载保序回归-isotonic regresion

对生成的数据进行保序回归的一个实例.保序回归能在训练数据上发现一个非递减逼近函数的同时最小化均方误差。这样的模型的好处是，它不用假设任何形式的目标函数，(如线性)。为了比较，这里用一个线性回归作为参照。# coding:utf-8print (__doc__)#作者:Nelle Varoquaux <nelle.varoquaux@gmail.com># Al...

2019-03-12 10:12:48 560

转载数据预处理与降维

1 为什么要进行数据预处理1.1 数据清洗1.1.1 数据清洗常见问题a. 缺失值处理b. 噪声数据处理c. 异常值处理d. 脏数据处理e. 去重处理f. ETL - extract、transform、loadg. 离群点与噪声噪声：被测量的变量的随机误差或者方差（一般指错误的数据）离群点：数据集中包...

2019-03-11 17:22:59 4655

转载初探百度大数据分析挖掘平台Jarvis

在人工功能时代，企业既想通过大数据分析、挖掘技术提升效率，又被大数据量分析、机器学习挖掘等相关技术门槛阻扰，需要一款数据分析挖掘产品跨越这个鸿沟。Jarvis在这个背景下应运而生。Jarvis是支撑大数据分析挖掘应用开发的工具和平台，定位在企业开发者和大数据分析挖掘技术之间，提供可视化交互方面的支持，使得大数据分析、挖掘技术能快速转化为满足企业应用场景的具体产品。据了解，Jarvis技...

2019-03-11 17:15:18 796

转载 vim编码规则

1 字符编码基础知识字符编码是计算机技术中最基本和最重要的知识之一。如果缺乏相关知识，请自行恶补之。这里仅做最简要的说明。1.1 字符编码概述所谓的字符编码，就是对人类发明的每一个文字进行数字化表示。最经典的ASCII编码就是西方人发明的针对英文字符的编码方法，包括26个英文字母、数字、标点、特殊字符等。问题是，这种编码的范围是0-127，只能对128个字符进行编码。当计算机来到其他国家...

2019-03-09 20:52:22 208

原创 python无法识别vim中文代码

问题描述，如图所示：首先第一句字符sss没有打印出来，直接显示print中文问题；所以可以判断问题不是由python造成，而是由vim字符保存的编码规则导致的，出现的无法识别问题；查看：输入命令：set encoding这一步证明vim本身的显示编码规则为cp936，而不是utf-8查看保存的文件编码规则，set fileencoding显示fileencoding为空，但至少可...

2019-03-09 20:50:53 672

转载 nlp大赛冠军总结

1. 比赛介绍这是一个文本多分类的问题：目标是“参赛者根据知乎给出的问题及话题标签的绑定关系的训练数据，训练出对未标注数据自动标注的模型”。通俗点讲就是：当用户在知乎上提问题时，程序要能够根据问题的内容自动为其添加话题标签。一个问题可能对应着多个话题标签，如下图所示。这是一个文本多分类，多label的分类问题（一个样本可能属于多个类别）。总共有300万条问题-话题对，超过2亿词，4亿...

2019-03-08 16:21:55 318

转载用深度学习（CNN RNN Attention）解决大规模文本分类问题 - 综述和实践

近来在同时做一个应用深度学习解决淘宝商品的类目预测问题的项目，恰好硕士毕业时论文题目便是文本分类问题，趁此机会总结下文本分类领域特别是应用深度学习解决文本分类的相关的思路、做法和部分实践的经验。业务问题描述：淘宝商品的一个典型的例子见下图，图中商品的标题是“夏装雪纺条纹短袖t恤女春半袖衣服夏天中长款大码胖mm显瘦上衣夏”。淘宝网后台是通过树形的多层的类目体系管理商品的，覆盖叶子类目数量达上...

2019-03-08 15:20:28 628

转载基于朴素贝叶斯的垃圾邮件分类-着重理解拉普拉斯变换

1. 引言在正式学习朴素贝叶斯之前，需要明确的是机器学习所要实现的是基于有限的训练样本集尽可能准确地估计出后验概率P(c|x)，即根据特征得到所属类别的概率，首先引入两个概念。判别式模型（discriminative models）：给定x，直接建模P(c|x)来预测c，比如决策树、BP神经网络、支持向量机等；生成式模型（generative models）：联合概率分布P(x,c)进行建模，...

2019-03-08 14:56:00 2445

转载 Auto_ml与TPOT的区别

摘要：AutoML作为一个有效的工具可以帮助很多企业方便地实施和加速人工智能方面的应用落地。对于还不具备数据科学团队的公司来说，AutoML可以是全自动化的模型构建工具来使用，即便对于具备一定数据科学能力的公司，AutoML仍然可以帮助他们更加专注在人工智能落地中最为重要的事情上。在文本中，主要讲解目前常用的四个自动化学习平台，auto-sklearn, TPOT, auto_ml ...

2019-03-07 10:48:15 1565 1

转载初探百度大数据分析挖掘平台Jarvis

在人工智能时代，企业既想通过大数据分析、挖掘技术提升效率，又被大数据量分析、机器学习挖掘等相关技术门槛阻扰，需要一款数据分析挖掘产品跨越这个鸿沟。Jarvis在这个背景下应运而生。Jarvis是支撑大数据分析挖掘应用开发的工具和平台，定位在企业开发者和大数据分析挖掘技术之间，提供可视化交互方面的支持，使得大数据分析、挖掘技术能快速转化为满足企业应用场景的具体产品。据了解，Jarvi...

2019-03-06 14:36:21 379

转载 AutoML Vision教程：训练模型解决计算机视觉问题，准确率达94.5%

【新智元导读】只要三张拉面图，就能识别出每碗拉面是在41家不同拉面店中的哪家制作出来。数据科学家Kenji Doi开发了一种拉面专家AI分类器，它能辨别出不同拉面之间的细微差异。这背后，是谷歌AutoML Vision提供的ML模型。看下面的三碗拉面。你能相信机器学习（ML）模型能以95%的准确率识别出每碗拉面是在41家拉面店中的哪家制作的么？数据科学家Kenji Doi开发了一种拉面专家...

2019-03-06 10:15:40 478

转载 NNI工具介绍

NNI (Neurol Network Intelligence) 是微软开源的自动机器学习工具。与当前的各种自动机器学习服务或工具相比，有非常独特的价值。本文先介绍一下 NNI 的特点，然后再后续的安装、使用章节详细介绍如何上手。支持私有部署。云服务中的自动机器学习直接提供了自动机器学习的服务，不仅包含了自动机器学习的功能，也包含了算力。如果团队或个人已经有了很强的算力资源，就需要支持私有部...

2019-03-06 10:00:16 1870

转载表数据比图数据更难处理

目前 AutoML 产品的目标数据主要有两类，一类是图像数据，一类是表数据。图像数据深度学习取得的最大的成功来自于图像领域，相比于传统图像分析处理做法最核心的点在于“自动”学习层次化特征，以前的图像分析都是需要人工设计很多种从原始像素提取特征的方法，需要很多专家经验，深度学习很好地解决了这个问题，使得特征可学习，将人工特征设计转变成了人工神经网络结构设计，对于图像领域的自动机器学习，很自然...

2019-03-05 20:00:45 172

转载 AutoML简要概述

前言AutoML是指尽量不通过人来设定超参数，而是使用某种学习机制，来调节这些超参数。这些学习机制包括传统的贝叶斯优化，多臂老虎机（multi-armed bandit），进化算法，还有比较新的强化学习。我将AutoML分为传统AutoML ，自动调节传统的机器学习算法的参数，比如随机森林，我们来调节它的max_depth, num_trees, criterion等参数。还有一类Aut...

2019-03-05 19:02:44 1443

转载孤立森林异常检测之入门

iForest （Isolation Forest）孤立森林是一个基于Ensemble的快速异常检测方法，具有线性时间复杂度和高精准度，是符合大数据处理要求的state-of-the-art算法（详见新版教材“Outlier Analysis”第5和第6章 PDF）。其可以用于网络安全中的攻击检测，金融交易欺诈检测，疾病侦测，和噪声数据过滤等。本文将通俗解释实现方法和日常运用，即无需深厚的数学功...

2019-03-04 11:45:20 2109