Jeramy_zsm-CSDN博客

转载 Word Embedding 知识总结

一. Word Embedding的基本概念1.1 什么是Word Embedding?现有的机器学习方法往往无法直接处理文本数据，因此需要找到合适的方法，将文本数据转换为数值型数据，由此引出了Word Embedding的概念。如果将word看作文本的最小单元，可以将Word Embedding理解为一种映射，其过程是：将文本空间中的某个word，通过一定的方法，映射或者说嵌入（embe...

2019-04-15 12:44:26 16222 3

原创 NLP的四大基本任务

1. 序列标注：分词/POS Tag/NER/语义标注2. 分类任务：文本分类/情感计算3. 句子关系判断：Entailment/QA/自然语言推理4. 生成式任务：机器翻译/文本摘要

2019-04-14 22:00:58 11339

原创 Linux最最常用操作

一.如何实现软链接？应用场景：当我们需要在不同的目录用到相同的文件时，我们不需要在每一个目录下都放文件。我们只需要在某个固定的目录放文件，然后在其它的目录下用ln命令链接（link）它就可以，而不会占用磁盘空间。使用命令ln -s a b，其中的 a 就是源文件，b是链接文件名，其作用是当进入b目录，实际上是链接进入了a目录。例如：ln -s /data1/file /data2/file...

2019-04-11 14:53:12 289

原创决策树的成长之路

这一篇主要讲我在学习决策树过程中的一些思路整理和比较直白的说明。以下不涉及具体的公式计算，如果想要了解更多，不妨看一下我的另一篇博文http://blog.csdn.net/savinger/article/details/52819900。当然，要讨论一个问题，免不了“是什么，为什么以及怎么做”这个经典的套路。首先，什么是决策树呢？就我个人的理解，决策树就是通过一步一步的判断和决策，把数据

2016-11-13 03:08:58 4447

原创 Numpy常用操作

前言：标准安装的Python中用列表(list)保存一组值，可以用来当作数组使用，不过由于列表的元素可以是任何对象，因此列表中所保存的是对象的指针。这样为了保存一个简单的[1,2,3]，需要有3个指针和三个整数对象。对于数值运算来说这种结构显然比较浪费内存和CPU计算时间。此外Python还提供了一个array模块，array对象和列表不同，它直接保存数值，和C语言的一维数组比较类似。

2016-10-21 09:51:10 12373

原创常用的数据预处理方法

No1.标准化（Standardization or Mean Removal and Variance Scaling）变换后各维特征有0均值，单位方差。也叫z-score规范化（零均值规范化）。计算方式是将特征值减去均值，除以标准差。>>> from sklearn import preprocessing >>> X=[[1.,-1.,2.], [2.,0.,0.],

2016-10-20 20:22:40 20967 1

No4.Grandient Boosting gradient boosting（又叫Mart, Treenet)：Boosting是一种思想，Gradient Boosting是一种实现Boosting的方法，它主要的思想是，每一次建立模型是在之前建立模型损失函数的梯度下降方向。loss function（损失函数）描述的是模型的不靠谱程度，损失函数越大，则说明模型越容易出错（其实这里有一个方差

2016-10-19 18:19:06 6006

原创 Pandas常用操作

{CSDN:CODE:1934904}

2016-10-18 14:03:10 1076

原创 Ensemble learning 集成学习（一）

一.Ensemble learning（集成学习）集成学习通过构建并结合多个学习器来完成学习任务，有时也被称为多分类器系统等。要获得好的集成，个体学习器应”好而不同”,意味着个体学习器要有一定的准确性，即学习器不能太坏。并且还要有多样性，即学习器间具有差异。但是，一般准确性很高之后，要增加多样性就需要牺牲准确性。根据个体学习器的生成方式，目前的集成学习方法大致可分为两类，即个体学习器间存在强

2016-10-17 22:20:13 4922 1

原创决策树的初体验

接下来是三种经典的决策树算法的学习过程：Step1：信息熵与信息增益信息熵(information_entropy)：是度量样本集合纯度最常用的一种指标，假定当前样本集合D中第k类样本所占的比例为pk(k=1,2,…,|y|),则D的信息熵定义为: Ent(D)的值越小，则D的纯度越高。假定离散属性a有V个可能的取值{}，若使用a来对样本集D进行划分

2016-10-14 23:22:51 2219

Take it easy