snailpeople的博客

data studying

自定义博客皮肤

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

分位数和箱线图

1.什么是分位数? 简单说就是指将一个随机变量的概率分布范围分为几个等份的数值点,常用的有中位数(即二分位数)、四分位数、百分位数等。 Q1-数据中有25%个数据都比它小,第一分位数 Q2-中位数 Q3-数据中有75%个数据都比它小,第三分位数 箱线图: 箱线图可以从侧面看出异常值和数据的分布情...

2019-05-30 21:10:20

阅读数 155

评论数 0

NLP实践八-----RNN

文章目录RNN的结构 RNN的结构 RNN的出现主要是为了解决序列信息的,比如nlp句子单词的顺序对句子的影响很大,普通的神经网络无法处理类似的问题。 下图表示循环神经网络的基本结构: 描述当前状态的循环递归公式如下: 这里h_t是t时刻的状态, h_{t-1}是前一时刻的状态,x_t是当前的...

2019-05-28 18:40:01

阅读数 18

评论数 0

NLP实践七-----卷积神经网络

文章目录卷积原理卷积一维卷积二维卷积卷积核的步长padding池化textcnn原理介绍:https://www.cnblogs.com/bymo/p/9675654.html代码实践 卷积原理 卷积神经网络是受生物学上感受野的机制而提出。感受野(Receptive Field) 主要是指听觉、视...

2019-05-27 16:45:46

阅读数 32

评论数 0

NLP实践五-----nn基础(fasttext实践)

文章目录简要原理 简要原理 fastText的两个任务是分类和训练词向量,传统的word2vec把语料库的每个单词当作原子的,为每个单词生成一个词向量,而fastText是对每个字符进行处理的,也就是字符级别的n_gram:参考:https://www.zhihu.com/search?type=...

2019-05-24 20:20:27

阅读数 29

评论数 0

python 安装.whl文件怎么选格式

whl文件地址:https://www.lfd.uci.edu/~gohlke/pythonlibs/ 怎么看自己支持的格式: 在终端输入python: 文件后缀cp表示版本python,win64就是64位的,fasttext‑0.8.22‑cp37‑cp37m‑win_amd64.whl 就...

2019-05-24 18:34:28

阅读数 63

评论数 0

NLP实践五-----nn基础

文章目录激活函数深度学习中的正则化深度模型中的优化1.权重初始化2.自适应学习率算法 激活函数 概念:激活函数是对某一个隐藏层的结点进行非线性激活操作,分为以下步骤: (1)输入该节点的值为 x1,x2 时,在进入这个隐藏节点后,会先进行一个线性变换,计算出值 z[1]=w1x1+w2x2+b[1...

2019-05-22 18:52:12

阅读数 38

评论数 0

NLP实践五-----朴素贝叶斯,SVM,LDA主题模型

朴素贝叶斯 1. 原理 朴素贝叶斯的原理是基于贝叶斯定理的,我们要求的就是后验概率P(Cj|x),这里x就是特征向量,Cj就是类别j,后验概率最大的P(Cj|x)对于的类j就是样本特征为x对于的类别,其中我认为它的假设是最影响它的分类效果的原因,这就是我们看到朴素贝叶斯在不同样本分类的效果会有很大...

2019-05-21 12:24:18

阅读数 35

评论数 0

NLP实践四-----词袋模型 + 词向量 + word2vec

Task4 文本表示:从one-hot到word2vec (2 days) 词袋模型:离散、高维、稀疏。 分布式表示:连续、低维、稠密。word2vec词向量原理并实践,用来表示文本。 参考: word2vec 中的数学原理详解(一)目录和前言 - peghoty - CSDN博客 https:...

2019-05-18 18:14:19

阅读数 163

评论数 0

NLP实践三-----特征选择

通过对句子的预处理,拿 中文来说,去标点,去停用词,分词后,我们可以表示出文本的特征了,当然这里还需要截取句子的长度,因为文本有长有短,机器学习需要输入相同长度的向量特征,然后基础的就是将文本向量化,比如每个单词出现的频数,这个的不足是可能有一些词出现的次数很高,但是它对文本的作用可能并没有那么大...

2019-05-15 22:15:59

阅读数 26

评论数 0

python 时间操作--数据分析

记录python 对时间的操作整理,数据分析使用 #pd.to_datatime() 可以将str类型的直接转换成datatime 类型的数据,便于数据分析,format根据str的格式自己调整就好了 action['action_time']=pd.to_datetime(action['ac...

2019-05-15 16:25:18

阅读数 15

评论数 0

NLP实践二----语言处理技术

基本文本处理技能:中英文字符串处理(删除不相关的字符、去停用词);分词(结巴分词);词、字符频率统计。 语言模型;unigram、bigram、trigram频率统计。 结巴分词介绍和使用 1.中英文字符串处理 #直接使用apply函数食用更佳 def word_clear(s): wo...

2019-05-14 22:45:12

阅读数 16

评论数 0

NLP实践一----数据探索

cnews 数据 import sys from collections import Counter import numpy as np import tensorflow.contrib.keras as kr #读取文本 def read_file(filename): ...

2019-05-11 22:06:26

阅读数 27

评论数 0

xgb参数自用

2019-04-24 19:34:59

阅读数 49

评论数 0

xgb lgb 自定义评价函数差别

关于xgb lgb自定义评价函数,其实是区别的, 但步骤都是一样的 XGB: #自定义评价函数---适用于XGBClassifier #preds是预测结果概率-但是需要转换成label #dtrain是xgb的矩阵,使用get_label() 可获取到真实的label def get_f1 (p...

2019-04-23 20:42:35

阅读数 681

评论数 0

numpy 操作记录

记录平时使用的numpy的一些操作 参考文章:numpy 生成ndarray np.arange(start,end,step) ------前闭后开,与range类似,但是支持小数。 np.random 随机选择元素:np.random.choice(t,size,replace=Tu...

2019-04-11 09:38:51

阅读数 17

评论数 0

线性回归 ------矩阵解释和投影矩阵解释

矩阵解释线性回归:

2019-04-10 19:35:15

阅读数 134

评论数 0

python中的随机数

python 中的随机数 python中有很多功能可以返回随机数,这里自己整理一下 使用自带的random import random print(random.random()) #[0,1)的随机数,浮点数 print(random.randint(1,100)) #[1,100...

2019-04-09 14:59:56

阅读数 139

评论数 0

pd.merge

参考博文:https://blog.csdn.net/brucewong0516/article/details/82707492

2019-01-18 18:49:24

阅读数 330

评论数 0

ndarray运算记录

关于ndarray对象的很多计算方法都有一个axis参数,它有如下作用: 当axis=None(默认)时,数组被当成一个一维数组,对数组的计算操作是对整个数组进行的,比如sum方法,就是求数组中所有元素的和; 当axis被指定为一个int整数时,对数组的计算操作是以提供的axis轴进行的。 ...

2019-01-15 17:07:12

阅读数 41

评论数 0

knn算法知识

knn算法是属于监督学习的一种算法,简单来说就是根据预测样本和训练样本的距离来进行分类或者回归。 1.k值的选择: 若k较小,模型的复杂度较高,容易发生过拟合 若k较大,与输入实例较远的训练样本也会起预测作用,是预测误差变大。 通常采用交叉验证法来选取最优的k值。 2.距离的度量主要有欧式距离,...

2019-01-11 22:08:28

阅读数 19

评论数 0

提示
确定要删除当前文章?
取消 删除