关闭
当前搜索:

python-keras文本分类:pretrain词向量+1D卷积神经网络

基于keras实现 利用之前训练好的词向量,基于keras使用1D卷积神经网络完成文本分类任务准备工作 1:训练好的词向量 2:用于训练的文本(已完成分词,每篇文章且还有对应的label)from __future__ import print_function import os import sys import numpy as np from keras.preprocessing.t...
阅读(64) 评论(0)

python-GBDT算法基本思想

GBDT的基本思想是:“积硅步以致千里” 也就是说我每次都只学习一点,然后一步步的接近最终要预测的值(完全是gradient的思想),换句话说,我们先用一个初始值来学习一颗决策树,叶子出可以得到预测值,以及预测之后的残差,然后后面的决策树就要基于前面决策树的残差来学习,直到预测值和真实值的残差为零,最终对预测样本的预测值,就是前面许多颗决策树预测值的累加。这个过程都是每次学习一点,最后累加,所以叫做...
阅读(51) 评论(0)

python-adaboost见解分析2

boosting算法系列的基本思想如下图: 从图中可以看出,Boosting算法的工作机制是首先从训练集用权重训练出一个弱分类器1,根据弱分类器的学习误差率表现来更新训练样本的权重,使得之前弱分类器1学习误差率搞的训练样本点的权重变高,使得这些误差率高的点在后IM哎你的弱分类器2中得到更过的重视,然后基于调整权重后的训练集来训练弱分类器2,如此重复进行,直到弱分类器达到实现指定的数据T,最终这T个...
阅读(30) 评论(0)

python_Adaboost算法原理_初版

运行过程如下: 训练数据中的每个样本,并赋予其一个权重,这些权重构成了向量D,一开始这些权重都初始化成相等值。首先在训练数据上训练处一个弱分类器并计算该分类器的错误率,然后在同一个数据集上在训练弱分类器。在分类器的第二次训练当中,将会调整每个样本的权重,其中第一次分对的样本的权重将会降低,而第一次分错的样本的权重将会提高。为了从所有弱分类器中得到最终的分类结果,Adaboost为每一个分类器都分配...
阅读(26) 评论(0)

机器学习算法-朴素贝叶斯算法

朴素贝叶斯简述 朴素贝叶斯是一种简单但是非常强大的线性分类器,它在垃圾邮件分类、疾病诊断中都已经取得了很大的成功,它之所以称为朴素,是因为它假设特征之间是互相独立的,但是在现实生活中,这种假设基本上是不成立的,那么即使是假设的不成立的条件下,它依然表现良好,尤其是在小规模样本的情况下,但是,如果每个特征之间有很强的关联性和非线性问题会导致贝叶斯模型很差的分类效果。贝叶斯公式为: p(y|x)=p...
阅读(39) 评论(0)

python__tile函数的用法

tile() 函数的格式tile(A,reps) A和reps都是array_like >>> tile(1,2) array([1, 1]) >>> tile((1,2,3),3) array([1, 2, 3, 1, 2, 3, 1, 2, 3]) >>> tile(a,2) array([[1, 2, 3, 1, 2, 3], [4, 5, 5, 4, 5, 5]]) >>> b...
阅读(42) 评论(0)

python--数据字典的一些用法

a = {'a':2,'c':4,'b':5} 1:dict.copy:返回一个字典的浅复制 2:dict.get(key,default=None):返回指定键的值,如果值不在字典中返回default值) a.get('a')3:dict.has_key(key):如果键在字典dict里返回true,否则返回false 4:dict.keys() 5:dict.items() :以列表的形式返回遍...
阅读(79) 评论(0)

python--对比两个Excel不同

########################### #对比两个版本的Excel数据的异同 ########################### import xlrd import xlwt import os l_p = [] #定义两个全局list,分别存储原始和目的需要对比的数据 l_t = [] def read_excel(): wb_pri = xlrd.open_work...
阅读(209) 评论(0)

pandas--系列之groupby

闲话少说直接上代码和思路import numpy as np import pandas as pd df = pd.DataFrame({'key1':list('aabba'), 'key2': ['one','two','one','two','one'], 'data1': np.random.randn(5),...
阅读(45) 评论(0)

基于双向LSTM的seq2seq字标注

事不宜迟,动手最重要。词向量维度用了128,句子长度截断为32(抛弃了多于32字的样本,这部分样本很少,事实上,用逗号、句号等天然分隔符分开后,句子很少有多于32字的。)。这次我用了5tag,在原来的4tag的基础上,加上了一个x标签,用来表示不够32字的部分,比如句子是20字的,那么第21~32个标签均为x。在数据方面,我用了Bakeoff 2005的语料中微软亚洲研究院(Microsoft Re...
阅读(55) 评论(0)

中文分词系列总结

目前中文分词主要有两种思路:查词典和字标注。首先,查词典的方法有:机械的最大匹配法、最少词数法,以及基于有向无环图的最大概率组合,还有基于语言模型的最大概率组合,等等。查词典的方法简单高效(得益于动态规划的思想),尤其是结合了语言模型的最大概率法,能够很好地解决歧义问题,但对于中文分词一大难度——未登录词(中文分词有两大难度:歧义和未登录词),则无法解决;为此,人们也提出了基于字标注的思路,所谓字标...
阅读(30) 评论(0)

介绍两个python库

1:pqdm 主要是用来显示进度条的,而且基本不影响源程序效率。from time import sleep from tqdm import tqdm for i in tqdm(range(1000)): sleep(0.01)2:retry 顾名思义这是一个实现重试的。很多时候我们都需要重试功能,比如写爬虫的时候,有时候就会出现网络问题导致爬虫失败,然后就需简要重试了from re...
阅读(31) 评论(0)

文本情感分类(四)

文本情感分类其实是一个二分类的问题,事实上,对于分类模型,都会存在这样一个毛病,优化目标跟考核指标不一致。通常来说,对于分类,我们都会采用交叉熵作为损失函数,他的来源就是最大似然估计,但是,我们最后的评估目标,并非要看交叉熵有多小,而是看模型的准确率,一般来说,交叉熵很小,准确率也会很高,但是这个关系并非必然的。...
阅读(60) 评论(0)

文本情感分类(三):到底需不需要分词

深度学习是一种“端到端”的模型,所谓端到端就是能够将原始数据和标签输入,然后让模型自己完成一切过程-包括特征的提取、模型的学习。。而回顾我们做中文情感分类的过程,一般都是“分词——词向量——句向量(LSTM)——分类”这么几个步骤。虽然很多时候这种模型已经达到了state of art的效果,但是有些疑问还是需要进一步测试解决的。对于中文来说,字才是最低粒度的文字单位,因此从“端到端”的角度来看,应...
阅读(67) 评论(0)

文本情感分类(二)

该篇文章中,主要探讨关于深度学习解决自然语言问题。 深度学习与自然语言处理 近年来,深度学习算法被应用到了自然语言处理领域,获得了比传统模型更优秀的成果。 在自然语言处理中,最核心的一个问题是,如何把一个句子用数字的形式有效的表达出来?如果能够完成这一步,句子的分类就不成问题了。显然,一个最初的思路是:给每个词语赋予唯一的编号1,2,3,4…,然后把句子看成是编号的集合,比如假设1,2,3,4...
阅读(94) 评论(0)
92条 共7页1 2 3 4 5 ... 下一页 尾页
    个人资料
    • 访问:51149次
    • 积分:1127
    • 等级:
    • 排名:千里之外
    • 原创:47篇
    • 转载:42篇
    • 译文:3篇
    • 评论:2条
    最新评论