自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(8)
  • 收藏
  • 关注

原创 基于Attention Model的Aspect level文本情感分类---用Python+Keras实现

1、关于aspect level的情感分析给定一个句子和句子中出现的某个aspect,aspect-level 情感分析的目标是分析出这个句子在给定aspect上的情感倾向。Aspect level的情感分析相对于document level来说粒度更细。

2016-12-27 17:49:02 12805 10

原创 win10+64位 安装Theano并实现GPU加速

一.安装Anaconda我使用的Anaconda是对应的python2.7 配置环境变量:用户变量中的path变量(如果没有就新建一个),在后边追加C:\Anaconda;C:\Anaconda\Scripts; 不要漏掉分号,此处根据自己的Anaconda安装目录填写。二.安装MinGw打开cmd, 输入conda install mingw libpython,然后回车,会出现安装进度。

2016-11-23 23:01:55 775 1

原创 文本分类的python实现-基于Xgboost算法

描述训练集为评论文本,标签为 pos,neu,neg三种分类,train.csv的第一列为文本content,第二列为label。python的xgboost包安装方法,网上有很多详细的介绍参数XGBoost的作者把所有的参数分成了三类:1、通用参数:宏观函数控制。2、Booster参数:控制每一步的booster。3、学习目标参数:控制训练目标的表现。

2016-10-29 22:31:40 8676 11

原创 文本分类的python实现-基于SVM算法

描述训练集为评论文本,标签为 pos,neu,neg三种分类,train.csv的第一列为文本content,第二列为label。可以单独使用SVC训练然后预测,也可以使用管道pipeline把训练和预测放在一块。SVC的惩罚参数C:默认值是1.0。C越大,对误分类的惩罚增大,趋向于对训练集全分对的情况,这样对训练集测试时准确率很高,但泛化能力弱。C值小,对误分类的惩罚减小,允许容错,泛化能力较

2016-10-29 20:59:27 21137 22

原创 Python读取csv的常用方法

csv是Comma-Separated Values的缩写,是用文本文件形式储存的表格数据

2016-10-20 11:32:59 5805

原创 词性标注的python实现-基于平均感知机算法

平均感知机算法(Averaged Perceptron)感知机算法是非常好的二分类算法,该算法求取一个分离超平面,超平面由w参数化并用来预测,对于一个样本x,感知机算法通过计算y = [w,x]预测样本的标签,最终的预测标签通过计算sign(y)来实现。算法仅在预测错误时修正权值w。 平均感知机和感知机算法的训练方法一样,不同的是每次训练样本xi后,保留先前训练的权值,训练结束后平均所有权值。

2016-10-06 16:43:37 5312 1

原创 中文分词的python实现-基于HMM算法

隐马尔科夫模型(HMM)模型介绍HMM模型是由一个“五元组”组成:StatusSet: 状态值集合ObservedSet: 观察值集合TransProbMatrix: 转移概率矩阵EmitProbMatrix: 发射概率矩阵InitStatus: 初始状态分布

2016-09-29 23:44:55 13498 22

原创 中文分词的python实现-基于FMM算法

正向最大匹配算法(FMM)正向最大匹配算法(FMM)是一种基于词典的分词方法,思想很简单就是从左向右扫描寻找词的最大匹配,比如词典中同时含有“钓鱼”和“钓鱼岛”,那“钓鱼岛属于中国”就会被分词成“钓鱼岛/属于/中国”

2016-09-28 19:44:05 5531 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除