机器学习
??.0427
目标是??成为一名程序媛??
展开
-
机器学习中的训练集,验证集及测试集的关系
Training set: A set of examples used for learning, which is to fit the parameters [i.e., weights] of the classifier. Validation set: A set of examples used to tune the parameters [i.e., architecture, n转载 2017-10-05 22:04:29 · 829 阅读 · 1 评论 -
用序列标注Sequence Labeling来做event detection
借鉴Double Embeddings and CNN-based Sequence Labelingfor Aspect Extraction这篇文章,转用序列标注来做,这样可以大幅度减少数据量,但是一个缺陷是一些pooling的改进算法可能会有影响。目前借鉴上文的模型,针对ACE2005的数据集进行了处理,最终的结果大概p=68,recall=62.5,f1=65.2改进待续。...原创 2019-06-15 15:53:31 · 524 阅读 · 0 评论 -
event detection with CNN 复现Event Detection and Domain Adaptation with Convolutional Neural Networks
Event Detection and Domain Adaptation with Convolutional Neural Networks这篇文章的复现。使用的数据集是ACE2005英文。针对这个数据集,其中包含多个新闻文档,其中sgm为文本描述,apf为每个文档里面event,argument,trigger等的描述。这篇文章模型的主要思路是若有一个句子为L=n1,n2…n50针对...原创 2019-06-15 15:49:57 · 854 阅读 · 1 评论 -
Unigram 和bigram 对yelp数据集进行垃圾评论识别分类 python
依旧是对yelp数据集处理,之前效果不理想,后来仔细看了论文,用的是SVMlight分类器…(使用方法见上一篇文章),效果就差不多了。。。。过程就是对英文进行处理(去停用,去高频和低频),化为词袋模型,处理成SVMlight的格式,进行分类。贴部分代码。对数据处理:for c in cos: cis_2=[] id = c.split(' ')[0] con原创 2018-01-07 18:57:31 · 3413 阅读 · 4 评论 -
SVMLight 在windows下进行二分类的使用和例子 python
后来发现python貌似有接口,但是数据已经处理了就直接用了C版本的exe至于下载去官网 ,下载二进制版本(即exe),然后样例1(example1)。二进制文件夹里面有两个exe,一个是learn,一个为classify,顾名思义,一个用来训练模型,另一个是进行分类。样例1中有train和test两个文件,其中格式为 :标签+特征值 具体理解可以看下面的举例:假如有两个样本原创 2018-01-07 18:49:33 · 1062 阅读 · 1 评论 -
RESCAL+YELP 垃圾评论识别 论文算法实现
咸鱼好久……记录一下最近做的这个论文里面的重现,主要也就是对数据集的处理。论文为Learning to Represent Review with Tensor Decomposition for Spam Detection,主要就是将评论和商品两种实体的关系扩展出11种,每一种为一个三维张量,也就是说会有11个三维张量。然后把这11个三维张量投入RESCAL算法里面分解得到A和R和A^T然后A中原创 2017-12-19 16:48:58 · 4152 阅读 · 15 评论 -
Alias sampling 算法用Python实现
Line论文中采用了alias 采样算法进行优化,其源码为c++,现用Python实现一遍,加深一下印象网上有人已经用C++ 脱离LINE算法,单独实现了这个算法并且测试,可以先看看。而alias算法的原理可以看我的上一篇博客,其中包括C++源码的分析,所以Python就不加注释了。 。python代码:from gensim.models import Word2Vecimport nump原创 2017-11-23 17:10:59 · 1212 阅读 · 0 评论 -
Line论文中的Alias Sampling Algorithm 分析
http://blog.csdn.net/haolexiao/article/details/65157026 找了一下这篇写的最清晰了,然后结合Line的源码分析一下。原理: 原文举例如下:比如一个随机事件包含四种情况,每种情况发生的概率分别为: 12,13,112,112,问怎么用产生符合这个概率的采样方法。Alias方法按照均值1/N进行归一化,其总面积为N,并且分为1*N个长方形,每一列原创 2017-11-20 15:50:35 · 3087 阅读 · 0 评论 -
boost在DevC++中的安装过程
第一种比较简单,在DEV-C++的Tools菜单里选择Check for updates蔡单项,然后在弹出的对话框中选择devpaks.org Community Devpaks, 单击Check for updates按钮几秒钟后下载完毕,在Groups中选择C++ Libraries,然后在Available updates list中选择BOOST, 单击Download selected,转载 2017-11-13 09:22:47 · 673 阅读 · 1 评论 -
Doc2vec对M10语料库进行多分类 python
语料库:是文献引用关系的语料库,将文献分成10类 包含3个txt,一个是文档ID+文档标题信息,一个是文档ID之间的引用关系,一个是文档类别 语料库下载:m10do2vec和word2vec不同,直接是对文档进行训练,得到的就是一个个文档向量。 主要分为三步,一步就是提取文档信息,一步进行训练,最后分类。第一步提取比较简单 主要就是提取文档标题信息做words,然后d原创 2017-10-25 14:30:03 · 1200 阅读 · 6 评论 -
python进行文本分类,基于word2vec,sklearn-svm对微博性别分类
第一个分类任务,记录一下 语料库下载一、进行手工分类 导师给的数据是两个文件夹,一个包含了以用户ID名为标题的一大堆txt(未分类),还有一个文件夹里面是已经分类好的男女性别ID的集合txt。 先要做的任务就是将未分类的txt分成两类(根据给的已经分类的id集合txt),这个分为三步: 1、新建男女分类的空文件夹。 2、提取id集合中的id,存在两个list里面. 3、提取未分类txt的原创 2017-10-07 12:00:43 · 19564 阅读 · 22 评论 -
利用GAN来为冷启动用户生成 行为特征完成yelp数据集上,冷启动垃圾识别的问题。
之前的工作总结一下,收录为2019DASFAA的短文。Generating Behavior Features for Cold-Start Spam Review Detection。文章主要是针对垃圾识别领域中冷启动用户的问题,冷启动用户指刚刚发表一条新评论的用户,此类用户没有大量的文本或者行为特征供我们进行提取。本文通过generative adversarial network(GA...原创 2019-06-15 16:00:53 · 594 阅读 · 1 评论