自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

小雅的博客

目标没有Bug

  • 博客(25)
  • 资源 (4)
  • 收藏
  • 关注

原创 字节跳动 [编程题]用户喜好

为了不断优化推荐效果,今日头条每天要存储和处理海量数据。假设有这样一种场景:我们对用户按照它们的注册时间先后来标号,对于一类文章,每个用户都有不同的喜好值,我们会想知道某一段时间内注册的用户(标号相连的一批用户)中,有多少用户对这类文章喜好值为k。因为一些特殊的原因,不会出现一个查询的用户区间完全覆盖另一个查询的用户区间(不存在L1<=L2<=R2<=R1)。输入: 第1行为n...

2019-08-10 00:12:08 439

原创 牛客网——被3整除

小Q得到一个神奇的数列: 1, 12, 123,…12345678910,1234567891011…。 并且小Q对于能否被3整除这个性质很感兴趣。 小Q现在希望你能帮他计算一下从数列的第l个到第r个(包含端点)有多少个数可以被3整除。import syswhile True: x_y=sys.stdin.readline().strip() if x_y=='':...

2019-07-26 21:13:50 383

原创 利用GAN来为冷启动用户生成 行为特征完成yelp数据集上,冷启动垃圾识别的问题。

之前的工作总结一下,收录为2019DASFAA的短文。Generating Behavior Features for Cold-Start Spam Review Detection。文章主要是针对垃圾识别领域中冷启动用户的问题,冷启动用户指刚刚发表一条新评论的用户,此类用户没有大量的文本或者行为特征供我们进行提取。本文通过generative adversarial network(GA...

2019-06-15 16:00:53 594 1

原创 用序列标注Sequence Labeling来做event detection

借鉴Double Embeddings and CNN-based Sequence Labelingfor Aspect Extraction这篇文章,转用序列标注来做,这样可以大幅度减少数据量,但是一个缺陷是一些pooling的改进算法可能会有影响。目前借鉴上文的模型,针对ACE2005的数据集进行了处理,最终的结果大概p=68,recall=62.5,f1=65.2改进待续。...

2019-06-15 15:53:31 524

原创 event detection with CNN 复现Event Detection and Domain Adaptation with Convolutional Neural Networks

Event Detection and Domain Adaptation with Convolutional Neural Networks这篇文章的复现。使用的数据集是ACE2005英文。针对这个数据集,其中包含多个新闻文档,其中sgm为文本描述,apf为每个文档里面event,argument,trigger等的描述。这篇文章模型的主要思路是若有一个句子为L=n1,n2…n50针对...

2019-06-15 15:49:57 853 1

原创 Unigram 和bigram 对yelp数据集进行垃圾评论识别分类 python

依旧是对yelp数据集处理,之前效果不理想,后来仔细看了论文,用的是SVMlight分类器…(使用方法见上一篇文章),效果就差不多了。。。。过程就是对英文进行处理(去停用,去高频和低频),化为词袋模型,处理成SVMlight的格式,进行分类。贴部分代码。对数据处理:for c in cos: cis_2=[] id = c.split(' ')[0] con

2018-01-07 18:57:31 3412 4

原创 SVMLight 在windows下进行二分类的使用和例子 python

后来发现python貌似有接口,但是数据已经处理了就直接用了C版本的exe至于下载去官网 ,下载二进制版本(即exe),然后样例1(example1)。二进制文件夹里面有两个exe,一个是learn,一个为classify,顾名思义,一个用来训练模型,另一个是进行分类。样例1中有train和test两个文件,其中格式为 :标签+特征值 具体理解可以看下面的举例:假如有两个样本

2018-01-07 18:49:33 1060 1

原创 RESCAL+YELP 垃圾评论识别 论文算法实现

咸鱼好久……记录一下最近做的这个论文里面的重现,主要也就是对数据集的处理。论文为Learning to Represent Review with Tensor Decomposition for Spam Detection,主要就是将评论和商品两种实体的关系扩展出11种,每一种为一个三维张量,也就是说会有11个三维张量。然后把这11个三维张量投入RESCAL算法里面分解得到A和R和A^T然后A中

2017-12-19 16:48:58 4152 15

原创 Alias sampling 算法用Python实现

Line论文中采用了alias 采样算法进行优化,其源码为c++,现用Python实现一遍,加深一下印象网上有人已经用C++ 脱离LINE算法,单独实现了这个算法并且测试,可以先看看。而alias算法的原理可以看我的上一篇博客,其中包括C++源码的分析,所以Python就不加注释了。 。python代码:from gensim.models import Word2Vecimport nump

2017-11-23 17:10:59 1212

原创 Line论文中的Alias Sampling Algorithm 分析

http://blog.csdn.net/haolexiao/article/details/65157026 找了一下这篇写的最清晰了,然后结合Line的源码分析一下。原理: 原文举例如下:比如一个随机事件包含四种情况,每种情况发生的概率分别为: 12,13,112,112,问怎么用产生符合这个概率的采样方法。Alias方法按照均值1/N进行归一化,其总面积为N,并且分为1*N个长方形,每一列

2017-11-20 15:50:35 3087

转载 boost在DevC++中的安装过程

第一种比较简单,在DEV-C++的Tools菜单里选择Check for updates蔡单项,然后在弹出的对话框中选择devpaks.org Community Devpaks, 单击Check for updates按钮几秒钟后下载完毕,在Groups中选择C++ Libraries,然后在Available updates list中选择BOOST, 单击Download selected,

2017-11-13 09:22:47 673 1

原创 Doc2vec对M10语料库进行多分类 python

语料库:是文献引用关系的语料库,将文献分成10类 包含3个txt,一个是文档ID+文档标题信息,一个是文档ID之间的引用关系,一个是文档类别 语料库下载:m10do2vec和word2vec不同,直接是对文档进行训练,得到的就是一个个文档向量。 主要分为三步,一步就是提取文档信息,一步进行训练,最后分类。第一步提取比较简单 主要就是提取文档标题信息做words,然后d

2017-10-25 14:30:03 1200 6

原创 python进行文本分类,基于word2vec,sklearn-svm对微博性别分类

第一个分类任务,记录一下 语料库下载一、进行手工分类 导师给的数据是两个文件夹,一个包含了以用户ID名为标题的一大堆txt(未分类),还有一个文件夹里面是已经分类好的男女性别ID的集合txt。 先要做的任务就是将未分类的txt分成两类(根据给的已经分类的id集合txt),这个分为三步: 1、新建男女分类的空文件夹。 2、提取id集合中的id,存在两个list里面. 3、提取未分类txt的

2017-10-07 12:00:43 19561 22

转载 机器学习中的训练集,验证集及测试集的关系

Training set: A set of examples used for learning, which is to fit the parameters [i.e., weights] of the classifier. Validation set: A set of examples used to tune the parameters [i.e., architecture, n

2017-10-05 22:04:29 829 1

原创 武大计院夏令营记录2017

稍微记录下把,给来年的孩纸们一点福利233333报名方式就不说了。夏令营除了各种讲座外就是笔试+面试。笔试虽然只占20%,但还是挺重要的,因为最后面试分好像都差不多。笔试包括数学(线代、高数、概率论)、C语言程序设计和计算机网络。 其中数学感觉每年重点不一样,今年觉得侧重线代一点,不过都是考的比较简单的题目,一共10题(感觉有一题会比较难,毕竟不能拿满分嘛),其他都是很基础的,比如求逆矩阵、极限,

2017-07-23 16:33:20 870 1

原创 【Java web】利用eclipse打开并调试Java web项目,包括部署tomcat,连接数据库

(不会写就算了还不会调试 跪) 在网上下载了现成的java web项目,利用eclipse打开后,还需要进行布置环境和配置数据库+连接数据库,当然如果下载的是eclipse ee 的话应该就不用了。 其中包括设置项目的属性,部署tomcat等等。1、导入项目 利用eclipse导入存在的项目就是右键import。 如果用到了servlet包,会发现项目有错,提示没有这个包,这个时候需要下载这

2017-06-21 21:47:41 3093

原创 windows7 C语言打印目前进程列表、删除一个进程、显示一个进程地址。

#include <windows.h>#include <tlhelp32.h> // 声明快照函数的头文件#include <stdio.h>#include <stdlib.h> int main(int argc, char* argv[]){ //用来存放快照进程信息的一个结构体。(存放进程信息和调用成员输出进程信息) PROCESSENTRY32 pe

2017-05-21 20:42:23 1049

原创 windows7 安装python +nltk

安装python的教程很多不赘述 安装nltk先安装pip,可以在官网下载tar.gz结尾的压缩包,然后解压。 下一步用命令行进入解压的文件夹,python setup.py install 。 然后配置环境变量,把python下scripts文件夹的路径添加到path变量中即可。在命令行中Pip一下可以看到Pip已经安装成功~ 接下来pip install nltk即可。 然后进入pyt

2017-04-30 11:23:20 493 1

原创 windbg查看文件的PTE和PDE

1、下载好windbg,设置好变量symbols(去官网下载对应版本的symbols)2、进入kernel debug模式的本机调试(内核调试模式),我是在xp虚拟机下进行的。3、用!process 0 0命令打印当前所有的进程信息,找到我们的exe信息(这里是hello.exe) 4、先.process 81c39020进入进程5、!pte 81c39020打印此处的PTE和PDE 6、得

2017-04-13 18:22:25 2745

原创 java简易扑克牌游戏,慕课第三季作业

要求:1、创建牌,分四个花色,每个花色13张,没有大小王2、创建玩家,玩家有ID和姓名,每个人两张牌3、洗牌,打乱牌序 利用Collections.shuffle方法,加个随机数循环多次洗牌,保证不重复。4、发牌,发前四张5、游戏规则:每个人选出两张中最大的进行比较,大的胜利(若大小相等则比较花色)过程:1、分为Card类,Player类,Game主类2、Game类中包含CreateCards();

2017-03-26 21:02:04 2814 1

原创 利用winhex在NTFS文件系统下定位文件,找到其目录项和簇号等等

软件安全的实验,记录一下,首先需要对NTFS文件系统有了解,有时间的推荐先看这篇博客一、NTFS需要的基础1、MFT:磁盘上的所有数据都是以文件的形式存储,其中包括元文件。 每个文件都有一个或多个文件记录,每个文件记录占用两个扇区 $MFT元文件就是专门记录每个文件的文件记录。 其中第五个目录是根目录的文件记录。 第一个目录是MFT本身的文件记录。2、簇号: NTFS文件系统使用逻辑簇号(LCN)和

2017-03-26 20:49:48 30446 6

原创 Windows XP下OpenSSL 安装+OPENSSL编程 椭圆曲线ECC函数

非原创,懒得搬运了(泪) 链接留下很详细的讲解了函数Windows XP下OpenSSL 安装,亲测有效(笑哭)

2017-03-26 20:43:53 365

原创 Miracl在VC++6.0中的配置和使用

一、Miracl库是大数运算函数库,用来设计与大数运算相关的密码学之应用,包含了RSA 公开密码学、Diffie-Hellman密钥交换(Key Exchange)、AES、DSA数字签名,还包含了较新的椭圆曲线密码学(Elliptic CurveCryptography)等等。运算速度快,并提供源代码。二、下载Miracl 密码ecee三、配置将Mircal中Include中的miracl.h和m

2017-03-26 20:42:41 3438 3

原创 java_简陋租车系统

终于看完了前两季视频,根据作业要求做出了一个特别丑陋的哒哒租车系统啦~感觉很粗暴,还有很多需要优化的地方,今天先到这里,明天去慕友那看看能不能改进了QAQ 还有一些地方不是很清楚,比如接口,方法、类直接还有点晕QAQ哒哒租车系统功能:1、展示所有可租的车辆 2、选择车型和车量 3、展示租车清单分析:利用父类子类,车作为父类,分为三个子类(载人的车,载货的车,皮卡)。其中父类作为抽象类,只定义规范,子

2017-03-26 20:40:13 466

原创 利用腾讯云1元机和服务市场wordpress快速搭建个人博客

个人博客:http://www.xiaoyatang.cc/ 欢迎交流访问 (发现个人博客很难被百度收录,决定还是在这里继续搭窝)记录一下自己利用腾讯云主机和腾讯服务市场wordpress博客平台,来快速搭建个人博客的过程。作为一个小白,首先做的是网上搜教程啦,然后参考→教程链接,大部分都可以参考,但是最后的wordpress的配置不太一样。具体搭建步骤包括:1、购买腾讯云主机(学生可以享受1元学

2017-03-26 20:35:01 1297

M10语料库+论文

M10语料库+论文 论文里面的语料库 以及论文的原文 为什么要50字。。。

2017-10-25

文本分类微博性别分类数据语料库

文本分类微博性别分类数据语料库

2017-10-12

C语言完成NTFS系统的文件定位和打印簇号

下载后需要改动一下数据,才能运行

2017-03-26

智能卡的基本资料

智能卡的基本资料

2017-03-26

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除