- 博客(5)
- 资源 (7)
- 收藏
- 关注
原创 使用deeplearning4j训练Doc2Vec(文档向量)
本文作者:合肥工业大学 管理学院 钱洋 email:1563178220@qq.com 内容可能有不到之处,欢迎交流。未经本人允许禁止转载。在上一小节中,本人介绍了使用DeepLearning4J训练得到词向量(https://blog.csdn.net/qy20115549/article/details/82152462)。本篇主要介绍给定任意文本数据(分词后的数据),如何使用Deep...
2018-08-28 21:30:37 2974
原创 使用deeplearning4j训练Word2Vec(Java操作)
DeepLearning4J(DL4J)是一套基于Java语言的神经网络工具包,可以构建、定型和部署神经网络。本文训练的数据集是deeplearning4j中的自带数据集,数据表示如下: 对应的Word2Vec操作程序如下:package org.deeplearning4j.examples.nlp.word2vec;import org.deeplearning4j....
2018-08-28 18:23:53 4409 2
原创 gensim实现Doc2Vec和Word2Vec
在处理文本时,经常需要将其转化成向量的形式,然后去做分类和聚类,而word2vec和doc2vec方法是一种较为常用的方法。 在python的gensim包中实现了这两种算法,为了以后个人使用方便,这里写成博客,以供翻阅。 以下为数据集的形式: 每一行的每一个数字表示词的编号,这里也可以用具体的词。且数据保存在工程的/data/test.txt文本里。以下为Doc2vec的处理程...
2018-08-28 10:56:37 2686 3
原创 华为笔试题
今天,帮同学看了到华为的笔试题,题目如下:举办一场8小时的聚会,时间段从12:00到20:00点,让来访的客人事先填好到达的时间和离开的时间,为了掌握聚会期间的座位数目,需要先估计不同时间的最大客人数量。 1.到达和离开的时间,以整点计算,输入为整数,比如“12,18”表示客人到达的时间为12点后13点前,离开的时间是17点后18点前。 2.按小时区间统计客人的数量,需要统计[12,13)...
2018-08-15 21:53:48 3394 1
Probabilistic Graphical Models - Principles and Techniques.pdf
2017-01-14
Java多线程网络爬虫(时光网为例)源码
2016-10-20
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人