word2vec
accumulate_zhang
我好像什么都不会,真的!!!
展开
-
用Word2vec训练中文wiki,构造词向量并做词聚类
l利用word2vec训练中文wiki,构造词向量,并搞搞词聚类。原创 2016-09-25 14:57:01 · 17054 阅读 · 2 评论 -
当用python读取几十万行文本时
我在使用python读取几十万行的文件中的数据,并构造字典,列表等数据结构时,再访问字典,列表时,一般都会出现内存不够的问题,然后只能循环读取几百行或者一定数量的行数来循环操作。keyword_list=[line.strip() for line in open("keywords.txt",'r')]#f1=open("part_wiki_vec.txt",'r')f1=open("wik原创 2016-09-29 21:56:44 · 4553 阅读 · 0 评论 -
清华THULAC分词软件python版使用
在使用结巴分词时候感觉在实验时候不太准确,所以试试其他的分词软件。大概去年五月份接触清华这个分词软件,不过当时没学过python,其他语言也用的不好,所以对如何编译和安装它显得十分笨重,所以今天再次去倒腾这些,发现编译安装挺简单,这说明我比以前有进步啊!哈哈,还是多学点东西,多自己倒腾,这样好好很多。 具体安装编译看http://thulac.thunlp.org/,上面有步骤,下载相原创 2017-03-21 22:46:30 · 16704 阅读 · 12 评论 -
使用gensim中的lda模型训练主题分布
一直在寻找各种大神的LDA算法,不过调试一直没有成功,最后还是选择使用gensim的LDA工具来训练自己的文本数据吧。#coding=utf-8import codecsfrom gensim import corporafrom gensim.models import LdaModelfrom gensim.corpora import Dictionaryfr=open('cl原创 2017-03-16 22:32:41 · 25413 阅读 · 28 评论 -
关于gensim的Word2vec的相关函数
转载地址:http://blog.csdn.net/lk7688535/article/details/52798735#comments版权声明:本文为博主原创文章,转载时请注明出处URL,谢谢大家~目录(?)[-]准备工作gensim介绍以后用上其他模型的时候再介绍今天我们来体验word2vec训练词向量时传入的两个参数也对训练效果有很大转载 2017-06-02 09:17:01 · 2676 阅读 · 0 评论 -
用gensim导入word2vec词向量bin文件,出现字符编码
首先抛出我遇到的问题。我训练了一个词向量文件,得到了一个二进制文件,model.bin,然后准备调用gensim来测试bin文件里面的词向量效果怎么样,于是就导入这个模型。import gensim# 导入模型model = gensim.models.KeyedVectors.load_word2vec_format('t8model.bin',binary=True)原创 2017-11-05 15:11:37 · 7024 阅读 · 10 评论 -
bert-as-service三行代码使用bert模型
bert火了,许多应用都可以直接使用bert模型生成embedding。今天记录下很好用的工具,bert-as-service。我的环境是在macOS下的。先一顿pip,pip install bert-serving-server # serverpip install bert-serving-client # client, independent of `bert...原创 2019-04-10 16:07:06 · 20401 阅读 · 16 评论