- 博客(19)
- 资源 (1)
- 收藏
- 关注
原创 gensim(四)--word2vec embedding
训练并保存模型def train_savemodel(): model = Word2Vec(PathLineSentences(directory), size=400, window=5, min_count=5, workers=multiprocessing.cpu_count(), sg=1, # 使用 skip-gram算法 ...
2019-12-30 16:21:15 801
原创 gensim(三)--相似度查询
这篇主题是查询相似的文档和前文一样,先把文档转换为向量表示from collections import defaultdictfrom gensim import corporadocuments = [ "Human machine interface for lab abc computer applications", "A survey of user opin...
2019-12-26 17:42:14 799
原创 gensim(二)--语料与向量之间转换
这篇文章演示如何把文本转换为向量表示,以及语料库文档流式处理并保存到硬盘上。import loggingfrom pprint import pprintfrom collections import defaultdict# 设置日志格式,日志级别logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s'...
2019-12-26 16:22:56 673
原创 sess.run()
session.run()session.run([fetch1, fetch2])import tensorflow as tfstate = tf.Variable(0.0,dtype=tf.float32)one = tf.constant(1.0,dtype=tf.float32)new_val = tf.add(state, one)update = tf.assign(st...
2019-12-24 22:12:35 639
原创 springboot 文件上传
在application.properties中配置,限制文件大小# 上传文件总的最大值spring.servlet.multipart.max-request-size=1MB# 单个文件的最大值spring.servlet.multipart.max-file-size=1MBspring.http.multipart.max-file-size=1MB@PostMapping(...
2019-12-24 17:22:20 238
原创 gensim(一)--core
训练模型,原始文本是使用jieba分词后的语料model = Word2Vec(LineSentence('jieba_zhu1'), size=400, window=5, min_count=5, workers=multiprocessing.cpu_count()) model.save('model/zhu.model') model.wv.save_word2vec...
2019-12-24 13:26:38 345
原创 Java读取控制台输入
长时间没用这个,忽然用起的时候,忘了怎么写,记录下public static void main(String[] args) throws IOException { List<String> lines=null; try{ lines=FileUtils.readLines(new File(file),Charsets....
2019-12-23 15:46:41 177
原创 word2vec_java源码解析
第一步,读取语料(已经分过词),把每个词出现的频率放在wordMap中。private void readVocab(File file) throws IOException { MapCount<String> mc = new MapCount<>(); try (BufferedReader br = new BufferedReader(new ...
2019-12-21 10:34:19 333
原创 THULAC 词性表
THULAC(THU Lexical Analyzer for Chinese)由清华大学自然语言处理与社会人文计算实验室研制推出的一套中文词法分析工具包,具有中文分词和词性标注功能。...
2019-12-19 09:55:28 1638
原创 python 文件操作
把一个set写入文件中,如果文件不存在则创建,w+表示可读可写with open(file='jieba_zhuxian',encoding='utf-8',mode='w+') as file: for name in names: file.write(name+'\n')符号含义如果文件不存在覆盖w+可读可写创建是r+可读可...
2019-12-18 21:50:15 115
原创 MySQL的四种BLOB类型大小
在Java中都对应 byte[]类型 大小(单位:字节)TinyBlob 最大 255Blob 最大 65KMediumBlob 最大 16MLongBlob ...
2019-12-18 16:28:21 6359
原创 pkuseg分词的词性表
n 名词t 时间词s 处所词f 方位词m 数词q 量词b 区别词r 代词v 动词a 形容词z 状态词d 副词p 介词c 连词u 助词y 语气词e 叹词o 拟声词i 成语l 习惯用语j 简称h 前接成分k 后接成分g 语素x 非语素字w 标点符号...
2019-12-18 16:04:40 2039
原创 Jieba分词词性标注以及词性说明
原文链接:https://blog.csdn.net/enter89/article/details/80619805Ag形语素形容词性语素。形容词代码为 a,语素代码g前面置以A。a形容词取英语形容词 adjective的第1个字母。ad副形词直接作状语的形容词。形容词代码 a和副词代码d并在一起。an名形词具有名词功能的形容词。形容词代码 a和名词代码n并在一起。b...
2019-12-18 08:25:21 1083
转载 熵计算公式
如果一个随机变量XX的可能取值为X={x1,x2,…,xn}X={x1,x2,…,xn},对应的概率为p(X=xi)(i=1,2,…,n)p(X=xi)(i=1,2,…,n),则随机变量的熵定义为相对熵相对熵又称Kullback-Leible散度(即KL散度)。设p(x)和q(x)是取值的两个概率概率分布,则p对q的相对熵为交叉熵交叉熵(Cross Entropy),主要用于度量两个...
2019-12-15 23:08:13 34784 3
原创 指定项目远程maven仓库地址
这里使用阿里云的镜像地址,速度快,最新的包都有。自带的有时候没有最新版本<repositories> <repository> <id>alimaven</id> <name>Maven Aliyun Mirror</name> <url>http://maven.al...
2019-12-11 18:06:28 994
原创 spring boot 配置 fastjson 替代 Jackson (并解决返回字符串带双引号问题)
在带有@configuration注解的类中,添加下面的方法。就可以去除字符串的双引号 @Bean public HttpMessageConverters fastJsonHttpMessageConverters() { FastJsonHttpMessageConverter fastConverter = new FastJsonHttpMessageConver...
2019-12-10 15:15:56 1948
原创 Mybatis自定义查询模板
mybatis查询使用是比较方便的,使用Mybatis generator可以直接从数据库逆向生成实体类。但是有时,想自定义查询,就需要自己写相关类。需要写的类有三个,以及一个xml文件:ChatRoomMemberEX 实体类ChatRoomMemberEXMapper .xml 书写sql语句ChatRoomMemberEXExample 定义查询条件ChatRoomMembe...
2019-12-04 17:22:17 1447
原创 NLP-关键词提取算法
提取文章关键词,可以分为有监督和无监督两种,有监督精度高,但是人力成本也高,同时不能处理新词。无监督不需要人工标注,常用无监督关键词提取算法分为TF-IDF算法,TextRank算法 和主题模型算法。TF-IDF算法 (词频-逆文档频次算法)一种基于统计的计算方法,常用于一个词对所在文档的重要程度。TF算法统计一个词在一篇文档中出现的频次,这个词出现的越多,则其对文档的表达能力也就越强。I...
2019-12-04 13:12:47 627
原创 MySQL按时间排序后分页混乱重复
select 'true' as QUERYID, rb_id, rb_source, rb_startTime, rb_endTime, rb_type, rb_useable, rb_redBagNum, rb_singleContains, rb_currentNum, rb_content from redbag order by rb_startTime desc limit 0 , ...
2019-12-02 16:06:04 2568
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人