2019年12月_ljz2016

原创 gensim（四）--word2vec embedding

训练并保存模型def train_savemodel(): model = Word2Vec(PathLineSentences(directory), size=400, window=5, min_count=5, workers=multiprocessing.cpu_count(), sg=1, # 使用 skip-gram算法 ...

2019-12-30 16:21:15 801

原创 gensim（三）--相似度查询

这篇主题是查询相似的文档和前文一样，先把文档转换为向量表示from collections import defaultdictfrom gensim import corporadocuments = [ "Human machine interface for lab abc computer applications", "A survey of user opin...

2019-12-26 17:42:14 799

原创 gensim（二）--语料与向量之间转换

这篇文章演示如何把文本转换为向量表示，以及语料库文档流式处理并保存到硬盘上。import loggingfrom pprint import pprintfrom collections import defaultdict# 设置日志格式，日志级别logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s'...

2019-12-26 16:22:56 673

原创 sess.run()

session.run()session.run([fetch1, fetch2])import tensorflow as tfstate = tf.Variable(0.0,dtype=tf.float32)one = tf.constant(1.0,dtype=tf.float32)new_val = tf.add(state, one)update = tf.assign(st...

2019-12-24 22:12:35 639

原创 springboot 文件上传

在application.properties中配置，限制文件大小# 上传文件总的最大值spring.servlet.multipart.max-request-size=1MB# 单个文件的最大值spring.servlet.multipart.max-file-size=1MBspring.http.multipart.max-file-size=1MB@PostMapping(...

2019-12-24 17:22:20 238

原创 gensim（一）--core

训练模型，原始文本是使用jieba分词后的语料model = Word2Vec(LineSentence('jieba_zhu1'), size=400, window=5, min_count=5, workers=multiprocessing.cpu_count()) model.save('model/zhu.model') model.wv.save_word2vec...

2019-12-24 13:26:38 345

原创 Java读取控制台输入

长时间没用这个，忽然用起的时候，忘了怎么写，记录下public static void main(String[] args) throws IOException { List<String> lines=null; try{ lines=FileUtils.readLines(new File(file),Charsets....

2019-12-23 15:46:41 177

原创 word2vec_java源码解析

第一步，读取语料（已经分过词），把每个词出现的频率放在wordMap中。private void readVocab(File file) throws IOException { MapCount<String> mc = new MapCount<>(); try (BufferedReader br = new BufferedReader(new ...

2019-12-21 10:34:19 333

原创 THULAC 词性表

THULAC（THU Lexical Analyzer for Chinese）由清华大学自然语言处理与社会人文计算实验室研制推出的一套中文词法分析工具包，具有中文分词和词性标注功能。...

2019-12-19 09:55:28 1638

原创 python 文件操作

把一个set写入文件中，如果文件不存在则创建，w+表示可读可写with open(file='jieba_zhuxian',encoding='utf-8',mode='w+') as file: for name in names: file.write(name+'\n')符号含义如果文件不存在覆盖w+可读可写创建是r+可读可...

2019-12-18 21:50:15 115

原创 MySQL的四种BLOB类型大小

在Java中都对应 byte[]类型大小(单位：字节)TinyBlob 最大 255Blob 最大 65KMediumBlob 最大 16MLongBlob ...

2019-12-18 16:28:21 6359

原创 pkuseg分词的词性表

n 名词t 时间词s 处所词f 方位词m 数词q 量词b 区别词r 代词v 动词a 形容词z 状态词d 副词p 介词c 连词u 助词y 语气词e 叹词o 拟声词i 成语l 习惯用语j 简称h 前接成分k 后接成分g 语素x 非语素字w 标点符号...

2019-12-18 16:04:40 2039

原创 Jieba分词词性标注以及词性说明

原文链接：https://blog.csdn.net/enter89/article/details/80619805Ag形语素形容词性语素。形容词代码为 a，语素代码ｇ前面置以A。a形容词取英语形容词 adjective的第1个字母。ad副形词直接作状语的形容词。形容词代码 a和副词代码d并在一起。an名形词具有名词功能的形容词。形容词代码 a和名词代码n并在一起。b...

2019-12-18 08:25:21 1083

转载熵计算公式

如果一个随机变量XX的可能取值为X={x1,x2,…,xn}X={x1,x2,…,xn}，对应的概率为p(X=xi)(i=1,2,…,n)p(X=xi)(i=1,2,…,n)，则随机变量的熵定义为相对熵相对熵又称Kullback-Leible散度（即KL散度）。设p(x)和q(x)是取值的两个概率概率分布，则p对q的相对熵为交叉熵交叉熵（Cross Entropy），主要用于度量两个...

2019-12-15 23:08:13 34784 3

原创指定项目远程maven仓库地址

这里使用阿里云的镜像地址，速度快，最新的包都有。自带的有时候没有最新版本<repositories> <repository> <id>alimaven</id> <name>Maven Aliyun Mirror</name> <url>http://maven.al...

2019-12-11 18:06:28 994

原创 spring boot 配置 fastjson 替代 Jackson （并解决返回字符串带双引号问题）

在带有@configuration注解的类中，添加下面的方法。就可以去除字符串的双引号 @Bean public HttpMessageConverters fastJsonHttpMessageConverters() { FastJsonHttpMessageConverter fastConverter = new FastJsonHttpMessageConver...

2019-12-10 15:15:56 1948

原创 Mybatis自定义查询模板

mybatis查询使用是比较方便的，使用Mybatis generator可以直接从数据库逆向生成实体类。但是有时，想自定义查询，就需要自己写相关类。需要写的类有三个，以及一个xml文件:ChatRoomMemberEX 实体类ChatRoomMemberEXMapper .xml 书写sql语句ChatRoomMemberEXExample 定义查询条件ChatRoomMembe...

2019-12-04 17:22:17 1447

原创 NLP-关键词提取算法

提取文章关键词，可以分为有监督和无监督两种，有监督精度高，但是人力成本也高，同时不能处理新词。无监督不需要人工标注，常用无监督关键词提取算法分为TF-IDF算法，TextRank算法和主题模型算法。TF-IDF算法（词频-逆文档频次算法）一种基于统计的计算方法，常用于一个词对所在文档的重要程度。TF算法统计一个词在一篇文档中出现的频次，这个词出现的越多，则其对文档的表达能力也就越强。I...

2019-12-04 13:12:47 627

select 'true' as QUERYID, rb_id, rb_source, rb_startTime, rb_endTime, rb_type, rb_useable, rb_redBagNum, rb_singleContains, rb_currentNum, rb_content from redbag order by rb_startTime desc limit 0 , ...

2019-12-02 16:06:04 2568

ljz2016的博客