自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

原创 netty应用退出

netty程序,使用shutdownGracefully退出。退出前会把队列中的消息发送完,释放channel,多路复用器的去注册,清空定时器任务等。 public Future<?> shutdownGracefully(long quietPeriod, long time...

2020-05-28 18:19:49 15 0

原创 Java程序退出处理

在Java程序退出时,希望做一些保存处理,比如释放一些资源,或者保证事务执行完再推出。 在Linux环境下,需要使用kill -15 pid命令杀死进程,才能得到通知。 而window环境下,只能通过ctrl+c退出才有效,命令杀死进程或者任务管理器杀死,都不会得到通知。 第一种方式 Runti...

2020-05-28 15:04:10 15 0

原创 okHttp发送http请求

post请求: OkHttpClient client = new OkHttpClient.Builder().retryOnConnectionFailure(false) .readTimeout(3000, TimeUnit.SECONDS).build(); ...

2020-03-27 15:03:38 48 0

原创 nginx使用

启动 /usr/sbin/nginx -c /etc/nginx/nginx.conf 重启 ./nginx -s reload -c /etc/nginx/nginx.conf 停止 ps -ef|grep nginx kill -TERM 2132

2020-03-24 10:34:21 40 0

原创 linix系统基本操作

ls 展示当前目录的所有文件 ls -l 详细展示 cd .. 进入上级目录 cd / 入根目录 ls -l -a 显示所有(含隐藏)

2020-03-23 14:32:18 23 0

原创 python爬虫框架Scrapy使用

安装 pip install -i https://pypi.tuna.tsinghua.edu.cn/simple scrapy 创建爬虫项目 scrapy startproject mypachong 项目结构 创建Spider scrapy genspider quotes 处理文本...

2020-03-06 16:29:29 61 0

原创 带输入框的下拉框selectivity-jquery使用

首先,从官网下载js文件,在html中引用。 <link rel="stylesheet" type="text/css" media="screen" href="/css/selectivity-jquery.css&...

2020-03-03 20:13:33 110 0

原创 MongoDB可视化工具MongoDB Compass查询

MongoDB Compass使用这个工具查询时,如果是主键查询,需要额外加个ObjectId函数。 {_id:ObjectId('5e54a00f7581de30dc3269e0')}

2020-02-25 17:19:30 205 0

原创 python合并指定文件夹下的所有text文本

有些文本字符集自动识别不准确,会读取失败,所以多试几种。 def hebing(path,target): import chardet with open(target,encoding='utf-8',mode='a+') as targe...

2020-01-02 17:16:48 94 0

原创 gensim(四)--word2vec embedding

训练并保存模型 def train_savemodel(): model = Word2Vec(PathLineSentences(directory), size=400, window=5, min_count=5, workers=multiprocessing.cpu_count(...

2019-12-30 16:21:15 53 0

原创 gensim(三)--相似度查询

这篇主题是查询相似的文档 和前文一样,先把文档转换为向量表示 from collections import defaultdict from gensim import corpora documents = [ "Human machine interface ...

2019-12-26 17:42:14 74 0

原创 gensim(二)--语料与向量之间转换

这篇文章演示如何把文本转换为向量表示,以及语料库文档流式处理并保存到硬盘上。 import logging from pprint import pprint from collections import defaultdict # 设置日志格式,日志级别 logging.basicC...

2019-12-26 16:22:56 63 0

原创 sess.run()

session.run() session.run([fetch1, fetch2]) import tensorflow as tf state = tf.Variable(0.0,dtype=tf.float32) one = tf.constant(1.0,dtype=tf.float32)...

2019-12-24 22:12:35 66 0

原创 springboot 文件上传

在application.properties中配置,限制文件大小 # 上传文件总的最大值 spring.servlet.multipart.max-request-size=1MB # 单个文件的最大值 spring.servlet.multipart.max-file-size=1MB spr...

2019-12-24 17:22:20 26 0

原创 gensim(一)--core

训练模型,原始文本是使用jieba分词后的语料 model = Word2Vec(LineSentence('jieba_zhu1'), size=400, window=5, min_count=5, workers=multiprocessing.cpu_count())...

2019-12-24 13:26:38 81 0

原创 Java读取控制台输入

长时间没用这个,忽然用起的时候,忘了怎么写,记录下 public static void main(String[] args) throws IOException { List<String> lines=null; try{ ...

2019-12-23 15:46:41 20 0

原创 word2vec_java源码解析

第一步,读取语料(已经分过词),把每个词出现的频率放在wordMap中。 private void readVocab(File file) throws IOException { MapCount<String> mc = new MapCount<>();...

2019-12-21 10:34:19 64 0

原创 THULAC 词性表

THULAC(THU Lexical Analyzer for Chinese)由清华大学自然语言处理与社会人文计算实验室研制推出的一套中文词法分析工具包,具有中文分词和词性标注功能。 ...

2019-12-19 09:55:28 130 0

原创 python 文件操作

把一个set写入文件中,如果文件不存在则创建,w+表示可读可写 with open(file='jieba_zhuxian',encoding='utf-8',mode='w+') as file: for name in nam...

2019-12-18 21:50:15 15 0

原创 MySQL的四种BLOB类型大小

在Java中都对应 byte[] 类型 大小(单位:字节) TinyBlob 最大 255 Blob 最大 65K Medi...

2019-12-18 16:28:21 196 0

原创 pkuseg分词的词性表

n 名词 t 时间词 s 处所词 f 方位词 m 数词 q 量词 b 区别词 r 代词 v 动词 a 形容词 z 状态词 d 副词 p 介词 c 连词 u 助词 y 语气词 e 叹词 o 拟声...

2019-12-18 16:04:40 223 0

原创 Jieba分词词性标注以及词性说明

原文链接:https://blog.csdn.net/enter89/article/details/80619805 Ag 形语素 形容词性语素。形容词代码为 a,语素代码g前面置以A。 a 形容词 取英语形容词 adjective的第1个字母。 ad 副形词 直接作状语的形容...

2019-12-18 08:25:21 79 0

转载 熵计算公式

如果一个随机变量XX的可能取值为X={x1,x2,…,xn}X={x1,x2,…,xn},对应的概率为p(X=xi)(i=1,2,…,n)p(X=xi)(i=1,2,…,n),则随机变量的熵定义为 相对熵 相对熵又称Kullback-Leible散度(即KL散度)。 设p(x)和q(x)是取值的...

2019-12-15 23:08:13 227 0

原创 指定项目远程maven仓库地址

这里使用阿里云的镜像地址,速度快,最新的包都有。自带的有时候没有最新版本 <repositories> <repository> <id>alimaven</id> <name>Maven Aliyun M...

2019-12-11 18:06:28 73 0

原创 spring boot 配置 fastjson 替代 Jackson (并解决返回字符串带双引号问题)

在带有@configuration注解的类中,添加下面的方法。就可以去除字符串的双引号 @Bean public HttpMessageConverters fastJsonHttpMessageConverters() { FastJsonHttpMessageConv...

2019-12-10 15:15:56 206 0

原创 Mybatis自定义查询模板

mybatis查询使用是比较方便的,使用Mybatis generator可以直接从数据库逆向生成实体类。 但是有时,想自定义查询,就需要自己写相关类。 需要写的类有三个,以及一个xml文件: ChatRoomMemberEX 实体类 ChatRoomMemberEXMapper ....

2019-12-04 17:22:17 173 0

原创 NLP-关键词提取算法

提取文章关键词,可以分为有监督和无监督两种,有监督精度高,但是人力成本也高,同时不能处理新词。无监督不需要人工标注,常用无监督关键词提取算法分为TF-IDF算法,TextRank算法 和主题模型算法。 TF-IDF算法 (词频-逆文档频次算法) 一种基于统计的计算方法,常用于一个词对所在文档的重要...

2019-12-04 13:12:47 129 0

原创 MySQL按时间排序后分页混乱重复

select 'true' as QUERYID, rb_id, rb_source, rb_startTime, rb_endTime, rb_type, rb_useable, rb_redBagNum, rb_singleContains, rb_currentNum, ...

2019-12-02 16:06:04 260 0

原创 python键盘监听及模拟键盘输入

import sys,os from pynput.keyboard import Controller,Key,Listener import datetime def on_press(key): try: nowTime = datetime.datetime.no...

2019-11-21 22:15:18 261 0

原创 Object详解

Object类是所有类的父类(包括数组),Object类中共有12个方法(除了init和cinit以外)。 一个静态本地方法registerNatives,在类被加载时执行。 5个方法可以被子类覆盖(也在vtable中)—hashCode(),equals(Object obj),clone(...

2019-10-11 08:45:10 552 0

原创 mysql 8.0使用时的2个问题

1、每次开机,都会报以下错误。需要设定时区。 om.mysql.cj.exceptions.InvalidConnectionAttributeException: The server time zone value '�й���׼ʱ��' is unrecognized o...

2019-10-10 23:20:31 67 0

转载 Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context

长度可以不一样的语言模型 (就是依赖下一层和下一层的前一段) https://arxiv.org/pdf/1901.02860.pdf transformer 框架有学习长期依赖的潜能,但是 受限于语言模型设置的固定长度。作为一种解决方法,我们提出一种新颖的网络结构 Transformer-...

2019-09-25 00:55:56 47 0

转载 【Tensorflow】Dataset 中的 Iterator

Tensorflow 现在将 Dataset 作为首选的数据读取手段,而 Iterator 是 Dataset 中最重要的概念。这篇文章的目的是,以官网文档为基础,较详细的介绍 Iterator 的用法。 Dataset 和 Iterator 的关系 在文章开始之前,首先得对 Dataset 和 ...

2019-09-23 09:02:50 68 0

原创 xlnet--数据预处理

for split, batch_size in zip( ["train", "valid"], [FLAGS.per_host_train_bsz, FLAGS.per_host_valid_bsz]): ...

2019-09-22 22:26:48 160 0

原创 transformer xl---vocabulary

data_dir 存放原始数据, def main(unused_argv): del unused_argv # Unused corpus = get_lm_corpus(FLAGS.data_dir, FLAGS.dataset) # save_dir = o...

2019-09-22 01:04:42 105 0

原创 CUDA_ERROR_LAUNCH_FAIL

在使用tensorflow 训练模型时,经常出现一下错误。每跑一段时间就会出现,后来在网上查找,发现可能是显卡驱动版本的问题,所以把驱动降低到425后,没有再出现。 Error polling for event status: failed to query event: CUDA_ERROR_...

2019-09-13 01:14:41 462 0

原创 迁移Mysql数据库的数据存放位置

首先,停止mysql80服务 然后mysqld.exe --uninstall mysql80,卸载服务 复制program data中C:\ProgramData\MySQL\MySQL Server 8.0下的data文件夹到指定位置,修改My.ini的 datadir=E:\Data 重新创...

2019-09-01 17:41:09 61 0

转载 solr 软提交、硬提交

1:软提交(到内存中) 1.1:java实现软提交。 1.2:solr web 界面可以显示 1.3:到你的${SOLR_HOME}/example/solr/collection1/tlog可以看到日志文件的生成 没有发生变化,不管你调不调用commit方法,不管是软提交还是硬提交都是记录一个l...

2019-08-28 01:04:22 26 0

转载 solr的commit与autocommit

在solrconfig.xml里有两个配置项,autoCommit和autoSoftCommit,他们是干什么的呢?他们是solr提交文档的两种方式。 commit 一般提交又或者叫硬提交(hard commit), 使用这种提交会把文档立即持久化到磁盘,并可以让你能立马查询到它,因为它会开启...

2019-08-26 10:02:19 46 0

原创 scrapy使用css选择器获取当前节点的下一个兄弟节点

<div id="pagenav"> <a class="current">1</a> <a href="/top/2/">2</a> <a href="/top...

2019-08-24 09:17:27 369 0

提示
确定要删除当前文章?
取消 删除