自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(18)
  • 资源 (3)
  • 收藏
  • 关注

原创 Flask 1.1.2 版本使用时TypeError: Object of type int32 is not JSON serializable

一、背景 label,score=model.predict(text) # 例如label =1,score =0.9jsonify({"label":label,"score":score})1、报错TypeError: Object of type int32 is not JSON serializable2、原因:score的数据类型是numpy.float32,所以应将numpy.float32转换成python内置的数据类型float以下是实验代码i...

2020-08-28 18:49:34 513

原创 预训练模型,百度的paddlehub 追一科技的bert4keras

一、背景:免费的午餐当然没那么好。但也可以用用,解决很多问题了。预训练模型大行其道,原因就是,大厂训练好的模型,发布小厂直接调用。省力省时二、使用百度:1、百度的paddlehub安装 pip install paddlehub2、装好了调用import paddlehub as hubmodule = hub.Module(name="emotion_detection_textcnn")test_text = ["今天天气真好", "湿纸巾是干垃圾", "..

2020-08-28 18:39:56 637

原创 记录两个Segmentation fault

加载模型时候会出现src/tcmalloc.cc:277] Attempt to free invalid pointer 0x12解决方法:sudo apt-get install libjemalloc-devexport LD_PRELOAD="/usr/lib/x86_64-linux-gnu/libjemalloc.so.1"决一个tensorflow预测时候的异常。sudo apt-get install libtcmalloc-minimal4export LD_PREL

2020-08-28 18:20:22 393

原创 用numpy操作矩阵,上三角,下三角矩阵,对角化矩阵

numpy 操作矩阵的意义1.可以理解矩阵运算,多维运算2.可以用于理解tensorflow,pytorch的tensor张量运算,二维张量就是矩阵例如新建一个矩阵a = np.arange(1,10).reshape(3,-1)上下三角矩阵a = np.arange(1,10).reshape(3,-1)np.triu(a,1)# 或者a = np.arange(1,10).reshape(3,-1)# print(a)row,column = a.shape.

2020-08-25 14:55:15 5757

原创 句法分析 依存句法分析

一、句法分析句法分析是自然语言处理中的关键技术之一,其基本任务是确定句子的句法结构或者句子中词汇之间的依存关系。主要包括两方面的内容,一是确定语言的语法体系,即对语言中合法的句子的语法结构给与形式化的定义;另一方面是句法分析技术,即根据给定的语法体系,自动推导出句子的句法结构,分析句子所包含的句法单位和这些句法单位之间的关系。二、语法体系句法分析需要遵循某一语法体系,根据该体系的语法确定语法树的表示形式,如1、短语结构语法短语结构树由终节点、非终结点以及短语标记三部分组成。分析语法规则

2020-08-20 16:52:45 1418

原创 排序学习 Learning to Rank(LTR),简单通俗易懂

排序学习是推荐、搜索、广告的核心方法。排序结果的好坏很大程度影响用户体验、广告收入等。排序学习可以理解为机器学习中用户排序的方法,这里首先推荐一本微软亚洲研究院刘铁岩老师关于LTR的著作,Learning to Rank for Information Retrieval 常用的排序学习分为三种类型:PointWise,PairWise和ListWise。也就是训练数据的格式,单文档,双文档,列表文档。1.PointWise 方法学习到全局的相关性,并不对先后...

2020-08-20 16:42:15 1608 1

原创 attention公式举例说明,形象

https://www.jianshu.com/p/c6a090af4b30

2020-08-19 17:48:35 372

原创 if ‘1’ ==int(‘1‘) 始终是true,类型不同的bug,注意python中的数据类型

if ‘1’ ==int('1') 始终是true,类型不同的bug,注意python中的数据类型# 文本文档# 1 你好呀# 1 你很好呀# 1 你可以呀# 2 你是谁# 2 你是哪位#需要把每一类的第一个句子取出来作为一个文档,其余句子取出来作为一个文档f = open('my_copurs.txt','r',encoding='utf-8')label = 0std_question = ''train_question =''for i,line in en..

2020-08-17 15:28:43 198

原创 神经网络语言模型 NNLM (Keras实现)

from keras.models import Sequentialfrom keras.layers import Dense, Embedding, LSTMfrom keras.utils import np_utilsfrom keras.utils.data_utils import get_filefrom keras.preprocessing import sequencefrom keras.preprocessing.text import Tokenizerimpor.

2020-08-14 17:26:34 393

原创 统计语言模型示例

from collections import Counterfrom jieba import lcutfrom random import choicecorpus = '''这一生原本一个人,你坚持厮守成我们,却小小声牵着手在默认。感动的眼神说愿意,走进我的人生。进了门开了灯一家人,盼来生依然是一家人。确认过眼神,我遇上对的人。我挥剑转身,而鲜血如红唇。前朝记忆渡红尘,伤人的不是刀刃,是你转世而来的魂。青石板上的月光照进这山城,我一路的跟你轮回声,我对你用情极深。谁在用琵琶弹奏.

2020-08-14 17:22:06 231

原创 利用语言模型进行打分

import kenlm## 将文件导入到 kenlm 语言模型中model = kenlm.LanguageModel("/data/NLP/Language_Models/lm.bin")# 使用语言模型对句子进行打分sentence = 'you are a good man'model.score(sentence)#-20.92301368713379sentence = "I'm fine,thinks"model.score(sentence)#-21.11705589294.

2020-08-14 17:19:11 1019 3

原创 文本相似度的来源

一、问题出现,为什么需要文本相似度很多人在提问的时候都会重复,所以他希望有一个功能,就是假设新问题跟已经有的问题相似,就直接推给答案,就避免了重复提问和解答,以及找到解答的时间了。那么问题就很清楚的定义了,新问题(文本)与已有的问题(文本)之间怎么算重复问题?我们能否通过设计一个相似度函数,通过调用 Similar(新问题,老问题),把每个老问题都计算一边,就判断出是否相似。第一种思考 编辑距离于小文发现“日本多大”,“日本大小”第二种思考 jaccard距离,相同的字假设我们说

2020-08-13 15:50:55 178

原创 文本纠错

一、问题中文文本纠错任务,常见错误类型包括:谐音字词,如 配副眼睛-配副眼镜 混淆音字词,如 流浪织女-牛郎织女 字词顺序颠倒,如 伍迪艾伦-艾伦伍迪 字词补全,如 爱有天意-假如爱有天意 形似字错误,如 高梁-高粱 中文拼音全拼,如 xingfu-幸福 中文拼音缩写,如 sz-深圳 语法错误,如 想象难以-难以想象当然,针对不同业务场景,这些问题并不一定全部存在。比如1、输入法中需要处理前四种,2、搜索引擎需要处理所有类型,3、语音识别后文本纠错只需要处理前两种,

2020-08-13 14:50:37 2786

转载 语言模型评价指标Perplexity

语言模型(Language Model,LM),给出一句话的前k个词,希望它可以预测第k+1个词是什么,即给出一个第k+1个词可能出现的概率的分布p(xk+1|x1,x2,...,xk)。在报告里听到用PPL衡量语言模型收敛情况,于是从公式角度来理解一下该指标的意义。Perplexity定义PPL是用在自然语言处理领域(NLP)中,衡量语言模型好坏的指标。它主要是根据每个词来估计一句话出现的概率,并用句子长度作normalize,公式为S代表sentence,N是句子长度,p(wi)是第

2020-08-13 14:27:27 2133

原创 用命令提取文本行数并保存文本

1. 如果你只想看文件的前100行,可以使用head命令,如head -100 filename2. 如果你想查看文件的后100行,可以使用tail命令,如:tail-100 filename或 tail -n100 filename3. 查看文件中间一段,你可以使用sed命令,如:sed -n '100,200p'filename这样你就可以只查看文件的第100行到第200行。截取的文件可以用重定向输入到新的文件中:head -100 filenam...

2020-08-05 16:19:50 635

原创 Pycharm 开发之前先设置吧 免得 远程开发之部署文件,带上了尾巴^M,

背景:Pycharm是python开发利器,然后部署到liunx中,发现每一行都带上小尾巴^M原因是window回车编码的不同。解决pyCharm中设置File->setting->Editer->CodeStyle设置line sperater for new line 设置成Unix/Os x开发之前先设置吧!...

2020-08-05 14:41:20 275

原创 python 字符串中插入,删除指定字符

本文要说的在字符串中插入删除字符串字符串中删除指定字符串,比如在删除"电话"ss = '我的电话是18827038663,也是微信号,\n 请加入,谢谢\n\n\n'res = ss.replace('电话', '')print(res)字符串中指定位置插入指定字符串,比如在某一段字符"姓名"后插入某一个人的名字a = '姓名:碎念'b = '狗蛋'str_list = list(a)str_list.insert(4, b)print(''.join(str_list.

2020-08-04 17:46:30 1306

原创 解决 ValueError: too many values to unpack (expected 2)

我们只能按大脑习惯的学习知识,不可违背大脑的习惯学习,不然只会事倍功半,甚至于学过就忘。解决 ValueError: too many values to unpack (expected 2)例如a,b=(1,2,3)会报错ValueError: too many values to unpack (expected 2)尤其是想函数返回多个值的时候,还有就是装饰器装饰不同的函数时候,那么怎么解决呢?简单。1.修改返回的格式a,b = ((1,2),3)2.返回

2020-08-03 11:25:38 106975 3

数字图像处理(西安交通大学)

数字图像处理数字图像处理(西安交通大学)经典教材

2011-03-19

浅谈C#与matlab的混合编程

关于C#与Matlab联合开发 关于C#与Matlab联合开发 关于C#与Matlab联合开发

2011-03-19

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除