- 博客(18)
- 资源 (3)
- 收藏
- 关注
原创 Flask 1.1.2 版本使用时TypeError: Object of type int32 is not JSON serializable
一、背景 label,score=model.predict(text) # 例如label =1,score =0.9jsonify({"label":label,"score":score})1、报错TypeError: Object of type int32 is not JSON serializable2、原因:score的数据类型是numpy.float32,所以应将numpy.float32转换成python内置的数据类型float以下是实验代码i...
2020-08-28 18:49:34 513
原创 预训练模型,百度的paddlehub 追一科技的bert4keras
一、背景:免费的午餐当然没那么好。但也可以用用,解决很多问题了。预训练模型大行其道,原因就是,大厂训练好的模型,发布小厂直接调用。省力省时二、使用百度:1、百度的paddlehub安装 pip install paddlehub2、装好了调用import paddlehub as hubmodule = hub.Module(name="emotion_detection_textcnn")test_text = ["今天天气真好", "湿纸巾是干垃圾", "..
2020-08-28 18:39:56 637
原创 记录两个Segmentation fault
加载模型时候会出现src/tcmalloc.cc:277] Attempt to free invalid pointer 0x12解决方法:sudo apt-get install libjemalloc-devexport LD_PRELOAD="/usr/lib/x86_64-linux-gnu/libjemalloc.so.1"决一个tensorflow预测时候的异常。sudo apt-get install libtcmalloc-minimal4export LD_PREL
2020-08-28 18:20:22 393
原创 用numpy操作矩阵,上三角,下三角矩阵,对角化矩阵
numpy 操作矩阵的意义1.可以理解矩阵运算,多维运算2.可以用于理解tensorflow,pytorch的tensor张量运算,二维张量就是矩阵例如新建一个矩阵a = np.arange(1,10).reshape(3,-1)上下三角矩阵a = np.arange(1,10).reshape(3,-1)np.triu(a,1)# 或者a = np.arange(1,10).reshape(3,-1)# print(a)row,column = a.shape.
2020-08-25 14:55:15 5757
原创 句法分析 依存句法分析
一、句法分析句法分析是自然语言处理中的关键技术之一,其基本任务是确定句子的句法结构或者句子中词汇之间的依存关系。主要包括两方面的内容,一是确定语言的语法体系,即对语言中合法的句子的语法结构给与形式化的定义;另一方面是句法分析技术,即根据给定的语法体系,自动推导出句子的句法结构,分析句子所包含的句法单位和这些句法单位之间的关系。二、语法体系句法分析需要遵循某一语法体系,根据该体系的语法确定语法树的表示形式,如1、短语结构语法短语结构树由终节点、非终结点以及短语标记三部分组成。分析语法规则
2020-08-20 16:52:45 1418
原创 排序学习 Learning to Rank(LTR),简单通俗易懂
排序学习是推荐、搜索、广告的核心方法。排序结果的好坏很大程度影响用户体验、广告收入等。排序学习可以理解为机器学习中用户排序的方法,这里首先推荐一本微软亚洲研究院刘铁岩老师关于LTR的著作,Learning to Rank for Information Retrieval 常用的排序学习分为三种类型:PointWise,PairWise和ListWise。也就是训练数据的格式,单文档,双文档,列表文档。1.PointWise 方法学习到全局的相关性,并不对先后...
2020-08-20 16:42:15 1608 1
原创 if ‘1’ ==int(‘1‘) 始终是true,类型不同的bug,注意python中的数据类型
if ‘1’ ==int('1') 始终是true,类型不同的bug,注意python中的数据类型# 文本文档# 1 你好呀# 1 你很好呀# 1 你可以呀# 2 你是谁# 2 你是哪位#需要把每一类的第一个句子取出来作为一个文档,其余句子取出来作为一个文档f = open('my_copurs.txt','r',encoding='utf-8')label = 0std_question = ''train_question =''for i,line in en..
2020-08-17 15:28:43 198
原创 神经网络语言模型 NNLM (Keras实现)
from keras.models import Sequentialfrom keras.layers import Dense, Embedding, LSTMfrom keras.utils import np_utilsfrom keras.utils.data_utils import get_filefrom keras.preprocessing import sequencefrom keras.preprocessing.text import Tokenizerimpor.
2020-08-14 17:26:34 393
原创 统计语言模型示例
from collections import Counterfrom jieba import lcutfrom random import choicecorpus = '''这一生原本一个人,你坚持厮守成我们,却小小声牵着手在默认。感动的眼神说愿意,走进我的人生。进了门开了灯一家人,盼来生依然是一家人。确认过眼神,我遇上对的人。我挥剑转身,而鲜血如红唇。前朝记忆渡红尘,伤人的不是刀刃,是你转世而来的魂。青石板上的月光照进这山城,我一路的跟你轮回声,我对你用情极深。谁在用琵琶弹奏.
2020-08-14 17:22:06 231
原创 利用语言模型进行打分
import kenlm## 将文件导入到 kenlm 语言模型中model = kenlm.LanguageModel("/data/NLP/Language_Models/lm.bin")# 使用语言模型对句子进行打分sentence = 'you are a good man'model.score(sentence)#-20.92301368713379sentence = "I'm fine,thinks"model.score(sentence)#-21.11705589294.
2020-08-14 17:19:11 1019 3
原创 文本相似度的来源
一、问题出现,为什么需要文本相似度很多人在提问的时候都会重复,所以他希望有一个功能,就是假设新问题跟已经有的问题相似,就直接推给答案,就避免了重复提问和解答,以及找到解答的时间了。那么问题就很清楚的定义了,新问题(文本)与已有的问题(文本)之间怎么算重复问题?我们能否通过设计一个相似度函数,通过调用 Similar(新问题,老问题),把每个老问题都计算一边,就判断出是否相似。第一种思考 编辑距离于小文发现“日本多大”,“日本大小”第二种思考 jaccard距离,相同的字假设我们说
2020-08-13 15:50:55 178
原创 文本纠错
一、问题中文文本纠错任务,常见错误类型包括:谐音字词,如 配副眼睛-配副眼镜 混淆音字词,如 流浪织女-牛郎织女 字词顺序颠倒,如 伍迪艾伦-艾伦伍迪 字词补全,如 爱有天意-假如爱有天意 形似字错误,如 高梁-高粱 中文拼音全拼,如 xingfu-幸福 中文拼音缩写,如 sz-深圳 语法错误,如 想象难以-难以想象当然,针对不同业务场景,这些问题并不一定全部存在。比如1、输入法中需要处理前四种,2、搜索引擎需要处理所有类型,3、语音识别后文本纠错只需要处理前两种,
2020-08-13 14:50:37 2786
转载 语言模型评价指标Perplexity
语言模型(Language Model,LM),给出一句话的前k个词,希望它可以预测第k+1个词是什么,即给出一个第k+1个词可能出现的概率的分布p(xk+1|x1,x2,...,xk)。在报告里听到用PPL衡量语言模型收敛情况,于是从公式角度来理解一下该指标的意义。Perplexity定义PPL是用在自然语言处理领域(NLP)中,衡量语言模型好坏的指标。它主要是根据每个词来估计一句话出现的概率,并用句子长度作normalize,公式为S代表sentence,N是句子长度,p(wi)是第
2020-08-13 14:27:27 2133
原创 用命令提取文本行数并保存文本
1. 如果你只想看文件的前100行,可以使用head命令,如head -100 filename2. 如果你想查看文件的后100行,可以使用tail命令,如:tail-100 filename或 tail -n100 filename3. 查看文件中间一段,你可以使用sed命令,如:sed -n '100,200p'filename这样你就可以只查看文件的第100行到第200行。截取的文件可以用重定向输入到新的文件中:head -100 filenam...
2020-08-05 16:19:50 635
原创 Pycharm 开发之前先设置吧 免得 远程开发之部署文件,带上了尾巴^M,
背景:Pycharm是python开发利器,然后部署到liunx中,发现每一行都带上小尾巴^M原因是window回车编码的不同。解决pyCharm中设置File->setting->Editer->CodeStyle设置line sperater for new line 设置成Unix/Os x开发之前先设置吧!...
2020-08-05 14:41:20 275
原创 python 字符串中插入,删除指定字符
本文要说的在字符串中插入删除字符串字符串中删除指定字符串,比如在删除"电话"ss = '我的电话是18827038663,也是微信号,\n 请加入,谢谢\n\n\n'res = ss.replace('电话', '')print(res)字符串中指定位置插入指定字符串,比如在某一段字符"姓名"后插入某一个人的名字a = '姓名:碎念'b = '狗蛋'str_list = list(a)str_list.insert(4, b)print(''.join(str_list.
2020-08-04 17:46:30 1306
原创 解决 ValueError: too many values to unpack (expected 2)
我们只能按大脑习惯的学习知识,不可违背大脑的习惯学习,不然只会事倍功半,甚至于学过就忘。解决 ValueError: too many values to unpack (expected 2)例如a,b=(1,2,3)会报错ValueError: too many values to unpack (expected 2)尤其是想函数返回多个值的时候,还有就是装饰器装饰不同的函数时候,那么怎么解决呢?简单。1.修改返回的格式a,b = ((1,2),3)2.返回
2020-08-03 11:25:38 106975 3
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人