2020年08月_Ai君臣

原创 Flask 1.1.2 版本使用时TypeError: Object of type int32 is not JSON serializable

一、背景 label,score=model.predict(text) # 例如label =1,score =0.9jsonify({"label":label,"score":score})1、报错TypeError: Object of type int32 is not JSON serializable2、原因：score的数据类型是numpy.float32，所以应将numpy.float32转换成python内置的数据类型float以下是实验代码i...

2020-08-28 18:49:34 513

原创预训练模型，百度的paddlehub 追一科技的bert4keras

一、背景：免费的午餐当然没那么好。但也可以用用，解决很多问题了。预训练模型大行其道，原因就是，大厂训练好的模型，发布小厂直接调用。省力省时二、使用百度：1、百度的paddlehub安装 pip install paddlehub2、装好了调用import paddlehub as hubmodule = hub.Module(name="emotion_detection_textcnn")test_text = ["今天天气真好", "湿纸巾是干垃圾", "..

2020-08-28 18:39:56 637

原创记录两个Segmentation fault

加载模型时候会出现src/tcmalloc.cc:277] Attempt to free invalid pointer 0x12解决方法：sudo apt-get install libjemalloc-devexport LD_PRELOAD="/usr/lib/x86_64-linux-gnu/libjemalloc.so.1"决一个tensorflow预测时候的异常。sudo apt-get install libtcmalloc-minimal4export LD_PREL

2020-08-28 18:20:22 393

原创用numpy操作矩阵，上三角，下三角矩阵，对角化矩阵

numpy 操作矩阵的意义1.可以理解矩阵运算，多维运算2.可以用于理解tensorflow，pytorch的tensor张量运算，二维张量就是矩阵例如新建一个矩阵a = np.arange(1,10).reshape(3,-1)上下三角矩阵a = np.arange(1,10).reshape(3,-1)np.triu(a,1)# 或者a = np.arange(1,10).reshape(3,-1)# print(a)row,column = a.shape.

2020-08-25 14:55:15 5757

原创句法分析依存句法分析

一、句法分析句法分析是自然语言处理中的关键技术之一，其基本任务是确定句子的句法结构或者句子中词汇之间的依存关系。主要包括两方面的内容，一是确定语言的语法体系，即对语言中合法的句子的语法结构给与形式化的定义；另一方面是句法分析技术，即根据给定的语法体系，自动推导出句子的句法结构，分析句子所包含的句法单位和这些句法单位之间的关系。二、语法体系句法分析需要遵循某一语法体系，根据该体系的语法确定语法树的表示形式，如1、短语结构语法短语结构树由终节点、非终结点以及短语标记三部分组成。分析语法规则

2020-08-20 16:52:45 1418

原创排序学习 Learning to Rank(LTR),简单通俗易懂

排序学习是推荐、搜索、广告的核心方法。排序结果的好坏很大程度影响用户体验、广告收入等。排序学习可以理解为机器学习中用户排序的方法，这里首先推荐一本微软亚洲研究院刘铁岩老师关于LTR的著作，Learning to Rank for Information Retrieval 常用的排序学习分为三种类型：PointWise，PairWise和ListWise。也就是训练数据的格式，单文档，双文档，列表文档。1.PointWise 方法学习到全局的相关性，并不对先后...

2020-08-20 16:42:15 1608 1

原创 attention公式举例说明，形象

https://www.jianshu.com/p/c6a090af4b30

2020-08-19 17:48:35 372

原创 if ‘1’ ==int(‘1‘) 始终是true，类型不同的bug,注意python中的数据类型

if ‘1’ ==int('1') 始终是true，类型不同的bug,注意python中的数据类型# 文本文档# 1 你好呀# 1 你很好呀# 1 你可以呀# 2 你是谁# 2 你是哪位#需要把每一类的第一个句子取出来作为一个文档，其余句子取出来作为一个文档f = open('my_copurs.txt','r',encoding='utf-8')label = 0std_question = ''train_question =''for i,line in en..

2020-08-17 15:28:43 198

原创神经网络语言模型 NNLM (Keras实现）

from keras.models import Sequentialfrom keras.layers import Dense, Embedding, LSTMfrom keras.utils import np_utilsfrom keras.utils.data_utils import get_filefrom keras.preprocessing import sequencefrom keras.preprocessing.text import Tokenizerimpor.

2020-08-14 17:26:34 393

原创统计语言模型示例

from collections import Counterfrom jieba import lcutfrom random import choicecorpus = '''这一生原本一个人，你坚持厮守成我们，却小小声牵着手在默认。感动的眼神说愿意，走进我的人生。进了门开了灯一家人，盼来生依然是一家人。确认过眼神，我遇上对的人。我挥剑转身，而鲜血如红唇。前朝记忆渡红尘，伤人的不是刀刃，是你转世而来的魂。青石板上的月光照进这山城，我一路的跟你轮回声，我对你用情极深。谁在用琵琶弹奏.

2020-08-14 17:22:06 231

原创利用语言模型进行打分

import kenlm## 将文件导入到 kenlm 语言模型中model = kenlm.LanguageModel("/data/NLP/Language_Models/lm.bin")# 使用语言模型对句子进行打分sentence = 'you are a good man'model.score(sentence)#-20.92301368713379sentence = "I'm fine,thinks"model.score(sentence)#-21.11705589294.

2020-08-14 17:19:11 1019 3

原创文本相似度的来源

一、问题出现，为什么需要文本相似度很多人在提问的时候都会重复，所以他希望有一个功能，就是假设新问题跟已经有的问题相似，就直接推给答案，就避免了重复提问和解答，以及找到解答的时间了。那么问题就很清楚的定义了，新问题（文本）与已有的问题（文本）之间怎么算重复问题？我们能否通过设计一个相似度函数，通过调用 Similar（新问题，老问题），把每个老问题都计算一边，就判断出是否相似。第一种思考编辑距离于小文发现“日本多大”，“日本大小”第二种思考 jaccard距离，相同的字假设我们说

2020-08-13 15:50:55 178

原创文本纠错

一、问题中文文本纠错任务，常见错误类型包括：谐音字词，如配副眼睛-配副眼镜混淆音字词，如流浪织女-牛郎织女字词顺序颠倒，如伍迪艾伦-艾伦伍迪字词补全，如爱有天意-假如爱有天意形似字错误，如高梁-高粱中文拼音全拼，如 xingfu-幸福中文拼音缩写，如 sz-深圳语法错误，如想象难以-难以想象当然，针对不同业务场景，这些问题并不一定全部存在。比如1、输入法中需要处理前四种，2、搜索引擎需要处理所有类型，3、语音识别后文本纠错只需要处理前两种，

2020-08-13 14:50:37 2786

转载语言模型评价指标Perplexity

语言模型（Language Model，LM），给出一句话的前k个词，希望它可以预测第k+1个词是什么，即给出一个第k+1个词可能出现的概率的分布p(xk+1|x1,x2,...,xk)。在报告里听到用PPL衡量语言模型收敛情况，于是从公式角度来理解一下该指标的意义。Perplexity定义PPL是用在自然语言处理领域（NLP）中，衡量语言模型好坏的指标。它主要是根据每个词来估计一句话出现的概率，并用句子长度作normalize，公式为S代表sentence，N是句子长度，p(wi)是第

2020-08-13 14:27:27 2133

原创用命令提取文本行数并保存文本

1. 如果你只想看文件的前100行，可以使用head命令，如head -100 filename2. 如果你想查看文件的后100行，可以使用tail命令，如：tail-100 filename或 tail -n100 filename3. 查看文件中间一段，你可以使用sed命令，如：sed -n '100,200p'filename这样你就可以只查看文件的第100行到第200行。截取的文件可以用重定向输入到新的文件中：head -100 filenam...

2020-08-05 16:19:50 635

原创 Pycharm 开发之前先设置吧免得远程开发之部署文件，带上了尾巴^M，

背景：Pycharm是python开发利器，然后部署到liunx中，发现每一行都带上小尾巴^M原因是window回车编码的不同。解决pyCharm中设置File->setting->Editer->CodeStyle设置line sperater for new line 设置成Unix/Os x开发之前先设置吧！...

2020-08-05 14:41:20 275

原创 python 字符串中插入，删除指定字符

本文要说的在字符串中插入删除字符串字符串中删除指定字符串，比如在删除"电话"ss = '我的电话是18827038663，也是微信号，\n 请加入，谢谢\n\n\n'res = ss.replace('电话', '')print(res)字符串中指定位置插入指定字符串，比如在某一段字符"姓名"后插入某一个人的名字a = '姓名：碎念'b = '狗蛋'str_list = list(a)str_list.insert(4, b)print(''.join(str_list.

2020-08-04 17:46:30 1306

原创解决 ValueError: too many values to unpack (expected 2)

我们只能按大脑习惯的学习知识，不可违背大脑的习惯学习，不然只会事倍功半，甚至于学过就忘。解决 ValueError: too many values to unpack (expected 2)例如a,b=(1,2,3)会报错ValueError: too many values to unpack (expected 2)尤其是想函数返回多个值的时候，还有就是装饰器装饰不同的函数时候，那么怎么解决呢？简单。1.修改返回的格式a,b = ((1,2),3)2.返回

2020-08-03 11:25:38 106975 3

一休