![](https://img-blog.csdnimg.cn/20200309203047677.jpg?x-oss-process=image/resize,m_fixed,h_224,w_224)
NLP自然语言处理
文章平均质量分 93
自然语言处理的目标是使计算机像人类一样去理解语言,完全通过机器来理解运用人类的语言是一个很困难的任务。但近几年来NLP的迅速发展,目前深度学习在NLP中也取得了很好的成果。
说好今夜不点烟
有鸿鹄之志的燕雀
展开
-
2022/1/22记录网页
(65条消息) 102、bert词向量进行文本分类和命名实体识别_u012416045的博客-CSDN博客_bert文本识别https://blog.csdn.net/u012416045/article/details/88373965 Bert词向量进行文本分类和命名实体识别github地址:Viserion-nlper/rasa_nlu: Combine Tecent's bert as service model and rasa_nlu for text classification (..原创 2022-01-25 14:19:59 · 606 阅读 · 0 评论 -
宾州汉语句法依存指南 树库(3.0) 中文整理版
## 前言### 中文树库的设计问题1. 语言的复杂性。所需的语言复杂程度对于像汉语树库这样的带注释的文本语料库,与语料库的使用目的密切相关。由于这个Treebank的目的是提供一个工具来训练信息处理工具,如POS标记器和解析器,我们力求为我们所选文本提供坚实的语言学分析,基于当前的汉语句法研究和语言学专家参与了这个项目。然而,这是不切实际的提供高度复杂的树是目前语言学文献中常见的,也不是汽车我们声称我们可以为每一个句子提供“正确的”分析在语料库。结果是语言上的correctnéss和工程上的便利之间的原创 2021-09-26 13:35:53 · 1744 阅读 · 0 评论 -
技术改变生活——用HanLP来协助处理现实中问题
此例是我之前在学习nlp过程中的一个例子,需求如下: 平时收集了一下客户对于餐馆的评价,目标是将这些评价数据进行分类,比如分成满意或者不满意,这一类简单的客户评价情感极性分析,来策划餐馆满意菜品的推荐、用倾向性分析来改善餐馆的服务质量,以及提高创收利润。1 .首先来查看一下收集到的评价数据。评价数据的抽样:可以看到数据集中有餐馆的id编号,以及对餐馆的评价分数(总体评分、环境、口味、服务)2. 数据清洗: 在语料库中找到我们感兴趣的东西,把不感兴趣...原创 2020-11-13 20:20:42 · 1357 阅读 · 0 评论 -
大小写模型测评报告书
大小写模型测评报告书大小写测评是将原始文本和预测文本进行对比评测,最终结果以准确率、召回率、f1-score标准来展示测评效果。测评分为1.对大写和小写进行测评 2.仅对大写单词进行测评大写和小写转换单词评测1.1 文件位置: /home/post/punc/src/precess_truecase/test_truecase.sh1.2 脚本命令: ./test_truecase.sh其中参数1为target_path 参数2为predicted_path测评包含大写和小写的准确率原创 2020-10-15 16:16:09 · 192 阅读 · 0 评论 -
大小写模型训练说明书
大小写模型训练说明书需要训练一个truecase模型。注意:只能使用训练集训练truecase模型。truecase则会学习训练数据,判断句子中的名字、地点等需要大写的内容并将其保留,其余则小写,提升模型转换时候的准确性。训练大小写模型1.1 文件位置: /home/post/punc/src/caps_look/mosesdecoder-master/scripts/recaser/1.2 脚本命令: train-truecaser.perl -corpus data/train.txt原创 2020-10-15 15:40:11 · 276 阅读 · 0 评论 -
标点符号测评报告书
Model测评:模型训练完毕进行test预测输出。THEANO_FLAGS='floatX=float32,device=cuda0,lib.cnmem=1' python punctuator.py Model_en_oral_64_0.02_h64_lr0.02.pcl data_test/test.label.en es.oral.out其中Model_en_oral_64_0.02_h64_lr0.02.pcl为上文中训练完毕的模型名字, 输入test.label.en为预留的test数据,原创 2020-10-14 11:01:16 · 137 阅读 · 0 评论 -
标点符号训练说明书
标点符号训练说明书拼接文件法西俄德生数据文件位置:/home/post/share/mono_text,其中数据都是分类别下载的小样本数据,利用 paste -d '\n' -s test1.txt test2.txt >> test_sum.txt按行将所有文件拼接到test_sum文件中(基本生数据大小在15G以上)。拼接文件进行preprocess处理运行脚本/home/post/punc/src/punctuator/data_todo/preprocess.sh其中文件中原创 2020-10-14 10:14:39 · 209 阅读 · 0 评论 -
神经网络中网络优化和正则化
任何数学技巧都不能弥补信息的缺失从大量的实践中总结一些经验方法,从网络优化和正则化两个方面来介绍这些。常用的优化方法:参数初始化,数据预处理方法,逐层归一化,超参数优化方法。常用的网络正则化:L1,L2正则化,权重衰减,提前停止,丢弃法,数据增强和标签平滑。网络优化:包括了模型选择和参数优化,神经网络优化的改善方法,分为以下几个方面。使用更有效的优化算法来提高梯度下降优化方法的效率和稳定性。如动态学习率调整,梯度估计修正等。 使用更好的参数初始化方法,数据预处理方法来提...原创 2020-08-10 12:27:54 · 645 阅读 · 0 评论 -
CRF的概率预测问题, 结合词性标注场景应用
看过<统计机器学习>中的有关条件随机场CRF的公式推导说明,确实看到有点云里雾里,感觉有点点抽象,有些点光看公司也一时无法想明白原理,因此借鉴了国外的一片有关CRF的介绍性说明,结合词性标注场景应用,通过对线性条件随机场的特征函数推导,一下子明白了许多,同时放上两个中文翻译的博客链接,一定程度上也帮助我理解CRF与词性标注的应用介绍:国外论文:http://blog.echen.me/2012/01/03/introduction-to-conditional-random-fiel..原创 2020-08-07 15:05:40 · 336 阅读 · 0 评论 -
公司里做NLP任务的开发流程
如项目阶段,数据集怎么得到,模型的训练,怎么部署、项目人员周期、以及开发中会出现哪些棘手的问题如文本分类就fasttext、词典,序列标注就最大逆向匹配和CRF之类的,如果是改造、升级,那就做出针对性的策略,天花板明显就是模型的时候,再考虑改进模型方案有了就开始执行其实80%的时间都在数据上,初版项目是没数据,新版本要处理现在的数据,新增特征工程之类的,要是上新模型,更复杂了。 开始弄模型,训练也好,规则也好,都得评价一下效果,分析现在能不能上线,不能上线哪里还有提升点。数据来源:用户日原创 2020-08-07 15:04:23 · 646 阅读 · 0 评论 -
Adam优化算法(Adam optimization algorithm)
Adam优化算法(Adam optimization algorithm)Adam优化算法基本上就是将Momentum和RMSprop结合在一起。初始化2.在第t次迭代中,用mini-batch梯度下降法计算出dw和db3.计算Momentum指数加权平均数4.用RMSprop进行更新5.计算Momentum和RMSprop的修正偏差6更新权重其中Adam参数配置有:α 学习率/β1 一阶矩估计的指数衰减率如0.9β2 二阶矩估计的指数衰减率如0.999 该超.原创 2020-08-07 15:03:44 · 17716 阅读 · 0 评论 -
指数加权平均数
1.什么是指数加权平均?指数加权平均也叫指数加权移动平均,是一种常见的序列数据处理方式。计算公式如下:其中,θ_t:为第 t 天的实际观察值, V_t: 是要代替 θ_t 的估计值,也就是第 t 天的指数加权平均值, β: 为 V_{t-1} 的权重,是可调节的超参。( 0 < β < 1 )我们有这样一组气温数据,图中横轴为一年中的第几天,纵轴为气温:其中观察该图发现有许多不规则的噪声,这时我们可以用指数加权平均来提取这组数据的相关趋势,按照上面公式可以列如下:原创 2020-08-07 15:02:57 · 2067 阅读 · 1 评论 -
循环神经网络总结整理(RNN、LSTM、GRU)
在经过了一个周期迭代之后,猛地发现不记录一些东西是真的不行的,只有将知识娓娓道来,把自己当作一个教师的身份整理这些思路,才算真正的掌握了。故,将这一章的知识点整理记录下来,以供自己学习理解,查阅运用。在前馈神经网络中,信息的传递是单向的,即网络的输出只依赖于当前的输入。但是在很多现实的任务中,网络的输出不仅和当前的输入有关还和之前的输入(当前的状态),甚至是以后的输入有关, 另外前馈神经网络难以处理时序数据,如视频、语音、文本,这类都是一些不固定长度的数据, 而前馈神经网络输入输出都是固定长度的..原创 2020-08-07 11:24:51 · 10769 阅读 · 2 评论 -
对人民的名字进行近义词分析
step 300w次之后初始化 一轮迭代之后查看近义词原创 2020-08-02 12:03:47 · 198 阅读 · 0 评论 -
Word2Vec的落地应用以及一些项目思路
其他序列的数据也是可以这样做的,记得去年KDD上有一篇DeepWalk的文章,在社交网络上进行随机游走生成一组组节点的序列,然后通过word2vec训练每个节点对应的向量。但是我用这个方法在qq的社交网络上面做了一些实验,发现效果非常不理想,可能和qq社交网络的复杂性有关。我非常满意的一个应用是把word2vec应用在用户app下载序列上,根据用户下载app的顺序,把app看做单词,也是可以形成这样的序列数据,进而训练处每个app对应的向量。利用这个向量计算app之间的相似度,效果非常好,能够把真正内容原创 2020-07-31 21:00:44 · 1143 阅读 · 0 评论 -
Word2Vector笔记
tensorflow中 tf.reduce_mean函数https://blog.csdn.net/dcrmg/article/details/79797826word2Vectorhttp://mccormickml.com/2016/04/19/word2vec-tutorial-the-skip-gram-model/nce_loss中compute_sampled_logits返回值。再进行样本的损失交叉熵损失函数。sampled_losses维度为(128, 65.原创 2020-07-31 11:40:06 · 401 阅读 · 0 评论 -
自然语言处理业务中的示例
以下是在业务中如何使用NLP的一些示例:快速排序客户反馈文本分类模型非常适合对质量反馈进行分类,例如产品评论,社交媒体对话以及在线调查中的开放式响应。以Retently为例,这是一个在线调查的SaaS平台,该平台使用MonkeyLearn对NPS响应进行分类并获得可行的见解。文本分类模型非常适合对定性反馈进行分类,例如在线调查中对开放式问题的回答。以Retently为例,这是一个用于在线调查的SaaS平台,该平台使用MonkeyLearn对NPS响应进行分类并从客户那里获得可行的见解。Ret翻译 2020-07-27 09:55:03 · 367 阅读 · 0 评论 -
语言模型困惑度的两种形式及python实现
转语言模型困惑度的两种形式及python实现 - 海晨威的文章 - 知乎 https://zhuanlan.zhihu.com/p/57852713在自然语言处理中,对于一个语言模型,一般用困惑度来衡量它的好坏,困惑度越低,说明语言模型面对一句话感到困惑的程度越低,语言模型就越好。在网上关于语言模型困惑度的介绍文章中,一般会看到以下两种形式: ...转载 2020-07-26 12:38:02 · 2745 阅读 · 0 评论 -
标点预测
shell上:0表示标准输入1表示标准输出2表示标准错误输出> 默认为标准输出重定向,与 1> 相同2>&1 意思是把 标准错误输出 重定向到 标准输出.&>file 意思是把 标准输出 和 标准错误输出 都重定向到文件file中punctuation_vocabulary = data.iterable_to_dict(data.PUNCTUATION_VOCABULARY)data.PUNCTUATION_VOCABULARY...原创 2020-07-22 20:55:42 · 646 阅读 · 0 评论 -
自然语言处理入门第一章笔记
《自然语言处理入门》--何晗1级标题2级标题3级标题四级标题五级标题六级标题1级标题2级标题3级标题四级标题五级标题六级标题原创 2020-03-11 14:24:22 · 768 阅读 · 0 评论