AI_NLP
自学AI的鲨鱼儿
一个小白学习AI的个人笔记
有朋友发现错误谢谢指出
展开
-
RNN(循环神经网络)
一、循环神经网络1、x输入序列x=[x1,x2,x3,...,x(t+1),...x(T)] 其中x(i)表示输入的字,每个字有许多分量[x(i1),x(i2),x(i3),...] x(i)下表就是时刻,每一个时刻对应输入序列中一个字 一句话就是一个输入序列,每句话的长度要一样,以最长的话为准,不够的补0;每个字的向量维度长也是一样的s(i)就是递归 ...原创 2019-05-08 15:52:40 · 3767 阅读 · 0 评论 -
seq2seq + attention
1、思考几个问题: ① 为什么解码器 一般来说 需要与 编码器的 hidden_size 相同呢?2、seq2seq + attention 注意的几个问题: ① 如果编码器 的 RNNCell 是LSTM ,那么它输出的高阶向量C(递归状态)的维度 = 2*hidden_size,而GRU 的C向量的 维度 = hidden_size 一、seq2seq ...原创 2019-05-13 09:58:42 · 1398 阅读 · 0 评论 -
NLP领域基本名词、算法
0、NLP前言 ·NLTK(Python自然语言工具包)用于诸如标记化、词形还原、词干化、解析、POS标注等任务。该库具有几乎所有NLP任务的工具。 ·Spacy是NLTK的主要竞争对手。这两个库可用于相同的任务。 ·Scikit-learn为机器学习提供了一个大型库。此外还提供了用于文本预处理的工具。 ·Gensim是一个主题和向量空间建模、文档集合相似性的工...原创 2019-07-12 15:51:31 · 2628 阅读 · 0 评论 -
分词 数值化(词嵌入 word embeding)
一、word embeding 传统方式python 工具包: gensim -------- word2vec、docvec ...0、BOW ——> TF-IDFBOW:词袋法(词的频数) --------- 机器学习BoW 模型因为其简单有效的优点而得到了广泛的应用。其基本原理...原创 2019-08-07 15:00:15 · 1149 阅读 · 0 评论 -
NLP基本概述
一、。。。。。。。。。。。。。原创 2019-08-08 17:33:15 · 688 阅读 · 0 评论 -
NLP 文本处理的小问题
一、将某些数据转化为 XML 格式,便于mysql处理数据 参考文章:https://blog.csdn.net/infoflow/article/details/77902419 问题: 搜狗预料库的数据类型(编码格式为 GB18030):<doc> <url></url> <doc...原创 2019-08-09 17:28:50 · 410 阅读 · 0 评论 -
soft attention、hard attention、 local attention结构
1、attention 理解方式 理解 : key 与 query生成权重 α ,α 与value 生成 attention value 注意:在tensorflow中 seq2seq + attention 的 attention 的 key 与 value 是相同的,都是解码器的输...原创 2019-08-19 20:46:15 · 15195 阅读 · 3 评论 -
问答系统的常见技术
0、一、问答系统技术和使用场景1、问答系统的使用场景电话营销机器人智能客服智能助手游戏智能机器人聊天机器人2、问答系统用到的技术1、模板与规则:精确度极高,召回率较低,使用于某一个很狭窄的领域(车票查询、商品查询、天气查询...), 例如百度的高考问答系统:关键词一定要覆盖广泛,密切注意 关键词的近似词,如 电脑 --- 计...原创 2019-08-27 17:05:24 · 7087 阅读 · 0 评论 -
学习NLP中参考博主的文章
1、深度学习框架概述 (作者:jason_ql) 原文链接:https://blog.csdn.net/lql0716/article/details/808531692、转载 2019-08-27 22:17:09 · 148 阅读 · 0 评论 -
句法分析、语义分析
一、依存句法分析 ------- 偏 情感分析(词与词关系)(1)依存句法分析的基本概念 依存语法 (Dependency Parsing, DP) 通过分析语言单位内成分之间的依存关系揭示其句法结构。 直观来讲,依存句法分析识别句子中的“主谓宾”、“定状补”这些语法成分,并强调分析词汇之间的关系。 例如,句子: 国** ***李**调********...原创 2019-12-24 18:43:41 · 5108 阅读 · 0 评论 -
意图识别(规则模板解析、深度学习意图识别)
一、意图识别应用领域1、搜索引擎2、对话系统:基于意图识别了解用户想要什么 业务 或者 闲聊,并采用不用的子模型来处理 1.1 闲聊 技术:闲聊机器人需要有较高的召回率,因此常常用:seq2seq + attention / transformer / bert .... 1.2 基于业务,例如 电商、买票、查询天气 技...原创 2019-09-12 12:33:54 · 36529 阅读 · 4 评论 -
NLP常用到的工具
一、常用到的第三发工具NLP常用基本工具 • jieba: • https://github.com/fxsjy/jieba • HanLP: • http://hanlp.com/ • https://github.com/hankcs/pyhanlp • gensim • https:/...原创 2019-09-13 13:11:58 · 971 阅读 · 0 评论 -
transformer、bert网络
序言1、bert、transformer 比较传统的rnn1、传统缺点:seq2seq使用循环网络固有的顺序特性阻碍样本训练的并行化,这在更长的序列长度上变得至关重要,因为有限的内 存限制样本的批次大小;传统的seq2seq 处理时刻数 0-50,bert可以处理 几百个时刻长度的序列。2、新结构:Transformer,这种模型架构避免循环并完全依赖于attenti...原创 2019-09-17 11:21:59 · 6932 阅读 · 0 评论 -
NLP常见项目领域(算法思路)
0、补充链接: NLP领域基本名词、算法 、问答系统的常见技术 一、QA问答系统DeepLearning: ① seq2seq + attention ② transformer、bert二、语义分析、语义匹配1、基于规则模板: ① booststraping ------- 召回率...原创 2019-09-17 21:04:50 · 2427 阅读 · 0 评论 -
seq2seq 上下文情景聊天
1、上下文情景介绍 Q1: 今天吃过早餐吗? A1: 吃过了 Q2: 吃了什么? A2: 稀粥2、构建思想 。。。。 ...原创 2019-12-26 14:26:45 · 253 阅读 · 0 评论 -
信息抽取(booststraping、深度学习..)
信息抽取概述 信息/数据抽取是指从非结构化或半结构化文档中提取结构化信息的技术。粗浅的来说它的任务是从大量数据中准确、快速地获取目标信息,并将其以结构化的形式储存起来,方便以后的分析和处理,从而提高信息的利用率概率。模型/分类器可以帮助实现这些任务。1任务抽取实体:比如人,地名,时间这些一般的常见的实体,再比如在一些垂直领域,需要提取医疗领域,金融领域,教育领域等方面的实体。...转载 2020-01-01 13:32:34 · 1937 阅读 · 0 评论 -
NLP数据增强EDA 、常用tf代码
NLP数据增强 NLP中数据增强的实现tensorflow计算评估结果(f1_score, prediction, recall)、【Tensorflow】多分类问题的Precision、Recall和F1计算及Tensorflow实现BLEU,ROUGE,METEOR,ROUGE-浅述自然语言处理机器翻译常用评价度量、浅谈用Python计算文本BLEU分数BLEU:bil...转载 2020-01-10 20:13:12 · 1833 阅读 · 0 评论 -
gensim中word2vec使用
gensim中word2vec使用转载 2020-03-18 22:52:14 · 166 阅读 · 0 评论 -
NLP文本处理的常见代码
一、强制抽取用定义词典的词 在做NER时,jieba/ltp 有时候就算是添加的 用户自定义实体词典,设置了词频,有时候这些需要抽取的实体还是没有分出,为此,需要手动写一个实体词典匹配的算法 强制分词二、...转载 2020-04-10 10:00:04 · 471 阅读 · 0 评论 -
日常自写的小脚本 一
一、使用cv为批量图片自定义添加文字/水印logo需求:需要大量带有各式水印、二维码、自定义文字的图片,水印、二维码 大小不固定、位置不固定、模糊程度不固定功能:自定义为图片添加 图片logo/文字 1、添加水印 ① 随机选取水印logo 添加的位置可以随机插入【“四角”,“去心域”】,也可以指定固定位置插入水印logo ② 可以自定义logo水印插入 “四角”、“去心域”的大小占比 ③ logo水印大小、模糊程度自定义 2、添加文原创 2020-11-03 21:24:18 · 906 阅读 · 3 评论