![](https://img-blog.csdnimg.cn/20201014180756754.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
NLP学习笔记
文章平均质量分 67
本人的NLP学习笔记 主要为理论学习
Lyttonkeepgoing
这个作者很懒,什么都没留下…
展开
-
Pandas数据清洗总结
# 导入import numpy as npimport pandas as pd# 查看版本pd.__version__文本文件的读取: 对于csv或txt后缀的文本文件,用read_csv函数来实现文件的导入。重要参数的含义如下pd.read_csv(file_path_or_buffer, #指定导入文件的具体路径sep = ', ', # 指定元数据中各种变量之间的分割符,默认是逗号,可自行修改header='infer' , #默认将数据集首行作为表头(列名),若原原创 2022-04-21 18:31:57 · 915 阅读 · 0 评论 -
NLP学习笔记8--Review/问答系统的搭建、SkipGram源代码解读
分类 : 问答系统(结构化(数据库,知识图谱)和非结构化(知识之间没有很严格的组织起来,包括检索系统 阅读理解任务)),会话/闲聊系统(chat和task(pipeline和端到端))检索:百度结构化知识 完整流程 第三方数据库结构化数据 ...原创 2021-11-22 16:22:42 · 920 阅读 · 0 评论 -
NLP学习笔记7--review/词向量的训练以及使用
静态的词向量word2vec glove动态的词向量bert elmo文本表示的方法词向量的训练使用glove使用bert句子向量文本表示的方法基于one hot 、tf-idf的bag-of-words原创 2021-11-11 21:19:04 · 895 阅读 · 0 评论 -
NLP学习笔记6--Lecture/语言模型/预处理/独热编码/word2vec/文本特征工程
语言模型用来判断:是否一句话从语法上通顺先分词 然后算出联合概率 怎么算? chain rule 条件很长的时候 会遇到一个问题 sparsity 数据的稀疏性用马尔科夫假设 最简单的假设 之前的单词不影响当前单词的条件 unigram model一阶假设 可以理解为 只被最近的单词影响 bigram model 不能考虑单词之间的先后顺序二阶假设 只被最近的两个单词影响 trigram model结合起来就是N-gram model 最常用的可能是bigram...原创 2021-11-10 21:00:20 · 945 阅读 · 0 评论 -
NLP学习笔记5--文本表示/相似度计算
文本表示/相似度计算目录文本表示/相似度计算nlp方法论常见nlp应用常见pipeline预处理语言模型拼写纠错停用词过滤词袋模型TF-IDFone-hot无监督的深度语义ELMoseq2seqattention机制transformerGPTBERT深度匹配范式表示模型NLU:语音/文本--语义 大部分已经被解决 异常检测 few shot learningNLG:语义-->文本 /语音 ...原创 2021-11-17 22:29:55 · 1504 阅读 · 0 评论 -
NLP学习笔记4--review/Ensemble 实战
集成学习集成学习的结构:产生一组个体学习器,在用某种策略将他们结合起来根据个体学习器算法类型的不同,分为:(1)同质集成:子分类器性质相同 如全是决策树或全是神经网络(2)异质集成:个体学习器包含不同类型的算法,如同时包含决策树和神经网络串行化方法(序列化方法),个体学习器之间存在强依赖关系(dependant)并行化方法 可以同时生成 不存在强依赖关系,可同时生成,如bagging和随机森林集成学习三大经典方法:bagging 并行继承硬分类:少数服从多数软分类:在.原创 2021-11-08 21:20:40 · 380 阅读 · 0 评论 -
NLP学习笔记3--Lecture/Decision Tree 、Random Forest、 XGboost
WHAT'S NLP?NLP = NLU + NLG//自然语言理解+自然语言生成NLP相关会议 先看已发表的论文 优先顶会 引用量NLP:ACL,EMNLP,NAACL,Coling,TACLDM:KDD,WSDM,SIGIR,WWW,CIKMML:NIPS,ICML,ICLR,AISTATS,UAI,JMLR,PAMI(新的模型和方法)AI:AAAI,IJCAINLP技术四个维度:Semantic(语义)情感分析 机器翻译Syntax(句子结构)CFG CCGMo原创 2021-11-05 22:38:03 · 319 阅读 · 0 评论 -
NLP学习笔记2--Review/动态规划
NLP技术栈 》》重要的是算法落地 回溯、贪心、动态规划介绍 后续算法与数据结构会仔细学一遍语义相似度计算 和 语义embedding对齐算法共性 rnn解码时的beam search通常自下而上 约定初始状态 进一步往上动态规划实际上就是找到状态方程 和确定初始状态这一章节讲的一般 具体详细内容在算法与数据结构中再学...原创 2021-11-04 16:16:09 · 156 阅读 · 0 评论 -
NLP学习笔记1--Lecture/算法复杂度,逻辑回归,正则
一周一次lecture 一周2-3次review课程项目作业paper reading 写完做summary大项目必备技能现实生活中的问题 》》》数学优化问题 》》》通过合适的工具解决算法复杂度 //衡量算法的优劣类型一:迭代算法的复杂度 for i :1 to length of A if A[i] is equal to x return True return False也取决于硬件问题 时间复杂度为O...原创 2021-11-04 13:48:11 · 181 阅读 · 0 评论