学习笔记（4):自然语言处理--词向量视频教学（word embedding）-项目实战之utils模块中分词方法封装

最新推荐文章于 2024-03-04 18:27:17 发布

阿齐的日常

最新推荐文章于 2024-03-04 18:27:17 发布

阅读量165

点赞数

分类专栏：研发管理文章标签：自然语言处理 NLP 人工智能

研发管理专栏收录该内容

4 篇文章 0 订阅

订阅专栏

立即学习:https://edu.csdn.net/course/play/9460/199585?utm_source=blogtoedu

# utils.py

import GrobalParament

# 去掉回车换行

def delete_r_n(line):

return line.replace("\r","").replace("\n","").strip()

# 读取停用词

def get_stop_words(stop_words_dir):

stop_word = []

with open(stop_words_dir, "r", encoding = GrobalParament.encoding) as f_reader:

for line in f_reader:

line = delete_r_n(line)

stop_words.append(line)

stop_words = set(stop_words)

retrun stop_words

# 结巴精准分词

def jieba_cut(content, stop_words):

word_list = []

if content != "" and content is not None:

seg_list = jieba.cut(content)

for word in seg_list:

if word not in stop_words:

word_list.append(word)

return word_list

# 结巴搜索引擎分词

def jieba_cut_for_search(content, stop_words)

word_list = []

if content != "" and content is not None:

seg_list = jieba.cut_for_search(content)

for word in seg_list:

if word not in stop_words:

word_list.append(word)

return word_list

if __name__ == "__main__":

stop_words = get_stop_words(GrobalParament.stop_word_dir)

content = "我毕业于北京理工大学，现就职于中国科学院计算技术研究所。"

word_list = jieba_cut(content,stop_words)

print(word_list)

word_list = jieba_cut_for_search(content, stop_words)

print(word_list)

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

阿齐的日常

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

模型架构选择：从传统NLP到Transformer

程序员光剑

03-02

134

自然语言处理（NLP）是人工智能的重要分支，旨在使计算机能够理解、解释和生成人类语言。随着互联网的发展和数据量的激增，NLP技术在文本分类、机器翻译、情感分析、问答系统等多个领域得到了广泛应用。然而，NLP任务的复杂性和多样性对模型架构提出了巨大挑战。传统的NLP模型架构，如基于规则的方法、统计模型、词袋模型等，虽然在早期取得了一定的成果，但随着数据规模和任务复杂度的增加，这些方法逐渐暴露出其局限性。为了应对这些挑战，研究人员不断探索新的模型架构，从传统的RNN、CNN，到近年来备受瞩目的Transform

词向量（word2vec）.mp4

03-08

关于词向量的理论推导视频，通俗易懂

参与评论您还未登录，请先登录后发表或查看评论

视频教程-自然语言处理--词向量视频教学（word embedding）-NLP

weixin_31251009的博客

05-28

311

自然语言处理--词向量视频教学（word embedding）长期从事机器...

牛津xDeepMind自然语言处理课程汉化视频 | 词向量与词汇语义学（上）

大数据文摘

09-24

1151

大数据文摘作品，转载要求见文末大数据文摘重磅推出牛津大学深度学习与自然语言处理课程（Deep NLP）汉化视频！Lecture 2a-1 词向量与词汇语义学（上）本课时内容：由来自 DeepMind 的Ed Grefenstette老师讲解词向量与词汇语义学。如何给单词编码？为什么在你的模型里“猫”仅仅是个向量、而不是毛茸茸的可爱生物？马上试看▼点击阅读原文，即可免广告直接观看中文字幕完整视频！牛

自然语言处理之动手学词向量（word embedding）-杨帅-专题视频课程

爱家人、爱生活、更爱AI

09-17

846

词向量（Word embedding）是深入学习技术在自然语言处理中应用的基础，因此掌握好词向量是学习深度学习技术在自然语言处理用应用的重要环节。

视频教程-大白话Bert-掌握最前沿Embedding结构-深度学习

weixin_34808849的博客

05-28

369

大白话Bert-掌握最前沿Embedding结构李虎，联想集团PCSD业务...

大模型学习笔记五：RAG

最新发布

谢白羽

03-04

1453

1、LLM 的知识不是实时的2、LLM 可能不知道你私有的领域/业务知识搭建过程：1、文档加载，并按一定条件切割成片段2、将切割的文本片段灌入检索引擎3、封装检索接口4、构建调用流程：Query -> 检索 -> Prompt -> LLM -> 回复1、文档加载2、文档切分3、向量化4、灌入向量数据库。

飞桨day-04 NLP实践作业

weixin_43947511的博客

02-07

738

快来选一顿好吃的年夜饭：看看如何自定义数据集，实现文本分类中的情感分析任务情感分析是自然语言处理领域一个老生常谈的任务。句子情感分析目的是为了判别说者的情感倾向，比如在某些话题上给出的的态度明确的观点，或者反映的情绪状态等。情感分析有着广泛应用，比如电商评论分析、舆情分析等。题目：将lstm网络替换成其他网络。可参考seq2vec介绍提示位置：self.lstm_encoder = ppnlp.seq2vec.LSTMEncoder() PaddlePaddle框架，AI Studio平

【101】NLP 自然语言处理14种分类算法】

小麦粒的Python

06-09

5354

内容目录一、数据集介绍二、解压文件明确需求三、批量读取和合并文本数据集四、中文文本分词五、停止词使用六、编码器处理文本标签七、常规算法模型1、k近邻算法2、决策树3、多层感知器4、伯...

人工智能学习与实训笔记（一）：零基础入门学习与实训笔记

weixin_45512098的博客

07-26

704

基于百度飞桨的人工智能学习笔记

自然语言处理--词向量视频教学（word embedding）

09-14

自然语言处理教程，该课程着重讲解词向量（Word embedding），词向量是深度学习技术在自然语言处理中应用的基础，因此掌握好词向量是学习深度学习技术在自然语言处理用应用的重要环节。本课程从One-hot编码开始，word2vec、fasttext到glove讲解词向量技术的方方面面，每个技术点环节都有相应的小案例，以增加同学们学习兴趣。同时在课程最后整合案例的方式给大家展示词向量技术在相似度计算中的典型应用。希望我们的课程能帮助更多的NLPper。

学习笔记（3):自然语言处理--词向量视频教学（word embedding）-项目实战之GrobalParament模块编写

abc18300079453的博客

10-08

271

NLP文本相似度(word2vec)的原理及实现

weixin_40547993的博客

04-20

1万+

word2vec的原理及实现方式、训练优化方式前文已做详细介绍，这里不再累赘。这里主要记录NLP文本相似度(word2vec)怎样实现的及实现结果。怎样实现：在问答系统（KBQA）中输入一个query，比如query为“贪污公款被捕后要还钱吗”？是怎么匹配到知识库中的最相近的一条问题并返回相对应的答案呢？利用word2vec进行句子相似度计算，是先将输入query，进行分词，把目标句子的各...

基于TF-IDF+语义相似度的长文本相似度计算

weixin_40547993的博客

04-21

6003

主要步骤流程：文本预处理：分词训练词向量 tf-idf提取关键词并写入文档前20个词 word2vec读取提取的关键词并转为词向量 相似度计算。前面对word2vec的理论进行了介绍，接下来进入实战环节。实践主要分为三部分，word2vec训练，相似度计算以及训练结果展示三部分。 词向量的训练： 词向量的训练主要分为两部分： 1、对中文语料进行数据预处理； 2、利用ge...

获取Embedding

咔咔响

06-30

1706

今天我们来介绍实现Embedding的方法，分为手动实现、利用平台获取以及预训练模型手动实现一个简单word2vecimport numpy as np from argparse imp...

TF-IDF算法-Python实现（附源代码）