![](https://img-blog.csdnimg.cn/2019092715111047.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
NLP 笔记
文章平均质量分 51
小菜鸡加油
程序猿的探索之路
走好人生中的每一步路!
展开
-
【笔记】mask(遮挡)的实现方法 && set( ) 会将数据元素打乱 && 列表元素为<class ‘int‘>,直接赋值以小数会向下取整
def safe_log(x): mask = x != 0 print(mask) print(x[mask]) print(np.log(x[mask])) x[mask] = np.log(x[mask]) print(x) return ximport numpy as npx=np.array([1.,2,3])print(safe_log(x))y=np.array([1,2,3,4,5,6,7,8])y[0]=5....原创 2022-05-15 12:56:37 · 501 阅读 · 2 评论 -
【笔记】手敲版 TF IDF
import numpy as npfrom collections import Counterimport itertoolsfrom visual import show_tfidf # this refers to visual.py in my [repo](https://github.com/MorvanZhou/NLP-Tutorials/)docs = [ "it it is a good day, I like to stay here", "I am...原创 2022-05-15 12:25:00 · 333 阅读 · 0 评论 -
【代码】TF-IDF的数学表达形式:它是一个庞大的矩阵,用词语的数字向量来代表一篇文档,比较文档就是在比较这些向量的相似性
注释1:将列表d中每一个元素中的","替换为"",然后将每一个元素使用" "进行拆分,原来每一个元素的拆分元素组成新的子列表。docs_words = [d.replace(",","").split(" ") for d in docs]注释2:chain来源于包 import itertools先将docs_words 使用指针运算符将所有元素取出,然后使用 itertools的chain方法拼接到一块,然后使用set进行去重,得到一个集合。vocab = set(ite..原创 2022-05-05 21:58:20 · 772 阅读 · 0 评论 -
【笔记】搜索引擎是如何使用NLP:先用传统方法进行时间优化,后面使用多模态搜索找到最相近的内容(深度学习用模型从非文字的信息当中提取出计算机能够识别的可计算的信息)
多模态搜索:将文字内容转换为深度学习能识别的数字内容,然后和之前存储的图片、视频数字进行信息比对,对比两种数字之间的关联性,然后找到最相近的内容。不限于文字搜索图片、视频,也可以颠倒过来。在深度学习看来,只要它们能转换成一种数字的表达形式,我们就能从中对比相关性。...原创 2022-05-04 17:26:18 · 912 阅读 · 0 评论 -
【笔记】NLP是什么:NLP可以通过数学语言来和人类对话,比如翻译是机器将人类语言翻译为机器能看懂的数学语言,然后机器将回答的数学语言翻译为人类能看懂的人类语言
原创 2022-05-04 11:01:03 · 287 阅读 · 0 评论 -
【笔记】NLP 可以用来做什么、在社会中的价值、在项目中遇到的困难 和 入坑建议
NLP 可以用来做什么?在社会中的价值?1. 文本分类,机器翻译这项工作是比较繁重、重复性的工作,用机器来代替人做这项工作,对提升生产力是非常有帮助的。比较困难的是 样本的准备(来源、准备、洗涤等)。在未来五到十年,会有更多更好的NLP的落地项目会产生,前端的一些技术也会继续向前发展,在很多的领域都会有应用。入坑建议:不仅是把论文读完就可以了,还可以对它进行复现,以及在各种各样的系统上,比如说单片机、linux系统把它实现。然后进行完整的工程化应用,把它变成产品。2. 中文文本纠..原创 2022-05-03 18:35:09 · 1666 阅读 · 0 评论