自然语言处理
文章平均质量分 88
驭风少年君
勤学苦练,不负韶华。
非学无以广才,非志无以成学。
展开
-
Word2Vec模型的引入介绍与相关概念
一 、Word2Vec模型的背景引入1.1 One-hot模型One-hot模型是是用N位的状态寄存器对N个状态进行编码如下所示,是有4个样本,每个样本都有三个特征,特征1表示当前样本的性别。我们喂给算法怎么样的数据,算法就会给我们一个怎么样的结果。假设如果用1表示女性,2表示男性。那么将相当于还没有进行算法的计算的时候,已经有数据的倾向性,间接认为男性比女性重要。如果我们用这种带着偏见的数据,喂给模型,那么模型也会认为男性比女性重要。所以这样的数据会很大因素影响最后的预测结果。这是我们不希望看原创 2024-06-02 12:23:44 · 854 阅读 · 0 评论 -
人工智能框架实战精讲:Keras项目-英文语料的DNN、Word2Vec、CNN、LSTM文本分类实战与调参优化
读取数据,本次使用的数据集是英文数据集。都是已经标注好的情感2分类数据集,1为积极,0为消极。三个数据集都存在data文件夹下,需要遍历文件夹取得相应数据集模型中有很多参数,对于参数的不同,都可能提升模型的性能。先定于一个模型架构,定义好相应的参数,构建成函数的形式 create_mode。在对相应的参数来设置一个可变范围例如设定filter的个数,卷积kernel的 长度,文本训练的embeding的大小等。"""调参。......原创 2022-08-02 21:00:10 · 678 阅读 · 1 评论 -
基于Keras搭建CNN、TextCNN文本分类模型
Keras的CNN、TextCNN文本分类原创 2022-08-02 10:46:51 · 1823 阅读 · 4 评论 -
基于Gensim计算文本相似度
gensim文本相似度计算原创 2022-07-15 13:47:39 · 826 阅读 · 0 评论 -
《Word2vec》1 模型的引入介绍与相关概念
一 、Word2Vec模型的背景引入1.1 One-hot模型One-hot模型是是用N位的状态寄存器对N个状态进行编码如下所示,是有4个样本,每个样本都有三个特征,特征1表示当前样本的性别。我们喂给算法怎么样的数据,算法就会给我们一个怎么样的结果。假设如果用1表示女性,2表示男性。那么将相当于还没有进行算法的计算的时候,已经有数据的倾向性,间接认为男性比女性重要。如果我们用这种带着偏见的数据,喂给模型,那么模型也会认为男性比女性重要。所以这样的数据会很大因素影响最后的预测结果。这是我们不希望看原创 2022-04-05 09:35:35 · 3597 阅读 · 0 评论 -
《自然语言处理学习之路》14卷积神经网络
书山有路勤为径,学海无涯苦作舟一、卷积神经网络应用传统神经网络的搭建步骤抽样一批数据将数据输入网络进行前向传播,获得损失值根据损失值函数,反向传播计算梯度用梯度下降法修正参数卷积神经网络的应用分类图片检索推荐图像物体检测,并且预测(Detection)Segmentation 分割元素自动驾驶人脸特征获取,进行人脸识别关键点定位字体,标志识别图像识别,并且文字描述图像融合二、卷积神经网络2.1 卷积过程卷积神经网络与传统网络的区别卷积神经原创 2021-10-30 14:23:26 · 524 阅读 · 0 评论 -
《自然语言处理学习之路》15 Seq2Seq、Attention机制
书山有路勤为径,学海无涯苦作舟黑发不知勤学早,白首反悔读书迟。1. 网络结构 (sequence-to-sequence)先编码,再解码。ENCODE的输入:输入数据是整个的一句话,编成一个中间向量DECODE的分为两个部分,一个是训练要用的,一个是测试要用的训练时候DECODE的输入:输入不止中间向量,还有真实的值yes,第一次的预测结果是yes。输入不止有前一步的值还有真实值label标签,预测出label测试的时候,只输入上一步的输出结果...原创 2021-10-09 14:52:12 · 191 阅读 · 0 评论 -
《自然语言处理之路》12走进深度学习网络,损失函数,Softmax,反向传播
文章目录书山有路勤为径,学海无涯苦作舟凡事我不能创造的,我就不能理解一、比较二、图像分类2.1计算机识别的挑战2.1.1 角度改变2.1.2 光照的强度2.1.3 形状的改变2.1.4 部分遮蔽2.1.5 背景混入2.2 深度学习的套路3 K-NN算法验证3.1 KNN计算步骤3.2 KNN算法基本要素3.3 数据集 CIFAR-103.4 图像数据的距离计算4.超参数与交叉验证4.1 距离计算4.2**问题**4.3 交叉验证4.3 背景影响5.线性分类5.1 得分函数6.损失函数7.正则化惩罚项8.so原创 2021-09-29 11:08:39 · 1075 阅读 · 0 评论 -
《自然语言处理学习之路》 13 RNN简述,LSTM情感分析
书山有路勤为径,学海无涯苦作舟一、RNN传统神经网络,不同数据输入,各自进入自己的神经网络感知机进行计算,数据之间并没有深入的联系。如果不同数据之间具有联系,比如时序性,前一个时间会影响后一个时间的数据,传统的神经网络没办法实现数据之间的时序性。...原创 2021-09-28 09:43:41 · 1328 阅读 · 0 评论 -
《自然语言处理学习之路》11 文本特征方法对比-词袋,TFIDF,Word2Vec,神经网络模型
书山有路勤为径,学海无涯苦作舟一、数据预处理与观测1.1 数据简介: Disasters on social media社交媒体上有些讨论是关于灾难,疾病,暴乱的,有些只是开玩笑或者是电影情节,我们该如何让机器能分辨出这两种讨论呢?import keras import nltkimport pandas as pdimport numpy as npimport reimport codecsquestions = pd.read_csv(" ")questions.colu原创 2021-09-25 10:29:29 · 1060 阅读 · 1 评论 -
《自然语言处理学习之路》10 基于bag of words 和 word2Vec 的影评情绪分类
书山有路勤为径,学海无涯苦作舟一、数据预处理1.1 数据清洗导入库import osimport reimport numpy as npimport pandas as pdfrom bs4 import BeautifulSoupfrom sklearn.feature_extraction.text import CountVectorizerfrom sklearn.ensemble import RandomForestClassifierfrom sklearn.met原创 2021-09-24 13:47:37 · 258 阅读 · 0 评论 -
《自然语言处理学习之路》09 使用Gensim库构造词向量Word2Vector
书山有路勤为径,学海无涯苦作舟一、Gensim构造词向量1.1 数据预处理from gensim.models import word2vecimport logging # 自定义打印日志logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s', level = logging.INFO)原始语料raw_sentences = ['the quick brown fox jumps over the la原创 2021-09-24 11:31:32 · 351 阅读 · 0 评论 -
《自然语言处理学习之路》 08 语言模型,词向量,CBOW神经网络架构,原理
书山有路勤为径,学海无涯苦作舟一、语言模型计算机只认识数值,需要将文本数据转为数值的向量矩阵。比如现在有一句话:我今天下午打篮球。 这一句话具有逻辑性,词语之间具有联系。先说“我”,在“我”的基础上,出现“今天”的概率,“下午”在"我今天"出现的概率,以此类推,计算出一个句子出现的概率。每个词出现都与前面的词出现有关系每个词都与前面的词有关系,但是长句子的话,矩阵就会更加稀疏。最后一个词wi出现的概率 = 所有词概率 / 不包含wi的词条件概率二、N-gram 模型(基于统计)通常我原创 2021-09-23 10:44:04 · 379 阅读 · 0 评论 -
《自然语言处理学习之路》07 隐马尔科夫模型HMM工具包实战
书山有路勤为径,学海无涯苦作舟一、hmmlearn 工具包1.1 状态建模import numpy as npimport numpy as np设置隐藏状态:3个盒子states = ["box1","box2","box3"]n_states = len(states)设置观测状态:红白两种球observations = ["red","white"]n_observations = len(observations)设置模型参数:start_probability = n原创 2021-09-22 12:11:43 · 530 阅读 · 2 评论 -
《自然语言处理学习之路》06 隐马尔科夫模型HMM
书山有路勤为径,学海无涯苦作舟一、马尔科夫模型1.1 马尔科夫天气案例天气变化种类:晴天,多云,雷雨,他们之间应该有些联系吧!状态之间可以发生转换,昨天和今天转换的情况:状态转移矩阵今天能得到明天的情况,明天能得到后天的情况,以此类推可以无限的玩下去那是不是得有一个初始的情况才能一直玩下去啊!这里我们就定义好了一个一阶马尔科夫模型:状态:晴天,多云,雷雨状态转换概率:三种天气状态间的转换概率初始概率:晴天1.2计算今天(t=1)的天气状况假设初始状态的晴天,多云,雷雨矩阵:【原创 2021-09-21 14:00:30 · 486 阅读 · 0 评论 -
《自然语言处理学习之路》05 新闻分类任务实战
书山有路勤为径,学海无涯苦作舟一、数据及文本分析1.1 数据内容data:1.2 停用词停用词1.语料中大量出现⒉没啥大用(不能体现文章内容,还增加了文本特征,干扰分析,删除了也不影响表现文章主要意思)3.留着过年嘛?1.3 TF-IDF:关键词提取1.3.1 TF《中国的蜜蜂养殖》∶进行词频(Term Frequency,缩写为TF)统计出现次数最多的词是---- “的”、“是”、“在”----这一类最常用的词(停用词)“中国”、“蜜蜂”、“养殖”这三个词的出现次数一样多,原创 2021-09-20 10:21:18 · 399 阅读 · 0 评论 -
《自然语言处理学习之路》03 字符串基础、正则表达、NLTK、Spacy、Jieba、WordCloud词云
书山有路勤为径,学海无涯苦作舟一、字符串的基本操作1.1脱去多余字符左右同时脱去input_str = '今天天气真不错,风和日丽 'input_str.strip()'今天天气真不错,风和日丽'左脱去、右脱去input_str = ' 今天天气真不错,风和日丽 'input_str.rstrip()input_str = ' 今天天气真不错,风和日丽 'input_str.lstrip()' 今天天气真不错,风和日丽'今天天气真不错,风和日丽 '1.2 替换inpu原创 2021-09-19 11:04:16 · 377 阅读 · 0 评论 -
《自然语言处理学习之路》04 贝叶斯算法、垃圾邮件识别
书山有路勤为径,学海无涯苦作舟一、贝叶斯算法概述贝叶斯(约1701-1761) Thomas Bayes,英国数学家贝叶斯方法源于他生前为解决一个“逆概”问题写的一篇文章贝叶斯要解决的问题∶正向概率∶假设袋子里面有N个白球,M个黑球,你伸手进去摸一把,摸出黑球的概率是多大M/(M+N)逆向概率∶如果我们事先并不知道袋子里面黑白球的比例,而是闭着眼睛摸出一个(或好几个)球,观察这些取出来的球的颜色之后,那么我们可以就此对袋子里面的黑白球的比例作出什么样的推测???Why贝叶斯?现实世界本原创 2021-09-19 10:21:58 · 526 阅读 · 0 评论 -
《自然语言处理实战 01》商品信息与文本数据的挖掘分析
文章目录书山有路勤为径,学海无涯苦作舟一、数据的导入1.1 模块设置1.2 数据导入1.3 数据的log变换二、商品的包邮、类别、价格、品牌分析2.12.2 类别分析2.2.1 主类别分析2.2.2子类别分析2.3 不同类别的浮动区间2.4 品牌分析三、商品描述分析3.1 商品描述文本长度与价格因素3.2 品牌描述统计,词云分析3.2.1 统计3.2.2 不同类别商品的关键词词云四、文本挖掘4.1 TFIDF关键词提取4.2 降维4.3文本聚类书山有路勤为径,学海无涯苦作舟一、数据的导入1.1 模块设原创 2021-09-18 11:35:10 · 1446 阅读 · 2 评论 -
《自然语言处理学习之路》02 词向量模型Word2Vec,CBOW,Skip Gram
本文主要是学习参考莫烦老师的教学,对老师课程的学习,记忆笔记。原文链接文章目录书山有路勤为径,学海无涯苦作舟。零、吃水不忘挖井人一、计算机如何实现对于词语的理解1.1 万物数字化1.2 距离的计算1.3 训练词向量1.4 词向量的用法1.5 词向量的加减运算二、训练词向量模型(Continuous Bag of Words)2.1书山有路勤为径,学海无涯苦作舟。零、吃水不忘挖井人请支持老师的原文原文链接一、计算机如何实现对于词语的理解1.1 万物数字化计算机只能够处理由数字组成的数据,原创 2021-09-15 10:25:33 · 578 阅读 · 0 评论 -
《自然语言处理学习之路》01 搜索引擎(TFIDF)及其简单实现
本文主要是学习参考莫烦老师的教学,对老师课程的学习,记忆笔记。原文链接文章目录书山有路勤为径,学海无涯苦作舟。零、吃水不忘挖井人一、搜索引擎1.检索文字信息2.2 检索图片,视频信息2.3 倒排索引(快速检索)2.4 匹配排序TF-IDF2.4.1 TF-IDF原理2.4.2 检索中TFIDF的实现2.4.3 TFIDF的数学表达形式二、代码实现2.1 初步假定15篇文章2.2 TF-IDF2.3 问题向量化三、TFIDF的其他应用3.1 挑选文章关键词书山有路勤为径,学海无涯苦作舟。零、吃水不原创 2021-09-15 08:45:32 · 1214 阅读 · 0 评论