![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
nlp
自然语言处理
ithinking110
这个作者很懒,什么都没留下…
展开
-
TextRNN pytorch 面向对象实践
TextRNN 实践原创 2020-04-30 14:34:36 · 335 阅读 · 1 评论 -
用fasttext 训练
用fasttext 训练 下载fasttext编译 和安装使用fasttext变换数据使用和测试下载fasttext官网: https://github.com/facebookresearch/fastText编译 和安装wget https://github.com/facebookresearch/fastText/archiv/v0.9.1.zipunzip v0.9.1.zi...原创 2020-04-10 16:59:49 · 1619 阅读 · 7 评论 -
ubuntu 18.04+cuda10.1+cudnn 10.1安装
ubuntu 18.04+cuda10.2+cudnn 10.2安装安装显卡驱动cuda 安装选择 runfile(local) 安装过程有很多问题最好选择deb(local)cuda nn 安装深度学习后面很多高级知识 必须在linux 系统中, 所以安装了ubuntu也必须安装 cuda cudnn .安装 cuda 很多的坑 说多了都是泪。官网安装指导:https://do...原创 2020-03-27 17:16:27 · 11638 阅读 · 4 评论 -
genism 实现LDA
genism 实现LDA 理论知识可以参考这个文章这里只看简单实现: 调用 gensim 可以直接实现。from gensim import corpora, models, similaritiesimport numpy as np#将所有的语料 放入一个list中 用逗号隔开 每一个逗号 表示一篇文章documents = ["Human machine in...原创 2020-03-25 12:01:56 · 548 阅读 · 0 评论 -
SVD 在文章相似性 单词聚类的应用
SVD 在文章相似性 单词聚类的应用 前言SVD 在文章相似性 单词聚类的应用前言前面学过了 矩阵的 三种变换 :1, 特征值和特征向量Ax=λx2, 矩阵 SVD 分解Am×n=Um×m Σm×n Vn×n有时为了降低矩阵的维度到k,其它部分都为0,SVD的分解可以近似的写为:Am×n≈Um×k Σk×k Vk×n3, 矩阵分解A(mn) = U(mk) V(k*n)...原创 2020-03-24 16:34:53 · 718 阅读 · 0 评论 -
SVD 奇异值数学求解
SVD 奇异值数学求解特征值 和特征向量SVDSVD 计算举例SVD 到 一般的矩阵分解参考文献:特征值 和特征向量我们首先回顾下特征值和特征向量的定义如下:Ax=λx其中A是一个n×n的实对称矩阵,x是一个n维向量,则我们说λ是矩阵A的一个特征值,而x是矩阵A的特征值λ所对应的特征向量。 我们已经知道,矩阵和向量的乘法就相当于对该向量做了一个线性变换。在这个变换中,大部分的向量都发生...原创 2020-03-23 19:49:05 · 707 阅读 · 0 评论 -
tf-idf 原理及实践
tf-idf 原理及实践TF(Term Frequency,缩写为TF)逆文档频率"(IDF):TF-IDF代码实现TF(Term Frequency,缩写为TF)也就是词频啦,即一个词在文中出现的次数逆文档频率"(IDF):如果一个词越常见,那么分母就越大,逆文档频率就越小越接近0。分母之所以要加1,是为了避免分母为0(即所有文档都不包含该词)。log表示对得到的值取对用统计学语言...原创 2020-03-23 12:10:53 · 215 阅读 · 0 评论 -
一文看懂RNN
RNN 基本原理为什么需要RNN?记忆在机器里面存储经典RNNRNN 各种结构N VS 11 VS NN VS MAttention机制为什么需要RNN?既然我们已经有了人工神经网络和卷积神经网络,为什么还要循环神经网络?这是一般的神经网络应该有的结构:无论是卷积神经网络,还是人工神经网络,他们的前提假设都是:元素之间是相互独立的,输入与输出也是独立的,比如:给一个图片 识别出...原创 2020-03-18 15:55:30 · 834 阅读 · 0 评论 -
深度学习pytorch GPU windows 环境搭建
深度学习pytorch GPU windows 环境搭建遇到的问题安装过程安装显卡驱动安装cuda安装 cudnn安装pytorch遇到的问题接触pytorch 有一段时间了,一直想简单明了的编程环境 不想安装太多臃肿的东西。 以前一直是以pytorch cpu编程 简单的实现 发现这条路行不通。在实现 faster-rcnn 后发现ROI layer 必须是在gpu上跑 没有cpu...原创 2019-11-21 11:23:07 · 1479 阅读 · 1 评论 -
word2vec 训练细节
nlp之 word2vec 训练细节引言单词组合高频词抽样抽样率 也即是删除概率负采样如何选择negative words参考文献引言举个栗子,我们拥有10000个单词的词汇表,我们如果想嵌入300维的词向量,那么我们的输入-隐层权重矩阵和隐层-输出层的权重矩阵都会有 10000 x 300 = 300万个权重,在如此庞大的神经网络中进行梯度下降是相当慢的。更糟糕的是,你需要大量的训练数...原创 2020-01-09 17:24:33 · 393 阅读 · 0 评论 -
nlp之word2vec 词向量理解
nlp之 word2vect计算机理解的语言图片理解文字理解one -hot 方式分布式词向量分布式词向量求解过程计算机理解的语言图片理解我们前面 在KNN 中 处理图片1,将图片变成 灰度图2,将图片变成 01 文本文件 32*32上图表示的是 0 。 上图中 0 表示没有像素的地方 1表示 手写过的地方有像素3,将这个图片变成 1*1024 的一个向量 :[ 0...原创 2020-01-08 17:57:33 · 476 阅读 · 0 评论 -
n-gram模型
NLP之n-gram模型一、什么是n-gram模型二、n-gram模型用于评估语句是否合理三、二元语言模型判断句子是否合理四、N-gram模型的一个常见应用五、n-gram的n大小对性能的影响一、什么是n-gram模型N-Gram是一种基于统计语言模型的算法。它的基本思想是将文本里面的内容按照字节进行大小为N的滑动窗口操作,形成了长度是N的字节片段序列。每一个字节片段称为gram,对所有gr...转载 2019-12-25 17:31:50 · 974 阅读 · 0 评论 -
NLP之通过词频发现中文新词
NLP之通过词频发现中文新词新词发现文本片段代码实现计算自由度新词发现新词发现任务是中文自然语言处理的重要步骤。新词有“新”就有“旧”,属于一个相对个概念,在相对的领域(金融、医疗),在相对的时间(过去、现在)都存在新词。文本挖掘会先将文本分词,而通用分词器精度不过,通常需要添加自定义字典补足精度,所以发现新词并加入字典,成为文本挖掘的一个重要工作。这个和 HMM 发现未登录词还有区别,HM...原创 2019-12-25 17:05:54 · 1148 阅读 · 0 评论 -
NLP之HMM(隐马尔可夫)
NLP之HMM原创 2019-12-20 17:56:23 · 440 阅读 · 0 评论 -
NLP之jieba分词
NLP之分词为什么要分词分词的难点歧义消解问题未登录词识别常见分词方法基于字典、词库匹配的分词基于词频统计的分词基于知识理解的分词分词工具前缀词典有向无环图DAG基于词频的最大切分为什么要分词图像处理:我们在前面学KNN 的时候 ,知道图像是将 一幅图 转换成 灰度图 ,然后在转换成 0101然后变成 一个 [ 1024] 的向量 。文本:我们一般先将一个文本先切成 单个 ...原创 2019-12-19 17:46:17 · 537 阅读 · 0 评论 -
NLP之常见任务
NLP之常见任务前言词级 任务分词词性标注词义消歧词命名实体识别词向量未登录词句子任务情感分析关系提取意图识别依存句法分析角色标注浅层语义分析指代消解文章任务信息抽取本体提取事件抽取主题抽取文档聚类舆情分析篇章理解自动文摘Seq2seq机器人问答QA机器翻译知识图谱前言前面已经学过了很多机器学习方面的算法了。如果入门了, 从这节开始 准备给大家分享 nlp 方面的任务了。 前面我也说过找准一...原创 2019-12-17 16:10:13 · 252 阅读 · 0 评论 -
机器学习之KNN
监督学习之KNN物以类聚,人以群分。 身边的朋友的收入加起来的平均 就是你的收入。KNN 的思想也就是这样。 k-NearestNeighbor 距离最近要预测的数据 最近的 K 个 数据 他们的标签 就是预测数据的标签。大致步骤:1,将预测的数据 和 全部的 历史数据样本 进行 求距离2,按照距离算出 最近的K个距离点。3,判断最近K个距离点 做的最多的标记的 就是预测点。...原创 2019-11-26 11:28:33 · 385 阅读 · 0 评论 -
白话监督学习和无监督学习
白话监督学习和无监督学习引言机器学习 分类监督学习无监督学习引言前面给大家初步讲解了 什么叫做 机器学习,大家不要被这个名字 迷惑了,我觉得找规律 更能让人接受一些 ,机器学习有点抽象 也有点吓人。现在的机器没有逻辑推理能力只能去做一些 有规律或者重复脑动力的 这样的活。没有规律需要思考 联想的机器暂时还办不到 。以后说不定可以办到 ,所以我们用找规律这个词 让初学者更容易接受一些,入门了 我...原创 2019-11-25 17:10:43 · 363 阅读 · 0 评论 -
什么是人工智能 and 怎么学习它
什么是人工智能 and 怎么学习它 ?什么是人工智能?机器学习:深度学习:怎么学习重要的事情说三遍选择一个适合自己的方向去实践 :近几年人工智能大火了一把,很多都是炒作概念。弄的一些专业词也看着非常高大上,很多人都是望而却步。 找了很多方面的视频 和资料 发现都是博士视角讲解,数学功底比较弱的同学都感觉比较吃力。后面的我将会以本科生的视角给入门 nlp ,图像处理方向的专业知识。 其实在实际 ...原创 2019-11-22 15:49:11 · 268 阅读 · 0 评论