python和数据科学
文章平均质量分 87
龍言玄间
in RUC keep learning
展开
-
LSTM 长短期记忆
从RNN说起循环神经网络(Recurrent Neural Network,RNN)是一种用于处理序列数据的神经网络。相比一般的神经网络来说,他能够处理序列变化的数据。比如某个单词的意思会因为上文提到的内容不同而有不同的含义,RNN就能够很好地解决这类问题。如下图图片均来自台大李宏毅教授的PPTx为当前状态下数据的输入,h表示接收到的上一个节点的输入。y为当前节点状态下的输出,而 h‘为传递到下一个节点的输出。通过上图的公式可以看到,输出 h’ 与 x 和 h 的值都相关。而 y 则常常使用 h’ 投原创 2021-10-30 18:47:06 · 1402 阅读 · 0 评论 -
Word2Vec
Word2Vecone-hot 编码将词符号化,不包含任何语义信息。而且词的独热表示是高维的,需要赋予词语义信息和降低维度问题如何解决?word2vec是Google研究团队里的Tomas Mikolov等人于2013年的《Distributed Representations ofWords and Phrases and their Compositionality》以及后续的《Efficient Estimation of Word Representations in Vector Space原创 2021-10-27 21:05:04 · 598 阅读 · 0 评论 -
Neural Network Language Model
背景传统的统计语言模型的缺点,在高维的情况下,由于N元组的稀疏问题,传统的语言模型需要花大量时间解决平滑,插值等问题;N受限于算力,不大的时候文本的长距离依赖关系无法进行建模;同时N元组共现未必相似等问题。由于维度灾难(特别是离散变量),在高维下,数据的稀缺性,导致统计语言模型存在很多为零的条件概率,传统的统计语言模型也花费了很大的精力来处理零概率问题,比如现在有很多的平滑、插值、回退等方法用来解决该问题。语言模型的参数个数随阶数呈指数增长,所以一般情况统计语言模型使用的阶数不会很高,这样n-gra原创 2021-10-24 16:48:25 · 2795 阅读 · 0 评论 -
Statistical Language Model
Statistical Language Model模型介绍基于统计的方法实现NLP,假定S表示某个有意义的句子,由一连串特定顺序排列的词ω1,ω2,…,ωn组成,这里n是句子的长度。现在,我们想知道S在文本中出现的可能性,即S的概率P(S),则P(S)=P(ω1,ω2,…,ωn)。利用条件概率的公式:P(ω1,ω2,…,ωn)=P(ω1)•P(ω2|ω1)•P(ω3|ω1,ω2)•••P(ωn|ω1,ω2,…,ωn-1)条件概率怎么算?由于条件概率P(ωn|ω1,ω2,…,ωn-1)难以估算原创 2021-10-24 13:46:53 · 423 阅读 · 0 评论 -
色彩一致向量 CVC
色彩一直向量 CVC一、CCV的主要思想[1] 针对颜色直方图和颜色矩无法表达图像色彩的空间位置的缺点,Pass[9]提出了图像的颜色聚合向量(color coherence vector)。它是颜色直方图的一种演变,其核心思想是将属于直方图每一个bin的像素进行分为两部分:如果该bin内的某些像素所占据的连续区域的面积大于给定的阈值,则该区域内的像素作为聚合像素,否则作为非聚合像素。假设αi与βi分别代表直方图的第i个bin中聚合像素和非聚合像素的数量,图像的颜色聚合向量可以表达为<(α1原创 2021-10-16 19:53:33 · 401 阅读 · 0 评论 -
PyThorch自然语言处理(四)
单个神经元神经网络中计算的基本单元是神经元,一般称作「节点」(node)或者「单元」(unit)。节点从其他节点接收输入,或者从外部源接收输入,然后计算输出。每个输入都辅有「权重」(weight,即 w),权重取决于其他输入的相对重要性。节点将函数 f(定义如下)应用到加权后的输入总和。此网络接受 X1 和 X2 的数值输入,其权重分别为 w1 和 w2。另外,还有配有权重 b(称为「偏置(bias)」)的输入 1。(偏置的重要性:偏置的主要功能是为每一个节点提供可训练的常量值(在节点接收的正常输入以原创 2021-10-09 16:47:45 · 660 阅读 · 0 评论 -
PyThorch自然语言处理学习(三)
神经网络涉及到的基本概念激活函数损失函数优化器监督学习感知器感知器是最简单的神经网络,感知器是对生物的神经元的一种简单模仿,即单经元网络,有输入也有输出。一般来说感知器有多个输入,x和w是向量,x和w的乘积用点积来代替。 每个感知器单元有一个输入(x)和三个旋钮(knobs),一组权重(w),偏量(w)和一个激活函数(f)。权重和偏差都是从数据里进行学习,激活函数则是基于目标函数和程序员设计的。感知器表示为 y = f(wx+b)通常激活函数f是非线性函数,(wx+b)是显性原创 2021-09-23 10:49:21 · 393 阅读 · 0 评论 -
PyThorch自然语言处理(二)
自然语言处理(NLP)和计算语言学(CL)是人类语言计算研究的两个领域。NLP旨在开发解决涉及语言的实际问题的方法,如信息提取、自动语音识别、机器翻译、情绪分析、问答和总结。CL使用计算方法来理解人类语言的特性。语料库、令牌和类型无论是经典的还是现代的,都以文本数据集开始,也称为语料库(复数:corpora)。语料库通常有原始文本(ASCII或UTF-8格式)和与文本相关的任何元数据。原始文本是字符(字节)序列,但是大多数时候将字符分组成连续的称为令牌(Tokens)的连续单元是有用的。在英语原创 2021-09-19 10:55:46 · 741 阅读 · 0 评论 -
PyThorch的自然语言处理学习(一)
监督学习范式机器学习中的监督,或者简单的监督学习,是指将目标(被预测的内容)的ground truth用于观察(输入)的情况。observations:观察是想要预测的东西,用x表示观察值,观察值也叫做输入。targets:目标是和观察相对应的标签,通常是要被预测的事情,用y表示,也被称为ground truth。model:模型是一个数学表达式或者函数,受到一个观察值x,并预测其目标标签的值。parameters:表示权重,参数模型,用符号w表示。predictions:预测,也叫做估计,原创 2021-09-16 13:44:14 · 494 阅读 · 0 评论 -
分类——决策树模型
在分类问题中,表示基于特征对实例进行分类的过程,可以认为是if-then的集合,也可以认为是定义在特征空间与类空间上的条件概率分布。决策树是一种预测模型,对未标识的实例进行分类;也是一种描述性模型,标识哪些诶特在可以将实例从不同类里区分不来。决策树分类器是基于信息熵的学习。决策树学习的本质:从训练集中归纳出一组分类规则,或者说是由训练数据集估计条件概率模型。决策树原理和问答判断相似,根据一系列数据,判断是否,然后给出问题答案。因此决策树分类器的可解释性质较好。决策树学习用损失函数表示这一目标,其损失函数原创 2020-10-23 15:22:06 · 4647 阅读 · 0 评论 -
数据预处理——邻近度
邻近度(proximity)两个对象之间的相似度和相异度。相似度(similarity):衡量两个对象相似程度的数字度量,通常在0(不相似)和1(完全相似)之间。相异度(dissimilarity):又称为距离,衡量两个对象差异程度的数值度量,对象越类似相异度越低。通常[0,1]之间取值,但也有0到正无穷取值。相似性和相异性之间可以进行转化。s作为相似度符号;d作为相异度符号。1.针对单一属性类型的邻近度测量x,y是两个对象2.序数属性的邻近度测量序数属性,比如“差、一般、还ok、好、非原创 2020-10-09 16:28:32 · 3574 阅读 · 0 评论 -
数据预处理——数据特征选择
数据类型——面对什么数据数据质量——数据有什么问题数据预处理——如何解决数据问题数据量化表示——相似和相异如何量化表示数据类型和质量数据集:一个基本数据集是由对象和属性构成属性和度量变量1.绝对的:不同类别、有序的类别2.相对的:有意义的距离、完全的0测量常常是表示数据和现实之间的关系,不能完全的反映。**测量标度(measurement scale)**将数值或符号和对象的属性相关联的规则或函数,将一个值和一个特定对象的特定属性相关联。不同属性在、适用范围和操作方式上存在显著原创 2020-10-09 14:06:56 · 875 阅读 · 0 评论 -
pandas学习01
pandas的两种重要的数据类型DataFrame和Seriesimport numpy as npimport pandas as pdimport osos.getcwd()#查找当前工作目录'C:\\Users\\dell'#DataFrame相当于有表格,有行表头和列表头。在数据分析中很少直接定义一般采用外部导入文件df1 = pd.DataFrame(np.arange(10).reshape(2,5))df1 0原创 2020-07-29 16:04:00 · 269 阅读 · 0 评论 -
ML基本知识01——正态分布
正态分布正态分布(Normal distribution)又名高斯分布(Gaussian distribution),是一个在数学、物理及工程等领域都非常重要的概率分布。遵从正态分布的随机变量的概率规律为取 μ邻近的值的概率大 ,而取离μ越远的值的概率越小;σ越小,分布越集中在μ附近,σ越大,分布越分散。正态分布是一种概率分布,有两个参数μ和σ^2.两参数的连续型随机变量的分布。第一参数μ:遵从正态分布的随机变量的均值第二个参数σ^2:是此随机变量的方差,所以正态分布记作N(μ,σ^2 )。原创 2020-07-29 15:28:01 · 4096 阅读 · 0 评论 -
机器学习概述
以下内容是本人的看书看资料之后的理解引言万维网发明人Tim Berners-Lee将万维网发展划分为web1.0-web5.0。web1.0文档互联:初期实现文本传输和共享、文献信息服务结构业务高度相关,目的解决资源匮乏。web2.0人人互联:本质是社交网络,实现文档高度共享,如微信电商等等,是当下主要服务方式web3.0数据互联:大数据和物联网是这个阶段的特征,目标实现万物互联,数据的语义互联网和人工智能实现的方式。比如中国工业2025互联网。web4.0知识互联:建立起完善的机器认知系统,建原创 2020-07-28 21:45:29 · 104 阅读 · 0 评论 -
python小知识和技巧
1.python的代码类型1.1注释#注释可以单独占一行,也可以放在语句行的末尾。注明代码的内容。1.2魔术命令%为常见的任务提供便利,或帮助控制系统的行为。1.3装饰器@## 标题在不改变原有功能代码的基础上,添加额外的功能,如用户验证等。2.python的变量定义方法a='hello world'#赋值语句a为引用3.动态类型语言a='hi boy'a=1print(a)#得到的结果会是a=14.python基本数据类型python有六个标准的数据类型:Number(数原创 2020-07-26 10:59:21 · 199 阅读 · 0 评论