自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

原创 贪心学院—自然语言处理—总结

贪心学院—自然语言处理—基础介绍更新中…

2020-07-02 15:26:48 124

转载 Word统一为中文符号或英文符号

Word必备工具箱下载链接:https://www.cr173.com/soft/29795.html

2020-07-31 17:24:58 9

转载 Word一栏两栏

标题摘要为一栏,正文为两栏a.原始文件为两栏文件(1)光标在正文最开始,插入连续的分节符(布局-分隔符-分节符-连续)(2)光标移至标题摘要部分,选择栏为一栏b. 原始文件为一栏文件(1)同a(1)在标题摘要和正文间插入连续分节符(2)光标移至正文部分,选择栏为两栏正文中的某一部分为一栏,其余还是两栏(1)在某一部分开始,结束地方分别加入连续分节符(2)光标移至某一部分内,选择栏为一栏...

2020-07-21 15:02:21 26

转载 贪心学院—自然语言处理—词向量的总结

词向量的总结个人整理笔记,方便复习,若侵权,请联系。附贪心学院课程链接: https://www.greedyai.com/courseinfor/105

2020-07-03 10:00:50 84

转载 贪心学院—自然语言处理—字符向量

字符向量字符向量理解适用情况字符向量理解字符向量的出现是为了解决在NLP中未登录词(out of vocabulary)。subword主要思想是将已有的分词自定义的字符大小将一个分词再细分为几个字符,将一个词向量转换为该分词字符向量的表示。深入理解NLP Subword算法:BPE、WordPiece、ULM上图设置的字符大小为4(词向量中4个字符表示一行),而一个词的词向量是由它所分的字符向量表示。再通过skip-gram模型求其概率。适用情况具有某些形态特征的语言(如英语的ing/

2020-07-03 09:59:24 74

转载 贪心学院—自然语言处理—评估词向量

使用上述方法替代目标函数后Negative Sampling:正样本(文本中出现的组合)是一定的,负样本(文本中为出现的组合)较多,该方法的思想在于:计算时不使用全部的负样本而是随机采样,采样个数可自己设置。下图为采样个数设为2的情况:在确定好样本后,进行梯度下降更新。Skip-Gram model with SGD (skip-gram模型使用梯度下降的大致过程)评估词向量:TSNE对训练得到的词向量降维到二维空间进行观察;与已有的数据进行相似度对比;类比(analogy):wom

2020-07-02 23:58:45 584

转载 贪心学院—自然语言处理—分布式向量表示

分布式向量分布式Word2Vec分布式相当于不同分词对结果的贡献程度。Word2Vec[NLP] 秒懂词向量Word2vec的本质重点:当模型训练完后,最后得到的、是神经网络的权重,比如现在输入一个 x 的 one-hot encoder: [1,0,0,…,0],对应输入的某个分词,则在输入层到隐含层的权重里,只有对应 1 这个位置的权重被激活,这些权重的个数,跟隐含层节点数是一致的,从而这些权重组成一个向量 V 来表示x,而因为每个分词的 one-hot encoder 里面 1 的位置是不同

2020-07-02 23:56:22 43

转载 贪心学院—自然语言处理—分词原理

分词原理前向最大匹配(forward-max matching)后向最大匹配(backward-max matching)维特比算法(viterbi algorithm)前向最大匹配(forward-max matching)根据自定义的max_length来对文本进行分词及判断。从前开始匹配。后向最大匹配(backward-max matching)从后开始匹配。缺点:未考虑语义信息效率基于max_length维特比算法(viterbi algorithm)百度百科解释。考虑语义,将

2020-07-02 22:29:29 68

转载 贪心学院—自然语言处理—基础介绍

基础介绍自然语言处理(natural language processing)NLP的维度NLP项目的实验流程自然语言处理(natural language processing)NLP=NLU(nature language understanding)+NLG(nature language generate)即自然语言处理是先理解自然语言,然后根据理解生成回复目前领域面临的问题:一词多义(ambiguity)NLP的维度由底层到高层的过程:声音:最底层的形式单词(morphology)

2020-07-02 16:11:11 52

转载 贪心学院—自然语言处理—向量表示

基础知识1. 文本向量的表示one-hot编码表示(向量长度=词典大小)Boolean Representation:未出现记为0,出现记为1.Count-based Representation:未出现记为0,出现记出现的次数.举例:TF-IDF表示TFIDF(w)=TF(d,w)∗IDF(w)TFIDF\left( w \right) =TF\left( d,w \right) *IDF\left( w \right) TFIDF(w)=TF(d,w)∗IDF(w)TF

2020-06-30 19:22:29 61

转载 自然语言处理—向量表示

目录将分词进行向量化的表示独热表示(one-hot representation)词空间模型(word space model)1.基于矩阵的分布表示2.基于聚类的分布方法3.基于神经网络的分布方法语言模型常用模型:将分词进行向量化的表示独热表示(one-hot representation)仅符号化词,不包含任何语义信息。词空间模型(word space model)用于词义消歧。目前被直接成为分布表示(distributional representation)<二十世纪90年代&gt

2020-06-30 19:20:06 70

转载 贪心学院—自然语言处理—n元元组

假设:一个文档的分词w1w_1w1​,w2w_2w2​,w3w_3w3​,…,wnw_nwn​.unigram(一元元组):句子中每个分词都是独立的.将每个分词的概率直接相乘即可.p(w)=p(w1)∗p(w2)∗p(w3)...∗p(wn)p\left( w \right) =p\left( w_1 \right) *p\left( w_2 \right) *p\left( w_3 \right) ...*p\left( w_n \right)p(w)=p(w1​)∗p(w2​)∗p(w3​).

2020-06-30 19:15:17 42

转载 R绘制 UpSet图及参数设置

参考链接:R语言之可视化④韦恩图upsetR在链接代码中添加 order.by = "freq"可降序排列。比较符合个人审美 的参数设置参数解释:

2020-06-27 11:58:04 119

转载 软件著作权流程及所需材料

登录 中国版权保护中心http://www.ccopyright.com.cn/ 先进行注册 IE浏览器 不是Microsoft Edge登录点击 我要登记-R11.计算机软件著作权登记申请 进行申请表的填写注意: 浏览器-设置-兼容性视图添加将该网站填完保存,将申请表直接打印或打印为pdf保存,在 我的登记可看到相关信息准备一下材料a. 上述的申请表,需要填写文档页数及签字b. 程序的源码,包括源码的前30页和后30页。若代码不足60页,要提供全部源..

2020-06-11 18:07:19 154

转载 github突然访问不了的解决方法

github突然访问不了的解决方法附加:查网页的ip地址hosts文件是Windows系统中一个负责IP地址与域名快递解析的文件,以ASCLL格式保存。计算机在键入域名(比如www.baidu.com)的时候,首先会去看看hosts文件汇总有没有关于此域名IP地址的记录。如果有,就直接登陆该网站;如果没有再查询DNS服务器。...

2020-06-10 09:39:08 366

转载 名词性的简单解释

帕累托最优(Pareto Optimality):固有资源下,不使任何人变坏的前提下,使至少一个人变好。

2020-06-10 07:55:00 81

转载 数据挖掘与python实践测验与作业 mooc

数据挖掘与python实践李爱华 、孟凡 、宿洁 、贾传亮 、井帅视频链接第一单元 导言第二单元 认识数据第三单元 数据预处理第四单元 关联规则挖掘第五单元 分类第六单元 数值预测第七单元 聚类分析第八单元 复杂数据的挖掘...

2020-06-07 08:33:53 242

转载 第八单元 复杂数据的挖掘

第八单元 复杂数据的挖掘下列属于异质网络的是( )A.合著者网络B.朋友网络C.在线医疗网络D.网页网络机动车辆管理者把GPS安装在汽车上,以便更好地监管和引导车辆,所记录的数据属于( )A.时空数据B.Web数据C.空间数据D.物联网系统数据典型的文本挖掘任务包括( )A.文本分类B.文本聚类C.以上都是D.观点分析( )是指大量流入系统、动态变化的、可能无限的,并且包含多维特征的数据。A.流数据B.符号数据C.序列数据D.文本数据

2020-06-07 08:29:58 126

转载 第七单元 聚类分析

第七单元 聚类分析通过代码”from sklearn.cluster import KMeans”引入Kmenas模块,生成模型对象“kmeans = KMeans(n_clusters=2)”后,对于数据X训练时要调用的方法是()。A.kmeans.fit()B.kmaens.fit()C.kmaens.train()D.kmeans.train()通过代码”from sklearn.cluster import KMeans”引入Kmenas模块后,生成模型对象“kmeans = K

2020-06-07 08:16:51 259

转载 第六单元 数值预测

第六单元 数值预测通过代码”from sklearn import linear_model”引入线性模型模块,并通过代码“reg = linear_model.LinearRegression()”构造回归器对象,在训练后做预测时要调用的方法是( )。A.reg.outlook()B.reg.predict()C.reg.forecast()D.reg.guess()利用“linear_model.LinearRegression()”训练模型时调用.fit()方法需要传递的第一个参数

2020-06-07 08:00:09 138

转载 第五单元 分类

第五单元 分类通过代码“from sklearn import tree”引入决策树模块,并通过代码“clf = tree.DecisionTreeClassifier()”构造分类器对象后,训练时要调用的方法是( )。A.clf.fit()B.clf.predict()C.clf.train()D.clf.learn()通过代码“from sklearn import tree”引入决策树模块,并通过代码“clf = tree.DecisionTreeClassifier()”构造分

2020-06-07 07:42:34 202

转载 第四单元 关联规则挖掘

第四单元 关联规则挖掘Python在调用efficient-apriori包中的apriori函数进行挖掘关联规则时,第一个返回值是()。A.关联规则B.频繁项集C.最小置信度D.最小支持度Python在调用efficient-apriori包中的apriori函数进行挖掘关联规则时,第二个返回值是()。A.关联规则B.最小支持度C.频繁项集D.最小置信度如下表所示,X={butter,cheese},则支持度support(X)=()。交易号(TID)商品(Items)

2020-06-07 07:24:15 216

转载 第三单元 数据预处理

加粗为答案第三单元测验运行以下代码from sklearn.datasets import load_irisiris_data = load_iris()iris_data.data.shape输出结果为(150, 4)。则表示iris数据集包括样本个数为( )。A.154B.600C.4D.150在Numpy包中,计算标准差的函数为( )。A.numpy.mean()B.numpy.var()C.numpy.median()D.numpy.std()给定df

2020-06-06 22:41:28 205

转载 第二单元 认识数据

加粗为答案第二单元测验下列对学生相关属性描述中,不是标称属性的是( )。A.学号B.婚姻状况C.身高D.头发颜色下列哪些选项能表示序数属性的数据集中趋势度量( )。A.四分位数B.众数C.均值D.标准差( )可以观察从一个分布到另一分布是否有漂移。A.盒图B.分位数-分位数图C.散点图D.直方图度量作为一种测度,满足以下哪些条件:A.以上均是B.同一性C.三角不等式D.对称性Python科学计算的基本包是( )。A.PandasB.N

2020-06-06 22:23:45 123

转载 第一单元 导言

加粗为答案第一单元测验数据挖掘又称从数据中发现知识,后者英文简称为(C )。A.KPDB.KPPC.KDD Knowledge discovery from databaseD.KDP数据挖掘又称从数据中发现知识,前者英文简称为( )。A.DDB.KPPC.DM Data MiningD.KDD结构化的数据是指一些数据通过统一的( )的形式存储的,这类数据我们称为结构化的数据。A.文档B.二维表格C.图像D.声音数值预测用于连续变量的取值,常用的预测方法

2020-06-06 22:12:06 116

转载 机器学习的一些题

Ctr+F打开搜索框,搜索关键字关于梯度下降算法,一下说法正确的是(D)A. 随机梯度下降算法是每次考虑单个样本进行权重更新B. Mini-batch梯度下降算法是批量梯度下降算法和随机梯度下降算法的折中C. 批量梯度下降算法是每次考虑整个训练集进行权重更新D.以上都对哪种策略可以加速词向量训练(B)A.para2vectB.层级softmaxC.最大似然估计D.以上都不对以下哪种不是自适应学习率方法(A)A.Mini-batch SGBB.AdagradC.RMSp

2020-06-05 00:24:11 284

翻译 机器学习-周志华-第5章 神经网络

文章目录基本基本

2020-06-02 08:17:19 86

转载 SPSS的实际操作

参数检验是基于总体分布已知(如正态分布)、总体方差相等的对未知参数(如总体均数的比较)进行的检验。非参数检验则是对总体分布未知或已知某总体分布与所要求的检验使用条件不符时所采用的一种对总体分布位置进行的检验。willcoxon符号秩检验 医学数据spss非参数检验配对样本比较的Wilcoxon符号秩检验——杏花开医学统计...

2020-05-26 10:12:07 171

转载 SSR、SSE、SST、R^2、调整R^2

R2R^2R2与调整后R2R^2R2计算公式如下。详解方差分析表(ANOVA)(二) —— SST、SSE、SSR和它们的自由度SSR、SSE、SST、判定系数(可决系数、拟合优度)的计算公式数学建模学习交流

2020-05-26 06:51:31 493

转载 vscode/git链接

亲测链接vscode里div等html标签代码补全ttps://www.cnblogs.com/katrina-leng/p/9456915.html

2020-05-18 16:28:27 1259

转载 数据预处理

文章目录数据预处理特征选择特征提取数据预处理特征选择选择重要的属性集合特征提取对属性进行重新组合,获得新的属性

2020-05-17 23:44:13 331

翻译 机器学习-周志华-第3章 线性模型

文章目录基本基本总结:根据属性,学得一个f(x)的模型

2020-05-17 13:24:13 173

翻译 弹性反向传播算法

Rprop( resilient backpropagation ):弹性反向传播算法。分为两步,一是调整步长,而是根据步长调整权重。+表示权重会回退,-表示不会回退。公式中字符的表示:步长调整规则:(以下算法通用)Rprop+Rprop-iRprop+iRprop-...

2020-05-10 16:19:17 171

转载 Latex的一些些符号

这里写自定义目录标题集合:并集交集空集集合:并集$\cup$交集$\cap$空集$\emptyset$

2020-05-10 11:13:49 28

原创 Borderline-SMOTE

具体结果

2020-05-09 15:58:02 186

转载 MATLAB查看代码运行时间调用次数

MATLAB查看代码运行时间调用次数命令行窗口输入:profile viewer探查器不显示内容(2019a版本)

2020-05-09 12:13:08 259

转载 python 提取函数名/变量名(或将函数名/变量名转换为字符串)

目的:传入函数/变量,得到相应的函数名/变量名代码:import inspect, re# 提取变量或函数名def varname(p): for line in inspect.getframeinfo(inspect.currentframe().f_back)[3]: m = re.search(r'\bvarname\s*\(\s*([A-Za-z_][A-Za-z0-9_]*)\s*\)', line) if m: return m.gro

2020-05-09 10:55:17 112

转载 pandas DataFrame的错误

TypeError: unhashable type: ‘slice’原因:没有正确索引到相应的值解决:使用 .iloc和 .values举例:

2020-05-07 23:14:39 72

转载 pip 的一些命令

1. 设置超时时间为100秒pip install 库名称 -timeout=1002. 更换下载镜像源 (清华的大学的镜像)pip install -i https://pypi.tuna.tsinghua.edu.cn/simple 库名称其他镜像地址阿里云 http://mirrors.aliyun.com/pypi/simple/中国科技大学 https://pypi.m...

2020-05-06 23:51:37 26

原创 写给某某某

待你如师,更如父。

2020-05-03 17:44:45 45

提示
确定要删除当前文章?
取消 删除