- 博客(16)
- 资源 (10)
- 收藏
- 关注
转载 贪心学院—自然语言处理—向量表示
基础知识1. 文本向量的表示one-hot编码表示(向量长度=词典大小)Boolean Representation:未出现记为0,出现记为1.Count-based Representation:未出现记为0,出现记出现的次数.举例:TF-IDF表示TFIDF(w)=TF(d,w)∗IDF(w)TFIDF\left( w \right) =TF\left( d,w \right) *IDF\left( w \right) TFIDF(w)=TF(d,w)∗IDF(w)TF
2020-06-30 19:22:29 329
转载 自然语言处理—向量表示
目录将分词进行向量化的表示独热表示(one-hot representation)词空间模型(word space model)1.基于矩阵的分布表示2.基于聚类的分布方法3.基于神经网络的分布方法语言模型常用模型:将分词进行向量化的表示独热表示(one-hot representation)仅符号化词,不包含任何语义信息。词空间模型(word space model)用于词义消歧。目前被直接成为分布表示(distributional representation)<二十世纪90年代>
2020-06-30 19:20:06 868
转载 贪心学院—自然语言处理—n元元组
假设:一个文档的分词w1w_1w1,w2w_2w2,w3w_3w3,…,wnw_nwn.unigram(一元元组):句子中每个分词都是独立的.将每个分词的概率直接相乘即可.p(w)=p(w1)∗p(w2)∗p(w3)...∗p(wn)p\left( w \right) =p\left( w_1 \right) *p\left( w_2 \right) *p\left( w_3 \right) ...*p\left( w_n \right)p(w)=p(w1)∗p(w2)∗p(w3).
2020-06-30 19:15:17 566
转载 R绘制 UpSet图及参数设置
参考链接:R语言之可视化④韦恩图upsetR在链接代码中添加 order.by = "freq"可降序排列。比较符合个人审美 的参数设置参数解释:
2020-06-27 11:58:04 5034 2
转载 软件著作权流程及所需材料
登录 中国版权保护中心http://www.ccopyright.com.cn/ 先进行注册 IE浏览器 不是Microsoft Edge登录点击 我要登记-R11.计算机软件著作权登记申请 进行申请表的填写注意: 浏览器-设置-兼容性视图添加将该网站填完保存,将申请表直接打印或打印为pdf保存,在 我的登记可看到相关信息准备一下材料a. 上述的申请表,需要填写文档页数及签字b. 程序的源码,包括源码的前30页和后30页。若代码不足60页,要提供全部源..
2020-06-11 18:07:19 394
转载 数据挖掘与python实践测验与作业 mooc
数据挖掘与python实践李爱华 、孟凡 、宿洁 、贾传亮 、井帅视频链接第一单元 导言第二单元 认识数据第三单元 数据预处理第四单元 关联规则挖掘第五单元 分类第六单元 数值预测第七单元 聚类分析第八单元 复杂数据的挖掘...
2020-06-07 08:33:53 941
转载 第八单元 复杂数据的挖掘
第八单元 复杂数据的挖掘下列属于异质网络的是( )A.合著者网络B.朋友网络C.在线医疗网络D.网页网络机动车辆管理者把GPS安装在汽车上,以便更好地监管和引导车辆,所记录的数据属于( )A.时空数据B.Web数据C.空间数据D.物联网系统数据典型的文本挖掘任务包括( )A.文本分类B.文本聚类C.以上都是D.观点分析( )是指大量流入系统、动态变化的、可能无限的,并且包含多维特征的数据。A.流数据B.符号数据C.序列数据D.文本数据
2020-06-07 08:29:58 695
转载 第七单元 聚类分析
第七单元 聚类分析通过代码”from sklearn.cluster import KMeans”引入Kmenas模块,生成模型对象“kmeans = KMeans(n_clusters=2)”后,对于数据X训练时要调用的方法是()。A.kmeans.fit()B.kmaens.fit()C.kmaens.train()D.kmeans.train()通过代码”from sklearn.cluster import KMeans”引入Kmenas模块后,生成模型对象“kmeans = K
2020-06-07 08:16:51 2008
转载 第六单元 数值预测
第六单元 数值预测通过代码”from sklearn import linear_model”引入线性模型模块,并通过代码“reg = linear_model.LinearRegression()”构造回归器对象,在训练后做预测时要调用的方法是( )。A.reg.outlook()B.reg.predict()C.reg.forecast()D.reg.guess()利用“linear_model.LinearRegression()”训练模型时调用.fit()方法需要传递的第一个参数
2020-06-07 08:00:09 1414
转载 第五单元 分类
第五单元 分类通过代码“from sklearn import tree”引入决策树模块,并通过代码“clf = tree.DecisionTreeClassifier()”构造分类器对象后,训练时要调用的方法是( )。A.clf.fit()B.clf.predict()C.clf.train()D.clf.learn()通过代码“from sklearn import tree”引入决策树模块,并通过代码“clf = tree.DecisionTreeClassifier()”构造分
2020-06-07 07:42:34 2716
转载 第四单元 关联规则挖掘
第四单元 关联规则挖掘Python在调用efficient-apriori包中的apriori函数进行挖掘关联规则时,第一个返回值是()。A.关联规则B.频繁项集C.最小置信度D.最小支持度Python在调用efficient-apriori包中的apriori函数进行挖掘关联规则时,第二个返回值是()。A.关联规则B.最小支持度C.频繁项集D.最小置信度如下表所示,X={butter,cheese},则支持度support(X)=()。交易号(TID)商品(Items)
2020-06-07 07:24:15 2530
转载 第三单元 数据预处理
加粗为答案第三单元测验运行以下代码from sklearn.datasets import load_irisiris_data = load_iris()iris_data.data.shape输出结果为(150, 4)。则表示iris数据集包括样本个数为( )。A.154B.600C.4D.150在Numpy包中,计算标准差的函数为( )。A.numpy.mean()B.numpy.var()C.numpy.median()D.numpy.std()给定df
2020-06-06 22:41:28 2653
转载 第二单元 认识数据
加粗为答案第二单元测验下列对学生相关属性描述中,不是标称属性的是( )。A.学号B.婚姻状况C.身高D.头发颜色下列哪些选项能表示序数属性的数据集中趋势度量( )。A.四分位数B.众数C.均值D.标准差( )可以观察从一个分布到另一分布是否有漂移。A.盒图B.分位数-分位数图C.散点图D.直方图度量作为一种测度,满足以下哪些条件:A.以上均是B.同一性C.三角不等式D.对称性Python科学计算的基本包是( )。A.PandasB.N
2020-06-06 22:23:45 1685
转载 第一单元 导言
加粗为答案第一单元测验数据挖掘又称从数据中发现知识,后者英文简称为(C )。A.KPDB.KPPC.KDD Knowledge discovery from databaseD.KDP数据挖掘又称从数据中发现知识,前者英文简称为( )。A.DDB.KPPC.DM Data MiningD.KDD结构化的数据是指一些数据通过统一的( )的形式存储的,这类数据我们称为结构化的数据。A.文档B.二维表格C.图像D.声音数值预测用于连续变量的取值,常用的预测方法
2020-06-06 22:12:06 767
转载 机器学习的一些题
Ctr+F打开搜索框,搜索关键字关于梯度下降算法,一下说法正确的是(D)A. 随机梯度下降算法是每次考虑单个样本进行权重更新B. Mini-batch梯度下降算法是批量梯度下降算法和随机梯度下降算法的折中C. 批量梯度下降算法是每次考虑整个训练集进行权重更新D.以上都对哪种策略可以加速词向量训练(B)A.para2vectB.层级softmaxC.最大似然估计D.以上都不对以下哪种不是自适应学习率方法(A)A.Mini-batch SGBB.AdagradC.RMSp
2020-06-05 00:24:11 3759
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人