2020年06月_拙小拙

12月 11月 10月 09月 08月 07月 06月 05月 04月 03月 02月 01月

转载贪心学院—自然语言处理—向量表示

基础知识1. 文本向量的表示one-hot编码表示（向量长度=词典大小）Boolean Representation:未出现记为0,出现记为1.Count-based Representation:未出现记为0，出现记出现的次数.举例：TF-IDF表示TFIDF(w)=TF(d,w)∗IDF(w)TFIDF\left( w \right) =TF\left( d,w \right) *IDF\left( w \right) TFIDF(w)=TF(d,w)∗IDF(w)TF

2020-06-30 19:22:29 329

转载自然语言处理—向量表示

目录将分词进行向量化的表示独热表示（one-hot representation）词空间模型（word space model）1.基于矩阵的分布表示2.基于聚类的分布方法3.基于神经网络的分布方法语言模型常用模型：将分词进行向量化的表示独热表示（one-hot representation）仅符号化词，不包含任何语义信息。词空间模型（word space model）用于词义消歧。目前被直接成为分布表示（distributional representation）<二十世纪90年代&gt

2020-06-30 19:20:06 868

转载贪心学院—自然语言处理—n元元组

假设：一个文档的分词w1w_1w1,w2w_2w2,w3w_3w3,…,wnw_nwn.unigram（一元元组）：句子中每个分词都是独立的.将每个分词的概率直接相乘即可.p(w)=p(w1)∗p(w2)∗p(w3)...∗p(wn)p\left( w \right) =p\left( w_1 \right) *p\left( w_2 \right) *p\left( w_3 \right) ...*p\left( w_n \right)p(w)=p(w1)∗p(w2)∗p(w3).

2020-06-30 19:15:17 566

转载 R绘制 UpSet图及参数设置

参考链接：R语言之可视化④韦恩图upsetR在链接代码中添加 order.by = "freq"可降序排列。比较符合个人审美的参数设置参数解释：

2020-06-27 11:58:04 5034 2

转载软件著作权流程及所需材料

登录中国版权保护中心http://www.ccopyright.com.cn/ 先进行注册 IE浏览器不是Microsoft Edge登录点击我要登记-R11.计算机软件著作权登记申请进行申请表的填写注意：浏览器-设置-兼容性视图添加将该网站填完保存，将申请表直接打印或打印为pdf保存，在我的登记可看到相关信息准备一下材料a. 上述的申请表，需要填写文档页数及签字b. 程序的源码，包括源码的前30页和后30页。若代码不足60页，要提供全部源..

2020-06-11 18:07:19 394

转载名词性的简单解释

帕累托最优（Pareto Optimality）：固有资源下，不使任何人变坏的前提下，使至少一个人变好。

2020-06-10 07:55:00 351

转载数据挖掘与python实践测验与作业 mooc

数据挖掘与python实践李爱华、孟凡、宿洁、贾传亮、井帅视频链接第一单元导言第二单元认识数据第三单元数据预处理第四单元关联规则挖掘第五单元分类第六单元数值预测第七单元聚类分析第八单元复杂数据的挖掘...

2020-06-07 08:33:53 941

转载第八单元复杂数据的挖掘

第八单元复杂数据的挖掘下列属于异质网络的是（）A.合著者网络B.朋友网络C.在线医疗网络D.网页网络机动车辆管理者把GPS安装在汽车上，以便更好地监管和引导车辆，所记录的数据属于（）A.时空数据B.Web数据C.空间数据D.物联网系统数据典型的文本挖掘任务包括（）A.文本分类B.文本聚类C.以上都是D.观点分析（）是指大量流入系统、动态变化的、可能无限的，并且包含多维特征的数据。A.流数据B.符号数据C.序列数据D.文本数据

2020-06-07 08:29:58 695

转载第七单元聚类分析

第七单元聚类分析通过代码”from sklearn.cluster import KMeans”引入Kmenas模块，生成模型对象“kmeans = KMeans(n_clusters=2)”后，对于数据X训练时要调用的方法是（）。A.kmeans.fit()B.kmaens.fit()C.kmaens.train()D.kmeans.train()通过代码”from sklearn.cluster import KMeans”引入Kmenas模块后，生成模型对象“kmeans = K

2020-06-07 08:16:51 2008

转载第六单元数值预测

第六单元数值预测通过代码”from sklearn import linear_model”引入线性模型模块，并通过代码“reg = linear_model.LinearRegression()”构造回归器对象，在训练后做预测时要调用的方法是（）。A.reg.outlook()B.reg.predict()C.reg.forecast()D.reg.guess()利用“linear_model.LinearRegression()”训练模型时调用.fit()方法需要传递的第一个参数

2020-06-07 08:00:09 1414

转载第五单元分类

第五单元分类通过代码“from sklearn import tree”引入决策树模块，并通过代码“clf = tree.DecisionTreeClassifier()”构造分类器对象后，训练时要调用的方法是（）。A.clf.fit()B.clf.predict()C.clf.train()D.clf.learn()通过代码“from sklearn import tree”引入决策树模块，并通过代码“clf = tree.DecisionTreeClassifier()”构造分

2020-06-07 07:42:34 2716

转载第四单元关联规则挖掘

第四单元关联规则挖掘Python在调用efficient-apriori包中的apriori函数进行挖掘关联规则时，第一个返回值是（）。A.关联规则B.频繁项集C.最小置信度D.最小支持度Python在调用efficient-apriori包中的apriori函数进行挖掘关联规则时，第二个返回值是（）。A.关联规则B.最小支持度C.频繁项集D.最小置信度如下表所示，X={butter,cheese}，则支持度support(X)=（）。交易号（TID）商品（Items）

2020-06-07 07:24:15 2530

转载第三单元数据预处理

加粗为答案第三单元测验运行以下代码from sklearn.datasets import load_irisiris_data = load_iris()iris_data.data.shape输出结果为(150, 4)。则表示iris数据集包括样本个数为（）。A.154B.600C.4D.150在Numpy包中，计算标准差的函数为（）。A.numpy.mean()B.numpy.var()C.numpy.median()D.numpy.std()给定df

2020-06-06 22:41:28 2653

转载第二单元认识数据

加粗为答案第二单元测验下列对学生相关属性描述中，不是标称属性的是（）。A.学号B.婚姻状况C.身高D.头发颜色下列哪些选项能表示序数属性的数据集中趋势度量（）。A.四分位数B.众数C.均值D.标准差（）可以观察从一个分布到另一分布是否有漂移。A.盒图B.分位数-分位数图C.散点图D.直方图度量作为一种测度，满足以下哪些条件：A.以上均是B.同一性C.三角不等式D.对称性Python科学计算的基本包是（）。A.PandasB.N

2020-06-06 22:23:45 1685

转载第一单元导言

加粗为答案第一单元测验数据挖掘又称从数据中发现知识，后者英文简称为（C ）。A.KPDB.KPPC.KDD Knowledge discovery from databaseD.KDP数据挖掘又称从数据中发现知识，前者英文简称为（）。A.DDB.KPPC.DM Data MiningD.KDD结构化的数据是指一些数据通过统一的（）的形式存储的，这类数据我们称为结构化的数据。A.文档B.二维表格C.图像D.声音数值预测用于连续变量的取值，常用的预测方法

2020-06-06 22:12:06 767

转载机器学习的一些题

Ctr+F打开搜索框，搜索关键字关于梯度下降算法，一下说法正确的是（D）A. 随机梯度下降算法是每次考虑单个样本进行权重更新B. Mini-batch梯度下降算法是批量梯度下降算法和随机梯度下降算法的折中C. 批量梯度下降算法是每次考虑整个训练集进行权重更新D.以上都对哪种策略可以加速词向量训练（B）A.para2vectB.层级softmaxC.最大似然估计D.以上都不对以下哪种不是自适应学习率方法（A）A.Mini-batch SGBB.AdagradC.RMSp

2020-06-05 00:24:11 3759