自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(7)
  • 收藏
  • 关注

原创 数据挖掘-鄙视问答题、面试题(整理)

基础概念异常值是指什么?请列举1种识别连续型变量异常值的方法?   异常值(Outlier) 是指样本中的个别值,其数值明显偏离所属样本的其余观测值。在数理统计里一般是指一组观测值中与平均值的偏差超过两倍标准差的测定值。   Grubbs’ test 是一种用于单变量数据集异常值识别的统计检测,它假定数据集来自正态分布的总体。   未知总体标准差σ,在五种检验法中,优劣次序为:t检验法、格拉

2016-10-22 23:37:46 1853

原创 R语言-dplyr

主要函数 函数 作用 filter() 进行子集筛选,类似subset() arrange() 数据框重新排列 select() 进行变量的筛选,可以对starts_with、ends_with、contains、matches、num_range、one_of、everything等函数进行传递 mutate() 添加新列 transmute() 类似

2016-10-22 22:19:15 5120

原创 数据挖掘鄙视题-数据库(查询)

1、如何写sql查询语句查找11位手机号码所有后四位尾数符合AABB或者ABAB或者AAAA形式的电话号码? 设表PhoneNumselect phone from PhoneNum where (SUBSTRING(phone, 11)=SUBSTRING(phone, 10, 1) and SUBSTRING(phone, 9, 1)=SUBSTRING(pho

2016-10-15 10:42:11 1477 2

转载 数据挖掘鄙视题-整理(多选)

通过数据挖掘过程所推倒出的关系和摘要经常被称为:(A B) A. 模型 B. 模式 C. 模范 D. 模具寻找数据集中的关系是为了寻找精确、方便并且有价值地总结了数据的某一特征的表示,这个过程包括了以下哪些步骤? (A B C D) A. 决定要使用的表示的特征和结构 B. 决定如何量化和比较不同表示拟合数据的好坏 C. 选择一个算法过程使评分函数最优 D. 决定用什么样的数据管理

2016-10-14 00:53:41 9199

转载 数据挖掘鄙视题-判断题

数据挖掘的主要任务是从数据中发现潜在的规则,从而能更好的完成描述数据、预测数据等任务。 (对)数据挖掘的目标不在于数据采集策略,而在于对于已经存在的数据进行模式的发掘。(对)3. 图挖掘技术在社会网络分析中扮演了重要的角色。(对)模式为对数据集的全局性总结,它对整个测量空间的每一点做出描述;模型则对变量变化空间的一个有限区域做出描述。(错)寻找模式和规则主要是对数据进行干扰,使其符合某种规则以

2016-10-14 00:08:08 12207

原创 数据挖掘鄙视题-整理(单选)

1、某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘的哪类问题?(A) A. 关联规则发现 B. 聚类 C. 分类 D. 自然语言处理2、以下两种描述分别对应哪两种对分类算法的评价标准? (A) (a)警察抓小偷,描述警察抓的人中有多少个是小偷的标准。 (b)描述有多少比例的小偷给警察抓了的标准。 A. Precision, Recall B. Reca

2016-10-14 00:04:31 9333 2

原创 python学习-基础命令

以数据df为例import pandas as pd;import numpy as np;date = pd.date_range('20140729', periods=6)df = pd.DataFrame(np.random.randn(6,4), index=date, columns=list('ABCD'))df A B

2016-10-08 17:12:03 499

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除