数据挖掘
WalkingAlien
这个作者很懒,什么都没留下…
展开
-
ADL:社交网络分析与数据挖掘(DAY1)
用户行为数据 ->用户属性 keywords: 微软机器人框架:Microsoft Bot Framework Eliza :心理治疗师 Personalized Char: 社交网络+情境+语义+行为 User Profiling :Human Behavioral Data LifeSpec: 收集社交网络数据 Self Disclosure :链接原创 2016-09-10 23:37:27 · 1622 阅读 · 0 评论 -
数据的类型
Stanley Smith Stevens在1946年《科学》中将变量分为4类。这种分类被普遍认可。有了这四个维度,世间的一切信息都可以被转化为数据。原创 2016-11-08 14:38:48 · 566 阅读 · 0 评论 -
随机样本,方便样本与资源回应样本
随机样本(Random Sample)是指来自总体的、能够正确反映总体情况的元素总称。满足如下条件: (1)被研究的总体要有明确的定义。 (2)总体的每个个体有一个已知的概率包含在该样本中。 (3)抽样过程中必须遵循随机原则。方便样本(Convenient Sample)是指研究者出于方便性的原因而选取的“唾手可得”的样本。自愿回应样本(Volunta原创 2016-11-08 15:25:26 · 3526 阅读 · 0 评论 -
csv与tsv
TSV tab separated values(为用制表符tab分隔的文件) name age 张三 20 李四 30CSV comma separated values(为用逗号分隔的文件)name,age张三,20李四,30两者均是以纯文本形式存储的表格数据,可由表格软件导出或读入,编码方式是可以自行定义的。本质而言没有太大区别。原创 2016-11-09 15:10:04 · 5282 阅读 · 0 评论 -
大数据的4V特征
Volume (大量) Variety (多样) Velocity(高速) Value (价值) 大数据是通过对大量数据的分析得出个体特征的分析,即以大见小;而统计学是从一部分数据中推敲整体的特征。但是从整体与部分来说,大数据本身也还是一种抽样。大数据与统计学,两者并不矛盾。原创 2016-11-11 21:07:27 · 23025 阅读 · 1 评论 -
箱形图
——来自维基百科box-plot又称为盒须图、盒式图、盒状图或箱线图,是一种用作显示一组数据分散情况资料的统计图。因型状如箱子而得名。在各种领域也经常被使用,常见于品质管理。它能显示出一组数据的最大值、最小值、中位数、下四分位数及上四分位数。这组数据显示出: 最小值(minimum)=5 下四分位数(Q1)=7 中位数(Med)=8.5 上四分位数(Q3)=9 最大值(maximum )=原创 2016-11-15 14:52:02 · 2278 阅读 · 0 评论