- 博客(11)
- 资源 (1)
- 收藏
- 关注
原创 2015届阿里巴巴数据分析师笔试题(实习)
题量10个选择,3个简答,2个问答题(大简答题)选择题涉及 概率论、智力题、Hive、数据挖掘的基础知识印象深刻的几个题为:准确率和召回率的概念;逻辑回归;有一堆松果,共100个。一只松鼠要把这些松果搬到100米远的家。每次最多拿50个。但是松鼠每走2米就要吃一个松果,请问最多能搬回家多少个?当置信度变小,其它条件不变,那么置信区间上限减去下限的值 如何变化?(
2014-03-31 10:32:41 8156 2
原创 《数据挖掘》读书笔记5章
第五章 可信度:评估及其学习结果5.1 训练和测试 测试集数据不允许用于分类器的创建。5.2 预测性能 对于测试集获得的成功率,并不能绝对真实反映分类器的效果,还有个置信区间,运用统计学知识,可以推断出一个置信边界。5.3 交叉验证 将所有数据分为若干份,每次预留一份作为测试集,其它作为训练集,经验所得,一般分为10份,也叫10折交叉
2014-03-28 21:36:44 1291
原创 《数据挖掘》读书笔记4章
第四章 算法:基本方法4.1 推断基本规则 选择一个属性作为最简单的分类规则,称为“1规则”(1-true),简称1R。对于每个属性 对于这个属性的每个属性值,建立如下的一条规则: 计算每个类别出现的频率; 找出出现最频繁的类别;
2014-03-28 21:36:04 976
原创 《数据挖掘》读书笔记2、3章节
第二章 输入:概念、实例和属性2.1 概念数据挖掘的应用有4种类型:分类学习(监督学习,训练集中数据有明确的类别)、关联学习(通常仅包含非数值的属性)、聚类(当样本不存在一个特定的类时)和数值预测。不管采用什么方式进行学习,被学习的东西成为概念,学习方案产生的输出就是概念描述。2.2 样本 每一个实例都是一个被用来学习的单一、独立的概念样本。一个有限关系(复杂、非独立)
2014-03-28 21:34:57 877
转载 经典SQL语句大全
一、基础1、说明:创建数据库CREATE DATABASE database-name 2、说明:删除数据库drop database dbname3、说明:备份sql server--- 创建 备份数据的 deviceUSE masterEXEC sp_addumpdevice 'disk', 'testBack', 'c:\mssql7backup\MyNw
2014-03-28 21:30:20 501
原创 Mining user similarity based on location history
文章利用用户的GPS位置历史记录来衡量用户之间的相似性。提出HGSM算法,主要考虑了用户轨迹的顺序性和访问地点的层次性。 首先,对用户轨迹分析,抽取出所有的stay points(文中提出一个算法,主要看两点之间的距离以及时间),其他点就忽略掉(LBSN中的签到其实就几乎等价于本文的stay points)。 之后,对所有的staypoi
2014-03-28 21:28:29 1799
原创 Modeling Temporal Effects of Human Mobile Behavior on Location-Based Social Networks
文章主要是解决的问题:已知用户的社交关系以及历史签到记录,预测给定时间用户的签到位置。重点提出时间对预测的影响,可以显著提高精度。数据集:公开Foursquare数据集http://www.public.asu.edu/~hgao16/dataset.html公开Brightkite数据集http://snap.stanford.edu/data/loc-brightkite.ht
2014-03-28 21:26:22 1503 2
原创 The Places of Our Lives: Visiting Patterns and Automatic Labeling from Longitudinal Smartphone Data
文章分析用户的地理访问历史记录,给出用户的行为模式,最后给出一种对位置贴标签的机制。数据集:文献[15]的,114个用户长达18个月的,来自两个大学的学生和老师的记录。用户访问的特征:每个用户总共访问了多少个地点?每个地点被访问了多少次?人们访问新地点的比例?个人信息(性别、年龄、职业)对用户行为模式的影响。访问记录的时间分布。地点的被访问特征:地点都有哪些
2014-03-28 21:23:35 952
原创 《经济计量学精要》读书笔记
最近在准备数据分析师的笔试,看到一些统计数学概念,于是借来《计量经济学精要》速读了一遍,感觉还是有点收获的,把自己的一些学习感想写下来的,主要是内容的凝练。首先先讲讲一些必要的数据基础,之后是书里主要内容。 统计学基础:Cov(X,Y) = E[(X-E(X))*(Y-E(Y))]ρXY = Cov(X,Y) / [sqrt(D(X))*sqrt(D(Y))]当ρXY = 1,
2014-03-28 21:18:21 1897
原创 Friendship and mobility: user movement in location-based social networks
文章发现用户的活动规律:在一定地理区域内,周期性活动(占50-70%);对于跳跃性大的签到跟社交关系有关(占10-30%),并且建立用户活动模型用来预测用户的行为。分析Gowalla数据,发现的一些规律:距离home越远,签到概率越小。但是超过100km时,概率随着距离变化基本不变;好友关系会影响签到,并且强于签到对新好友关系形成的影响;去好友去过的地方,距离越远,效果越强;轨迹线
2014-03-28 21:14:19 2076
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人