自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

潜行墨者

Every thing that has a beginning has an end.

  • 博客(11)
  • 资源 (1)
  • 收藏
  • 关注

原创 2015届阿里巴巴数据分析师笔试题(实习)

题量10个选择,3个简答,2个问答题(大简答题)选择题涉及 概率论、智力题、Hive、数据挖掘的基础知识印象深刻的几个题为:准确率和召回率的概念;逻辑回归;有一堆松果,共100个。一只松鼠要把这些松果搬到100米远的家。每次最多拿50个。但是松鼠每走2米就要吃一个松果,请问最多能搬回家多少个?当置信度变小,其它条件不变,那么置信区间上限减去下限的值 如何变化?(

2014-03-31 10:32:41 8156 2

原创 《数据挖掘》读书笔记5章

第五章 可信度:评估及其学习结果5.1 训练和测试         测试集数据不允许用于分类器的创建。5.2 预测性能       对于测试集获得的成功率,并不能绝对真实反映分类器的效果,还有个置信区间,运用统计学知识,可以推断出一个置信边界。5.3 交叉验证       将所有数据分为若干份,每次预留一份作为测试集,其它作为训练集,经验所得,一般分为10份,也叫10折交叉

2014-03-28 21:36:44 1291

原创 《数据挖掘》读书笔记4章

第四章 算法:基本方法4.1 推断基本规则       选择一个属性作为最简单的分类规则,称为“1规则”(1-true),简称1R。对于每个属性         对于这个属性的每个属性值,建立如下的一条规则:                   计算每个类别出现的频率;                   找出出现最频繁的类别;         

2014-03-28 21:36:04 976

原创 《数据挖掘》读书笔记2、3章节

第二章 输入:概念、实例和属性2.1 概念数据挖掘的应用有4种类型:分类学习(监督学习,训练集中数据有明确的类别)、关联学习(通常仅包含非数值的属性)、聚类(当样本不存在一个特定的类时)和数值预测。不管采用什么方式进行学习,被学习的东西成为概念,学习方案产生的输出就是概念描述。2.2 样本       每一个实例都是一个被用来学习的单一、独立的概念样本。一个有限关系(复杂、非独立)

2014-03-28 21:34:57 877

转载 经典SQL语句大全

一、基础1、说明:创建数据库CREATE DATABASE database-name 2、说明:删除数据库drop database dbname3、说明:备份sql server--- 创建 备份数据的 deviceUSE masterEXEC sp_addumpdevice 'disk', 'testBack', 'c:\mssql7backup\MyNw

2014-03-28 21:30:20 501

原创 Mining user similarity based on location history

文章利用用户的GPS位置历史记录来衡量用户之间的相似性。提出HGSM算法,主要考虑了用户轨迹的顺序性和访问地点的层次性。        首先,对用户轨迹分析,抽取出所有的stay points(文中提出一个算法,主要看两点之间的距离以及时间),其他点就忽略掉(LBSN中的签到其实就几乎等价于本文的stay points)。        之后,对所有的staypoi

2014-03-28 21:28:29 1799

原创 Modeling Temporal Effects of Human Mobile Behavior on Location-Based Social Networks

文章主要是解决的问题:已知用户的社交关系以及历史签到记录,预测给定时间用户的签到位置。重点提出时间对预测的影响,可以显著提高精度。数据集:公开Foursquare数据集http://www.public.asu.edu/~hgao16/dataset.html公开Brightkite数据集http://snap.stanford.edu/data/loc-brightkite.ht

2014-03-28 21:26:22 1503 2

原创 The Places of Our Lives: Visiting Patterns and Automatic Labeling from Longitudinal Smartphone Data

文章分析用户的地理访问历史记录,给出用户的行为模式,最后给出一种对位置贴标签的机制。数据集:文献[15]的,114个用户长达18个月的,来自两个大学的学生和老师的记录。用户访问的特征:每个用户总共访问了多少个地点?每个地点被访问了多少次?人们访问新地点的比例?个人信息(性别、年龄、职业)对用户行为模式的影响。访问记录的时间分布。地点的被访问特征:地点都有哪些

2014-03-28 21:23:35 952

原创 《经济计量学精要》读书笔记

最近在准备数据分析师的笔试,看到一些统计数学概念,于是借来《计量经济学精要》速读了一遍,感觉还是有点收获的,把自己的一些学习感想写下来的,主要是内容的凝练。首先先讲讲一些必要的数据基础,之后是书里主要内容。 统计学基础:Cov(X,Y) = E[(X-E(X))*(Y-E(Y))]ρXY = Cov(X,Y) / [sqrt(D(X))*sqrt(D(Y))]当ρXY = 1,

2014-03-28 21:18:21 1897

原创 Friendship and mobility: user movement in location-based social networks

文章发现用户的活动规律:在一定地理区域内,周期性活动(占50-70%);对于跳跃性大的签到跟社交关系有关(占10-30%),并且建立用户活动模型用来预测用户的行为。分析Gowalla数据,发现的一些规律:距离home越远,签到概率越小。但是超过100km时,概率随着距离变化基本不变;好友关系会影响签到,并且强于签到对新好友关系形成的影响;去好友去过的地方,距离越远,效果越强;轨迹线

2014-03-28 21:14:19 2076

原创 开始我的博客生涯

希望在这里记录下自己的科研、学习、生活的轨迹,和大家分享。

2014-03-28 21:09:27 1038

三子连线小游戏C++

三字连珠控制台小游戏,C++语言编写,用类实现

2014-04-03

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除