![](https://img-blog.csdnimg.cn/20201014180756724.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
数据与统计
文章平均质量分 62
budingningmeng
这个作者很懒,什么都没留下…
展开
-
阿里数据分析师实习生笔试题2014年3月29日
时间为90分钟题型:10道选择,3道简答,2道分析题回忆版选择题:1)若 r=0,则两者的关系:我选择的是 没有线性关系2)以下两种行为分别对应哪种分类算法的评价标准:行为1:警察如何判别某人是小偷行为2:小偷是如何被识别出来(+_+行为记不清楚,请记得的童鞋补上)选项是Recall Precision ROC的组合,这题不会3)以下哪项对Hadoop的原创 2014-03-29 21:15:46 · 7567 阅读 · 0 评论 -
一位数据分析师的职业规划
为什么要做数据分析师?在 通信、互联网、金融等这些行业每天产生巨大的数据量(长期更是积累了大量丰富的数据,比如客户交易数据等等),据说到2020年,全球每年产生的数据量达 到3500万亿GB;海量的历史数据是否有价值,是否可以利用为领导决策提供参考依据?随着软件工具、数据库技术、各种硬件设备的飞快发展,使得我们分析 海量数据成为可能。而数据分析也越来越受到领导层的重视,借助报表告诉转载 2014-03-30 23:18:05 · 3932 阅读 · 0 评论 -
想学统计学需要掌握哪些知识?
想学统计学需要掌握哪些知识?发表于 2013-12-19 00:11 来源:知乎网这是一个很好的问题,对于新手、特别是非统计科班出身的人来说,心里总是有这样的顾虑,掌握的统计学基础只是不够,然而又应该从哪里入手呢?以下是中国统计网整理自知乎的一些答案,希望对大家会有所帮助。@肖玄:我认为首先要明确的是学统计干什么,如果有明确的作用,比如时间序列,市场调研这些,那么推荐书籍各转载 2014-03-30 23:30:45 · 1893 阅读 · 0 评论 -
R软件初识数据分析
R软件下载地址:http://www.r-project.org/ 1.用来制作散点图非常便捷。 plot(纵坐标变量~横坐标变量,data=数据集名称)plot(纵坐标变量~横坐标变量|属性拥有者,data=数据集名称) 。多个散点图。 2.数据存储成CSV格式的会更容易处理 3.R能用正则表达式来处理数据模式!!!NewName \\( 表示左括号原创 2014-03-21 19:54:27 · 1629 阅读 · 0 评论 -
《深入浅出数据分析》资源汇总
1.官网 www.headfirstlabs.com2.Edward Tufte的图形原则很有用。《出色的证据》 Beautiful Evidence《公共政策数据分析》Data Analysis for Public Policy.下载地址 http://www.edwardtufte.com/tufte/dapp/3.R社区4.Google Docs访问实时在线数原创 2014-03-21 20:41:55 · 2666 阅读 · 0 评论 -
信息图形化中各图形特点
1.饼图用于体现比例2.条形图比较灵活且精确3.数值型数据涉及数字和数量;类别数据涉及的是表述和质量4.水平条形图用于展现类别数据,尤其是在类别名字太长的时候5.垂直条形图用于展现数值型数据,若名字不长,也可以用于体现类别数据6.在一张条形图上体现多批数据时。若要侧重比较频数时,可以用堆积条形图;若要侧重比例和总频数时,可以用分段条形图7.直方图用于分组数值型数据,且直方图原创 2014-04-02 20:35:22 · 1354 阅读 · 0 评论 -
SAS学习经典书籍
General StatisticsThe Little SAS Book, for Enterprise Guide 4.2 by Susan J. Slaughter and Lora D. DelwicheThe Little SAS Book, Fourth Edition by Lora Delwiche and Susan SlaughterThe Litt转载 2014-07-24 14:09:45 · 2323 阅读 · 0 评论 -
交叉验证
交叉验证(Cross validation),有时亦称循环估计, 是一种统计学上将数据样本切割成较小子集的实用方法。于是可以先在一个子集上做分析, 而其它子集则用来做后续对此分析的确认及验证。 一开始的子集被称为训练集。而其它的子集则被称为验证集或测试集。交叉验证是一种评估统计分析、机器学习算法对独立于训练数据的数据集的泛化能力(generalize),交叉验证一般要尽量满足:转载 2014-07-31 14:57:09 · 881 阅读 · 0 评论 -
SVM介绍
转载自jasper java(一)SVM的八股简介支持向量机(Support Vector Machine)是Cortes和Vapnik于1995年首先提出的,它在解决小样本、非线性及高维模式识别中表现出许多特有的优势,并能够推广应用到函数拟合等其他机器学习问题中[10]。支 持向量机方法是建立在统计学习理论的VC 维理论和结构风险最小原理基础上的,根据有限的样本信息在模型的复杂性(即转载 2015-07-08 10:49:33 · 1066 阅读 · 0 评论 -
数据挖掘方向
一直想真正走进大数据的世界今天遇到一个数据挖掘的大神讲了些让我觉得受益的东西于是记录下来数据挖掘是分为策略层和架构这两个大的方向我想主攻策略层多尝试,就是多了解一些行业需求,结合一些能拿到的数据做模型、做实验结合实际需求去练手,而不是只关注工作上的一点事,或者局限于书本上的概念 结合需求去看吧,常用的svm,决策树之类的数据库的知识也要掌握原创 2015-07-08 10:07:13 · 954 阅读 · 0 评论 -
梯度下降法
回归(regression)、梯度下降(gradient descent)发表于332 天前 ⁄ 技术, 科研 ⁄ 评论数 3 ⁄ 被围观 1152 次+ 本文由LeftNotEasy所有,发布于http://leftnoteasy.cnblogs.com。如果转载,请注明出处,在未经作者同意下将本文用于商业用途,将追究其法律责任。前言:上次写过一篇关于转载 2017-01-23 09:31:58 · 269 阅读 · 0 评论 -
用excel复选框做多选项
1)结果:实现多选的复选框效果:2)实现:开发工具(在office->excel选项中) 3)使用复选框表单控件原创 2017-02-23 16:36:01 · 8804 阅读 · 0 评论 -
经典Sql面试题收集!!
1.用一条SQL语句 查询出每门课都大于80分的学生姓名 name kecheng fenshu 张三 语文 81张三 数学 75李四 语文 76李四 数学 90王五 语文 81王五 数学 100王五 英语 90转载 2014-04-14 22:56:28 · 929 阅读 · 0 评论 -
SAS学习笔记(七)——关于异常值处理
SAS中对于类别变量(离散)分布观察用proc freq,对于连续变量则用proc univariate来完成。识别连续型变量的异常值通常称为盒形图,一般采用proc univariate data=train plot;var variable;run;plot选项输出变量的茎叶图(观测数少)或者直方图(观测数多),盒形图,正态概率图。(同时输出这些图)该方法只能识别某变原创 2014-03-03 20:02:04 · 14985 阅读 · 3 评论 -
SAS学习笔记(六)——关于数据格式的SAS函数
(一)字符转换:1)字符型转换成数值型Numvar=INPUT(source,informat)2)数值型转换成字符型Chavar=PUT(source,format)(二)字符型变量的处理1)提取字符串substr('string',start,length)scan('string',i,'char') char是分隔符,i是取第几部分2)替换字符原创 2014-03-03 19:28:09 · 17523 阅读 · 1 评论 -
SAS学习笔记(一)
概念的理解:1.逻辑库 由一组SAS文件组成,即类似一个储物箱,包括临时库和永久库。(1)临时库:启动时存在,关了就删除了(2)永久库:关了SAS也还是存在2.数据集 由描述信息和数据值组成,包括SAS数据文件和SAS数据视图(1)数据文件:同时描述信息和存储数据值(2)数据视图: 是一个查询语句,我的理解是数据文件的一个快捷方式,它只包含数据集的描述信息。可以创建数据原创 2013-07-21 14:53:06 · 1692 阅读 · 0 评论 -
SAS学习笔记(二)
SAS中nodupkey和nodup的区别 翻译与总结自:http://hi.baidu.com/yoyo_1828/blog/item/2dc41791fbd46282a877a4c9.html1. nodupkey会把同by variable里变量有相同值的observation都删掉。这些observation包括那些与by variable里变量有相同值,但与剩下变量有转载 2013-08-22 13:26:40 · 1460 阅读 · 0 评论 -
常用相似性度量(距离 相似系数)
2011-02-27 21:40 常用相似性度量(距离 相似系数)在分类聚类算法,推荐系统中,常要用到两个输入变量(通常是特征向量的形式)距离的计算,即相似性度量.不同相似性度量对于算法的结果,有些时候,差异很大.因此,有必要根据输入数据的特征,选择一种合适的相似性度量方法.令X=(x1,x2,..,xn)T,Y=(y1,y2,...yn)T为两个输入向量, 1.欧几里得距转载 2013-11-01 14:26:52 · 1261 阅读 · 0 评论 -
网易数据挖掘笔试题
第一部分 填选题(选择题全都是不定项选择)1. e1, e2, e3, e4按顺序依次入栈,以下可能的出栈顺序有()A. e2, e3, e4, e1B. e1, e2, e4, e3C. e3, e2, e4, e1D. e2, e4, e3, e1ABCD2. 运算式X=A+B*(C-D)/E可能的后缀表达式()A. XABCDE/-*+=B.转载 2013-11-01 15:07:20 · 5353 阅读 · 3 评论 -
2013百度校园招聘数据挖掘工程师
2013百度校园招聘数据挖掘工程师一、简答题(30分)1、简述数据库操作的步骤(10分)步骤:建立数据库连接、打开数据库连接、建立数据库命令、运行数据库命令、保存数据库命令、关闭数据库连接。经萍萍提醒,了解到应该把preparedStatement预处理也考虑在数据库的操作步骤中。此外,对实时性要求不强时,可以使用数据库缓存。2、TCP/IP的四层结构(10分)3、转载 2013-11-01 15:57:03 · 1860 阅读 · 0 评论 -
SAS学习经典书籍&方法
General StatisticsThe Little SAS Book, for Enterprise Guide 4.2 by Susan J. Slaughter and Lora D. DelwicheThe Little SAS Book, Fourth Edition by Lora Delwiche and Susan SlaughterThe Little S转载 2014-02-20 20:38:53 · 4396 阅读 · 0 评论 -
数据分析入门方法
第一部分:SAS SAS baseSAS sqlSAS macro第二部分:算法聚类、分类……第三部分:数据挖掘参考:韩家炜的《数据挖掘:概念与技术》原创 2014-02-21 13:53:48 · 964 阅读 · 0 评论 -
初学大数据
---------大数据系列学习之一网络上流传着这么的一句流行语:“万事不懂问度娘”。自从有了各种搜索引擎,新名词新技术对大众而言,已不再神秘。然而,当你搜索“大数据”或者“big data solution”等关键字时,搜索出的海量相关知识铺天盖地,对初学者而言,仍然很难在短时间内入门。本文目的,是以傻瓜式提问的方式让初学者轻松的了解“大数据”。大数据的概念“大数据”,是不是--转载 2014-02-15 23:53:10 · 1384 阅读 · 0 评论 -
SAS学习笔记(三)——关于PERCENT用法注意
1)例如想让结果展示为23.45%,这里%是占3个字符的,因此y=put(x,percent8.2)2)例如*.txt文件中的内容为102012/12/09 outdoor 15%982101/01/01 golf 7%901207/02/01 clothes 25%103009/22/07 shoes 7%这里要展示为两位小数的结果,则应该原创 2014-02-27 20:46:25 · 4838 阅读 · 2 评论 -
SAS学习笔记(四)——关于数据整合的几个细节
1)数据合并纵向合并是指不同用户的相同字段信息进行合并,将表变长了啊~~用set temp1 temp2;横向合并是指相同用户的不同字段进行扩展,将表变胖了啊~~用merge temp1 temp2;2)数据汇总比如对同一个用户,在一个月内有好几条交易额信息,我们只想知道他一个月的总和,那么就要对数据进行汇总。可以用first. last.这样的指令,但在用着两个指令之前要对数原创 2014-03-02 11:04:19 · 5642 阅读 · 0 评论 -
SAS学习笔记(五)——关于样本划分
数据集可划分为训练数据集和测试数据集划分时要注意:随机性和等比例分层(训练数据和测试数据有相同比例的目标事件)/*进行等比例分层之前要对分层变量进行排序*/proc sort data=data_base;by y; /*y是目标变量*/run;/*surveyselect过程*/ 即设置参数的过程proc surveyselect data=data_原创 2014-03-02 15:21:09 · 5852 阅读 · 0 评论