数据分析
傻瓜菜的傻瓜菜地
傻瓜菜。。。
展开
-
2016.12.07:note for 数据化管理.01
零售业、销售原创 2016-12-08 12:14:23 · 184 阅读 · 0 评论 -
2017.04.18:网易2017校招数据分析开放题
1.异常值检测原因:(1)数据来源于不同的类:某个数据对象可能不同于其他数据对象(即异常),因为它术语一个不同的类型或类。Hawkins的离群点定义:离群点是一个观测值,它与其他观测值的差别如此之大,以至于怀疑它是由不同的机制产生的。(2)自然变异:许多数据集可以用一个统计分布建模,如正态(高斯)分布建模,其中数据对象的概率随对象到分布中心距离的增加而急剧减少。换言之,大部分数据对象靠原创 2017-04-18 09:43:28 · 4083 阅读 · 0 评论 -
2017.04.14:python数据可视化02
原创 2017-04-14 14:24:07 · 276 阅读 · 0 评论 -
2017.04.19:今日头天数据分析笔试02
10.数据库练习bt.user_visit_logvisit_time(访问时间)user_id(账号ID)page_url(访问页量)2017-03-16 00:59:4323564/ad/test12017-03-16 01:01:0394535原创 2017-04-19 18:09:53 · 1445 阅读 · 0 评论 -
2017.04.19:今日头条数据分析笔试01
1.如何识别山寨APP 2.有监督学习vs无监督学习是否有监督(supervised),就看输入数据是否有标签(label)。输入数据有标签,则为有监督学习,没标签则为无监督学习。最简单也最普遍的一类机器学习算法就是分类(classification)。对于分类,输入的训练数据有特征(feature),有标签(label)。所谓的学习,其本质就是找到特征和标签间的关系(mapping)原创 2017-04-19 15:49:36 · 9151 阅读 · 0 评论 -
2017.04.17:Hadoop大数据分析与挖掘01
原创 2017-04-17 15:09:05 · 330 阅读 · 0 评论 -
2017.05.24:SQL查询
原创 2017-05-24 08:42:19 · 224 阅读 · 0 评论 -
2017.05.10:工作笔记01
1. (Note:sum() vs count();把所有数值由小到大排列并分成四等份,处于三个分割点位置的数值就是四分位数。)2. (Note:into outfile.txt)3. (Note:二进制文件读取方式,遍历文件夹权限问题!!!python2.7编码方式)原创 2017-05-10 16:55:39 · 223 阅读 · 0 评论 -
2017.05.31:Mysql+Python 余弦相似度
1.mysql字段类型2.余弦相似度原创 2017-05-31 09:27:48 · 662 阅读 · 0 评论 -
2017.05.16:利用python进行数据分析03
2. pandas :Sereies最重要的一个功能是,在算术运算中会自动对齐不同索引的数据。3.不想每查一次数据库就重写一次,pandas有一个简化该过程的read_frame函数:import pandas.io.sql as sql srl.read_frame('select * from test', con)原创 2017-05-16 10:19:03 · 407 阅读 · 0 评论 -
20170621:python日志文件记录
python 日志文件记录# -*- coding:utf-8 -*- #import logginglog_format = '%(filename)s [%(asctime)s] [%(levelname)s] %(message)s'logging.basicConfig(format=log_format, datefmt='%Y-%m-%d %H:%M:%S %p', lev原创 2017-06-21 15:33:01 · 285 阅读 · 0 评论 -
20170623:七周七数据分析,Excel篇
原创 2017-06-23 11:44:08 · 382 阅读 · 0 评论 -
20170612:TFIDF比对
原创 2017-06-12 08:59:37 · 186 阅读 · 0 评论 -
20180326 Introduction of EDA
原创 2018-03-26 14:10:59 · 210 阅读 · 0 评论 -
2017.04.03:数据仓库与数据挖掘03
DBSAN优点1.与K-means方法相比,DBSCAN不需要事先知道要形成的簇类的数量。2.与K-means方法相比,DBSCAN可以发现任意形状的簇类。3.同时,DBSCAN能够识别出噪声点。4.DBSCAN对于数据库中样本的顺序不敏感,即Pattern的输入顺序对结果的影响不大。但是,对于处于簇类之间边界样本,可能会根据哪个簇类优先被探测到而其归属有所摆动。缺点:1.原创 2017-04-04 13:46:25 · 430 阅读 · 0 评论 -
2017.04.03:数据仓库与数据分析02
原创 2017-04-03 18:39:19 · 186 阅读 · 0 评论 -
2017.04.10:python数据可视化01
def is_outlier(points, threshold=3.5): """ Returns a boolean array with True if points are outliers and False otherwise. Data points with a modified z-score greater than this原创 2017-04-10 19:35:44 · 296 阅读 · 0 评论 -
20170103:for 统计思维
1.异常值就是远离集中趋势的值,异常值有可能是采集和处理数据过程中的错误导致的,也有可能是罕见的正确结果。2.概率质量函数(ProbabilityMass Function,PMF):以函数的形式表示分布,该函数将值映射到概率。如果要处理的比较少,PMF很合适;但随着数据的增加,每个值的概率就会降低,而随机噪声的影响就会增大。3.相对风险(relativerisk)两个概率的壁纸,通常用于原创 2017-01-03 14:56:56 · 337 阅读 · 0 评论 -
20161230:数据分析入门01
1.比例vs比率。比例是指在总体中各部分的数值占全部数值的比重,通常反映总体的构成和结构。比率是反映一个整体中各部分之间的关系。2.同比是历史同时期进行比较得到的数值,该指标主要反映的是事物发展的相对情况;环比是指与前一个统计期比较得到的数值,该指标主要反映的是事物逐期发展的情况。3.数据清洗工作。(1)重复数据的处理:函数(Excel中的COUNTIF)、高级筛选、条件格式(Excel原创 2016-12-30 10:14:03 · 279 阅读 · 0 评论 -
网站流量统计指标
独立IP:是指独立用户/独立访客。指访问某个站点或点击某条新闻的不同IP地址的人数,在同一天的00:00-24:00内,独立IP只记录第一次进入网站的具有独立IP的访问者,假如一台电脑关机了,30分钟后重启,再次访问这个站那就再计算一次ip,在同一天内再次访问该网站则不计数。UV(网站独立访客):UV是unique visitor的简写,是指通过互联网访问、浏览这个网页的自然人。pv(p转载 2016-12-20 09:24:16 · 874 阅读 · 0 评论 -
2017.02.16:利用Python进行数据分析01
1.IPython:一种交互式的pythonshell。IPython提供了一个特殊的dreload函数,解决模块的“深度”(递归)重加载。2.Numpy:NumericalPython2.1.ndarray:具有矢量算数运算和复杂广播能力的快速且节省空间的多维数组。2.2.用于对整组数据进行快速运算的标准数学函数(无需编写循环)。2.3.用于读写的磁盘数据的工具以及用于操作内存映原创 2017-02-16 17:51:08 · 321 阅读 · 0 评论 -
2017.01.12:LDA
转载 2017-01-12 18:26:04 · 248 阅读 · 0 评论 -
2017.02.18:利用python进行数据分析02
1.pandas数据结构:Series和DataFrame。1.1.Series是一种类似于一位数组的对象,它由一组数据以及一组与之相关的数据的标签组成。1.2.NaN:Not aNumber,非数字,表示缺失或是NA值。1.3.pandas中的index,将轴标签表示为一个由python对象组成的Numpy数组。Index对象不可修改。1.4.对于一个DataFrame,每条轴都原创 2017-02-18 16:24:14 · 430 阅读 · 0 评论 -
2017.02.22:利用python进行数据分析
1.pandas中的频率是由一个基础频率和一个乘数组成。基础频率通常以一个字符别名表示。2.移动(超前和超后)数据。移动指的是沿着时间轴将数据前移或后移。3.重采样:指的是将时间序列从一个频率转换到另一个频率的处理过程,pandas对象都带有一个response方法。它是各种频率转换工作的主力函数。4.在移动窗口(可以带有指数衰减权数)上计算的各种统计函数也是一类常见于时间序列的数组变原创 2017-02-22 15:41:18 · 517 阅读 · 0 评论 -
2017.02.22:数据库面试01
1. WHERE关键字在使用集合函数时不能使用,所以在集合函数中加上了HAVING来起到测试查询结果是否符合条件的作用.2. 当同时含有where子句、group by 子句 、having子句及聚集函数时,执行顺序如下:--执行where子句查找符合条件的数据;--使用group by子句对数据进行分组;对group by子句形成的组运行聚集函数计算每一组的值;最后用having子句原创 2017-02-22 18:15:58 · 284 阅读 · 0 评论 -
2017.03.03:机器学习
logistic回归是一种广义线性回归(generalized linear model),因此与多重线性回归分析有很多相同之处。它们的模型形式基本上相同,都具有 w‘x+b,其中w和b是待求参数,其区别在于他们的因变量不同,多重线性回归直接将w‘x+b作为因变量,即y=w‘x+b,而logistic回归则通过函数L将w‘x+b对应一个隐状态p,p=L(w‘x+b),然后根据p与1-p的大原创 2017-03-03 13:34:09 · 680 阅读 · 0 评论 -
2017.02.27:关系型数据库
1. 时间复杂度用来检验某个算法处理一定量的数据要花多长时间。为了描述这个复杂度,计算机科学家使用数学上的『简明解释算法中的大O符号』。这个表示法用一个函数来描述算法处理给定的数据需要多少次运算。重要的不是数据量,而是当数据量增加时运算如何增加。时间复杂度不会给出确切的运算次数,但是给出的是一种理念。2.数据库的sort()函数——合并排序:与很多有用的算法类似,合并排序基于这样一原创 2017-02-27 14:37:22 · 260 阅读 · 0 评论 -
2017.03.07:数据库
1.视图的作用,视图可以更改么?视图是虚拟的表,与包含数据的表不一样,视图只包含使用时动态检索数据的查询;不包含任何列或数据。使用视图可以简化复杂的sql操作,隐藏具体的细节,保护数据;视图创建后,可以使用与表相同的方式利用它们。视图不能被索引,也不能有关联的触发器或默认值,如果视图本身内有order by则对视图再次order by将被覆盖。创建视图:create view XX转载 2017-03-07 13:21:25 · 230 阅读 · 0 评论 -
2017.03.22:数据库SQL语句
Student(SId,Sname,Sage,Ssex) 学生表(学号、姓名、年龄、性别)Course(CId,Cname,TId) 课程表(课程编号、课程名字、教师编号)SC(SId,CId,score) 成绩表(学号、课程编号、成绩)Teacher(TId,Tname)原创 2017-03-22 16:06:02 · 304 阅读 · 0 评论 -
2017.04.09:Mysql编程
原创 2017-04-09 09:45:20 · 155 阅读 · 0 评论 -
2017.03.31:数据仓库与数据分析01
原创 2017-03-31 15:09:11 · 236 阅读 · 0 评论 -
20180326 Quantitative Techniques - Outliers
原创 2018-03-26 14:12:11 · 254 阅读 · 0 评论