我的学习之路
文章平均质量分 73
记录我自己的学历历程
阿清陪你聊聊数据分析
985硕士毕业,阿里数据分析专家~
展开
-
社区发现研究现状(二)
这部分主要介绍运用主题模型解决原创 2014-04-08 21:09:50 · 3869 阅读 · 0 评论 -
经纬度相关的一些计算
(1)已知两个位置的经纬度,计算其间地理距离。private static Double CalculateDistance(ArrayList latAndLngUser1, ArrayList latAndLngUser2) { // TODO Auto-generated method stub Double EARTH_RADIUS = 6378.137; Do原创 2014-12-22 16:25:39 · 1346 阅读 · 0 评论 -
社区发现研究现状(一)
社区发现源于计算机科学中的图形分割与社会学中的分级聚类问题。图形分割的一个实例就是集成电路板布线问题,每个组件是一个节点,有联系的两个组件之间存在一条边,要将所有组件分布在若干个电路板。由于不同电路板之间的连接相比于一块电路板内部的连接成本高的多,现在问题就是如何分配所有节点使得总成本最低。一般来说,找到这类分割问题的精确解是一个NP难题,当图的规模很大时不存在有效的精确解法。对此,著名的Kern原创 2014-04-08 21:06:49 · 7042 阅读 · 0 评论 -
Exception in thread "main" java.lang.OutOfMemoryError: Java heap space解决方法
问题描述Exception in thread "main" java.lang.OutOfMemoryError: Java heap space解决方案[转]一直都知道可以设置jvm heap大小,一直用eclipse写/调试java程序。一直用命令行or console加参数跑程序。现象:在eclipse的配置文件eclipse.ini中设置-vmargs -Xms500m转载 2014-05-15 11:51:06 · 1939 阅读 · 0 评论 -
android环境搭建
参考:http://www.cnblogs.com/skynet/archive/2010/04/12/1709892.html 突然换了小米手机,为了对得起家里人的支持,android起码也要学会,就算不厉害,也不可以太丢人。 0基础,首先就是android环境的搭建,网上各种资料,随便百度就是一大把。基本就是根据上面的网站来搭建起来的。 工欲善其事,必先利其器转载 2014-05-04 12:50:28 · 537 阅读 · 0 评论 -
Java中SimpleDateFormat的简要用法
Java中怎么才能把日期转换成想要的格式呢,或把字符串转换成一定格式的日期,如把数据库中的日期或时间转换成自己想要的格式,JAVA中提供了SimpleDateFormat类可以实现,以下是SimpleDateFormat的用法及实例:java.text 类 SimpleDateFormatjava.lang.Object java.text.Format j原创 2014-12-17 21:45:07 · 990 阅读 · 0 评论 -
LDA Gibbs Sampling 的JAVA实现
本系列博文介绍常见概率语言模型及其变形模型,主要总结PLSA、LDA及LDA的变形模型及参数Inference方法。初步计划内容如下第一篇:PLSA及EM算法第二篇:LDA及Gibbs Samping第三篇:LDA变形模型-Twitter LDA,TimeUserLDA,ATM,Labeled-LDA,MaxEnt-LDA等第四篇:基于变形LDA转载 2014-05-04 12:47:43 · 1656 阅读 · 0 评论 -
鄙人略谈LDA
由于毕设需要,上学期对LDA进行过一段时间的学习,近来,博客开启,也想把LDA的学习心得写一写,一方面与方便与大家探讨,同时也算是复习下吧,毕竟也要开始科研了,老板要催科研进度了嘛。首先,我想讲讲我对LDA的总体想法,这也是本篇博文的内容。之后,我会介绍学习LDA的数学基础。然后,讲讲LDA的细节,特别是吉布斯采样环节,这也是难点(鄙人这样认为,至少我还没怎么搞懂,希望在接下来的日子一起学习)原创 2014-04-03 16:19:17 · 1125 阅读 · 0 评论 -
概率主题模型简介,LDA基本思想
此文为David M. Blei所写的《Introduction to Probabilistic Topic Models》的译文,供大家参考。摘要:概率主题模型是一系列旨在发现隐藏在大规模文档中的主题结构的算法。本文首先回顾了这一领域的主要思想,接着调研了当前的研究水平,最后展望某些有所希望的方向。从最简单的主题模型——潜在狄立克雷分配(Latent Dirichlet Alloc原创 2014-04-28 16:50:00 · 10850 阅读 · 4 评论 -
《统计学》读书笔记第8-10章
第8章 方差分析与实验设计8.1 方差分析的基本原理 方差分析(ANOVA):通过对数据误差的分析来判断各分类自变量对数值因变量影响的一种统计方法。自变量对因变量的影响也称为自变量效应,而影响效应的大小则体现为因变量的误差里有多少是由于自变量造成的。因此,方差分析就是来检验这种效应是否显著。 各自变量也称为因素或因子,分析单个因素对因变量的影响称为单因素方差分析原创 2014-04-02 18:09:25 · 3210 阅读 · 0 评论 -
《经济计量学精要》读书笔记
最近在准备数据分析师的笔试,看到一些统计数学概念,于是借来《计量经济学精要》速读了一遍,感觉还是有点收获的,把自己的一些学习感想写下来的,主要是内容的凝练。首先先讲讲一些必要的数据基础,之后是书里主要内容。 统计学基础:Cov(X,Y) = E[(X-E(X))*(Y-E(Y))]ρXY = Cov(X,Y) / [sqrt(D(X))*sqrt(D(Y))]当ρXY = 1,原创 2014-03-28 21:18:21 · 1895 阅读 · 0 评论 -
《统计学》读书笔记,第11-14章
第11章 时间序列预测11.1 时间序列的成分和预测方法 一个时间序列由四种要素组成: 趋势(T):时间序列在一段较长时期内呈现出来的持续向上或者向下的变动; 季节变动(S):时间序列呈现出以年为周期长度的固定变动模式; 循环波动(C):时间序列呈现出的非固定长度的周期性变动; 不规则波动(I):时间序列出去上述3原创 2014-04-03 14:05:24 · 2640 阅读 · 1 评论 -
《统计学》读书笔记,第3-7章节
第3章 用统计量描述数据3.1 数据水平数据的水平是指其取值的大小,描述的统计量主要有:平均数、中位数、分位数以及众数。3.2 数据离散程度 数据的差异性、离散程度,描述的统计量主要由:极差、四分位差、方差、标准差以及测度相对离散程度的离散系数(标准差与平均数之比,消除数据水平高低对标准差大小的影响)。3.3 数据分布形状 数据的分布形状,通过直方图原创 2014-04-01 18:59:32 · 3009 阅读 · 0 评论 -
概率统计数学公式中经常出现的罗马字母及希腊字母的读法
转自:http://blog.csdn.net/yangliuy/article/details/8055277#comments罗马字母1 Α α alpha a:lf 阿尔法 角度;系数 2 Β β beta bet 贝塔 磁通系数;角度;系数 3 Γ γ gamma ga:m 伽马 电导系数(小写) 4 Δ δ delta delt 德尔塔 变动;密度;屈转载 2014-04-08 13:23:25 · 6727 阅读 · 0 评论 -
《数据挖掘》读书笔记4章
第四章 算法:基本方法4.1 推断基本规则 选择一个属性作为最简单的分类规则,称为“1规则”(1-true),简称1R。对于每个属性 对于这个属性的每个属性值,建立如下的一条规则: 计算每个类别出现的频率; 找出出现最频繁的类别;原创 2014-03-28 21:36:04 · 973 阅读 · 0 评论 -
朴素贝叶斯文本分类算法源代码
附录:朴素贝叶斯文本分类算法源代码1、算法实现实验的实现使用的是C#。训练数据存放在D://train文件夹中,测试数据存放在D://test文件夹中。均以“类别号 (索引号).txt”格式命名单个文档,其中类别号为1-4,分别对应于计算机、艺术、历史和体育,索引号为1-100,对应每个类别的100个文档。1.1 定义、初始化部分:1 HashSet dict = new原创 2014-04-11 13:27:53 · 2884 阅读 · 0 评论 -
数据分析与数据挖掘的区别
这个问题貌似有点无聊,不过下面的chans先谈数据,其实很简单,就是观测值。例如测量数据。不过大家可能有个误区。认为,客户填写的表单就是数据。对编程序而言,是的。但是不是常规的数据。当然填写的内容,一旦落入的观测空间,则自然就成了数据。不谈数据,就无以谈数据分析和数据挖掘。由此,上面先说了数据。这里还要说下信息。信息,抽象的说,就是可信的数据。那么这里和数据最大的区别就在于,一个是原创 2014-04-10 13:27:50 · 1581 阅读 · 1 评论 -
《数据挖掘》读书笔记5章
第五章 可信度:评估及其学习结果5.1 训练和测试 测试集数据不允许用于分类器的创建。5.2 预测性能 对于测试集获得的成功率,并不能绝对真实反映分类器的效果,还有个置信区间,运用统计学知识,可以推断出一个置信边界。5.3 交叉验证 将所有数据分为若干份,每次预留一份作为测试集,其它作为训练集,经验所得,一般分为10份,也叫10折交叉原创 2014-03-28 21:36:44 · 1291 阅读 · 0 评论 -
《数据挖掘》读书笔记2、3章节
第二章 输入:概念、实例和属性2.1 概念数据挖掘的应用有4种类型:分类学习(监督学习,训练集中数据有明确的类别)、关联学习(通常仅包含非数值的属性)、聚类(当样本不存在一个特定的类时)和数值预测。不管采用什么方式进行学习,被学习的东西成为概念,学习方案产生的输出就是概念描述。2.2 样本 每一个实例都是一个被用来学习的单一、独立的概念样本。一个有限关系(复杂、非独立)原创 2014-03-28 21:34:57 · 877 阅读 · 0 评论 -
学习数据分析、挖掘的22本好书
1. 深入浅出数据分析 (豆瓣) 这书挺简单的,基本的内容都涉及了,说得也比较清楚,最后谈到了R是大加分。难易程度:非常易。2. 啤酒与尿布 (豆瓣) 通过案例来说事情,而且是最经典的例子。难易程度:非常易。3. 数据之美 (豆瓣) 一本介绍性的书籍,每章都解决一个具体的问题,甚至还有代码,对理解数据分析的应用领域和做法非常有帮助。难易程度:易。转载 2014-04-10 10:17:06 · 1643 阅读 · 0 评论 -
经典SQL语句大全
一、基础1、说明:创建数据库CREATE DATABASE database-name 2、说明:删除数据库drop database dbname3、说明:备份sql server--- 创建 备份数据的 deviceUSE masterEXEC sp_addumpdevice 'disk', 'testBack', 'c:\mssql7backup\MyNw转载 2014-03-28 21:30:20 · 501 阅读 · 0 评论 -
TCP为什么要三次握手,不是两次四次?
第三次握手——革命斗争中的通信故事在革命战争影片中,经常会看到英勇的解放军战士背着步话机在喊“长江长江,我是黄河,听到请回答。”很明显,这是呼号为黄河的一方想找呼号为长江的另一方说事,为了保证影片的节奏,导演往往把后面的联络过程省略了,其实后面还有两步,长江听到黄河的呼叫后要回答“黄河黄河,我是长江,我听到了你,请回答。”这叫做第二次握手。黄河听到长江的呼叫后还要回答“长江长江原创 2014-05-28 23:01:58 · 773 阅读 · 0 评论 -
计算机网络简要笔记
第一章 概述1. 体系结构OSI体系结构:物理层、数据链路层、网络层、运输层、会话层、表示层、应用层。TCP/IP体系结构:网络接口层、网际层IP、运输层(TCP、UDP)、应用层。 第二章 物理层1. 奈氏准则和香农定理奈氏准则:理想状态下的最高码元传输速率为2w Baud。理想带通信道的最原创 2014-07-20 22:52:26 · 1021 阅读 · 0 评论 -
SQL总结(三)
12. SQL UNION 和 UNION ALL 操作符UNION 操作符用于合并两个或多个 SELECT 语句的结果集。请注意,UNION 内部的 SELECT 语句必须拥有相同数量的列。列也必须拥有相似的数据类型。同时,每条 SELECT 语句中的列的顺序必须相同。UNION 语法SELECT column_name(s) FROM table_name1UNION原创 2014-08-28 19:47:48 · 866 阅读 · 0 评论 -
SQL总结(四)
三、SQL函数1. SQL functions函数的语法内建 SQL 函数的语法是:SELECT function(列) FROM 表函数的类型在 SQL 中,基本的函数类型和种类有若干种。函数的基本类型是:· Aggregate 函数· Scalar 函数合计函数(Aggregate functions)Aggreg原创 2014-08-28 19:49:38 · 975 阅读 · 0 评论 -
SQL总结(二)
二、SQL高级教程1. SQL TOP 子句TOP 子句用于规定要返回的记录的数目。对于拥有数千条记录的大型表来说,TOP 子句是非常有用的。注释:并非所有的数据库系统都支持 TOP 子句。TOP语法SQL Server 的语法SELECT TOP number|percent column_name(s)FROM table_nameMySQL 和 Ora原创 2014-08-28 19:46:05 · 729 阅读 · 0 评论 -
IP地址的分类——a,b,c 类是如何划分的
现在的IP网络使用32位地址,以点分十进制表示,如172.16.0.0。地址格式为:IP地址=网络地址+主机地址 或 IP地址=主机地址+子网地址+主机地址。 IP地址类型 最初设计互联网络时,为了便于寻址以及层次化构造网络,每个IP地址包括两个标识码(ID),即网络ID和主机ID。同一个物理网络上的所有主机都使用同一个网络ID,网络上的一个主机(包括网络上工作站,服务器和路由器等原创 2014-04-12 10:53:34 · 1114 阅读 · 0 评论 -
数据库范式简要介绍
一、概述关系数据库范式理论是在数据库设计过程中要依据的准则,数据库结构必须要满足这些准则,才能确保数据的准确性和可靠性。这些准则被称为规范化形式,即范式。在数据库设计过程中,对数据库进行检查和修改并使它符合范式的过程叫做范化。范式一共有五个,但是常用的只有前三个。数据表规范的程度越高,数据冗余就越少,同时造成人为错误的可能性也就越小;同时,规范化的程度越高,在查询检索时需要做的关联等工作就原创 2014-09-02 18:27:19 · 1093 阅读 · 0 评论 -
操作系统简要笔记(二)
第四章 存储器管理1. 存储器的层次结构2. 程序的装入用户运行一个程序,需要先编译将用户源代码编译成一组目标模块;其次是链接将各模块与库函数链接在一起形成一个完整的装入模块;最后是装入将模块装入内存。(1)绝对装入方式编译程序直接产生绝对地址。(2)可重定位装入方式(静态重定位)装入内存后,会使装入模块中的所有逻辑地址与实际装入内存的物理地址原创 2014-07-23 20:51:32 · 799 阅读 · 0 评论 -
操作系统简要笔记(一)
操 作 系 统第一章 操作系统引论操作系统的发展历程:人工操作方式、单道批处理系统、多道批处理系统(注意出题)、分时系统、实时系统。操作系统的基本特性:并发性(进程和线程实现)、共享性(互斥共享方式、同时访问方式)、虚拟技术(时分复用、空分复用)、异步性(进程的执行一般停停走走)。操作系统主要功能:处理机管理(进程控制、进程同步、进程通信、调度),存储器管理(内存分配、内存保原创 2014-07-22 23:20:07 · 1071 阅读 · 0 评论 -
SQL快速参考
四、SQL快速参考SQL 语句语句语法AND / ORSELECT column_name(s)FROM table_nameWHERE conditionAND|OR conditionALTER TABLE (add column)ALTER TABLE table_name A原创 2014-08-28 19:50:54 · 591 阅读 · 0 评论 -
SQL总结(一)
一、SQL基本教程1. SQL SELECT 语句SELECT 语句用于从表中选取数据,结果被存储在一个结果表中(称为结果集)。SELECT 语法SELECT 列名称 FROM 表名称以及:SELECT * FROM 表名称SELECT 实例如需获取名为 "LastName" 和 "FirstName" 的列的内容(从名为 "Persons" 的数据原创 2014-08-28 19:44:26 · 840 阅读 · 0 评论 -
char* p="test"引发的血案
http://blog.csdn.net/haoel/article/details/1395358从语句 char* p="test" 说起 陈皓 我相信,使用C/C++多年的人对下面这个字符串赋值语句都不会陌生吧。 char* p = "test"; 同时,我也相信,各位在使用这种转载 2014-05-29 19:08:21 · 689 阅读 · 0 评论 -
使用stringstream对象简化类型转换
使用stringstream对象简化类型转换C++标准库中的提供了比ANSI C的更高级的一些功能,即单纯性、类型安全和可扩展性。在本文中,我将展示怎样使用这些库来实现安全和自动的类型转换。为什么要学习如果你已习惯了风格的转换,也许你首先会问:为什么要花额外的精力来学习基于的类型转换呢?也许对下面一个简单的例子的回顾能够说服你。假设你想用sprintf()函数将一个变量从int原创 2014-06-19 16:17:54 · 588 阅读 · 0 评论 -
C++Primer读书笔记(第五章)
第五章5.1 算术操作符 +,-(取正取负), *, /, %, +, -操作符%称为“求模”或“求余”操作符。如果两个操作数为正,除法和求模的结果也都是在正数;如果都是负数,那么求模为负数;如果只有一个操作数为负数,那么求模结果取决于机器。5.2 关系操作符和逻辑操作符 !,, >=, ==, !=, &&, ||5.3 位操作符原创 2014-06-19 09:24:33 · 652 阅读 · 0 评论 -
C++多态的实现原理
1. 用virtual关键字申明的函数叫做虚函数,虚函数肯定是类的成员函数。2. 存在虚函数的类都有一个一维的虚函数表叫做虚表。类的对象有一个指向虚表开始的虚指针。虚表是和类对应的,虚表指针是和对象对应的。3. 多态性是一个接口多种实现,是面向对象的核心。分为类的多态性和函数的多态性。4. 多态用虚函数来实现,结合动态绑定。5. 纯虚函数是虚函数再加上= 0。6. 抽象类是指包原创 2014-05-29 15:34:23 · 583 阅读 · 0 评论 -
C++Primer读书笔记(第六章)
第六章语句6.1 简单语句 以分号结尾。6.2 声明语句 对象或类的定义和声明语句。6.3 复合语句 花括号里面的语句。6.4 语句作用域6.5 if语句 对于悬垂else问题,C++将else匹配给最后出现的尚未匹配的if子句。所以,良好的编程习惯是始终在if后面加花括号。6.6 switch原创 2014-06-19 09:25:30 · 630 阅读 · 0 评论 -
C++ 虚函数表解析
C++ 虚函数表解析 陈皓http://blog.csdn.net/haoel 前言 C++中的虚函数的作用主要是实现了多态的机制。关于多态,简而言之就是用父类型别的指针指向其子类的实例,然后通过父类的指针调用实际子类的成员函数。这种技术可以让父类的指针有“多种形态”,这是一种泛型技术。所谓泛型技术,说白了就是试图使用不变的代码来实现可变的算法。比如:模板技术,R转载 2014-05-29 18:26:41 · 434 阅读 · 0 评论 -
STL的 heap 堆实现
下面再介绍STL中与堆相关的4个函数——建立堆make_heap(),在堆中添加数据push_heap(),在堆中删除数据pop_heap()和堆排序sort_heap():头文件 #include 下面的_First与_Last为可以随机访问的迭代器(指针),_Comp为比较函数(仿函数),其规则——如果函数的第一个参数小于第二个参数应返回true,否则返回false。建转载 2014-04-12 11:11:31 · 909 阅读 · 0 评论 -
C++拷贝构造函数详解
一. 什么是拷贝构造函数首先对于普通类型的对象来说,它们之间的复制是很简单的,例如:[c-sharp] view plaincopyint a = 100; int b = a; 而类对象与普通对象不同,类对象内部结构一般较为复杂,存在各种成员变量。下面看一个类对象拷贝的简单例子。原创 2014-05-29 18:07:07 · 531 阅读 · 0 评论