自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

HH的专栏

愿漂泊的人都有酒喝,愿孤独的人都有歌唱。

  • 博客(25)
  • 资源 (4)
  • 收藏
  • 关注

原创 读书笔记--python数据可视化--007_清理异常值

#-*- coding: UTF-8 -*-''' ################################################# # Author : 余欢 # Date : Dec 28, 2015 4:09:29 PM #company : 南京师范大学--大数据实验室 # description : 清理异常值 ##################

2015-12-28 21:55:39 5520

原创 读书笔记--python数据可视化--006_从数据库导入数据

#-*- coding: UTF-8 -*-''' ################################################# # Author : 余欢 # Date : Dec 28, 2015 11:16:49 AM #company : 南京师范大学--大数据实验室 # description :从数据库导入数据 ##############

2015-12-28 15:15:11 756

原创 读书笔记--python数据可视化--005_从数据库导入数据

#-*- coding: UTF-8 -*-''' ################################################# # Author : 余欢 # Date : Dec 28, 2015 11:16:49 AM #company : 南京师范大学--大数据实验室 # description :从数据库导入数据 #############

2015-12-28 15:12:14 948

原创 读书笔记--python数据可视化--005_导出数据到JSON、CSV和EXcel

在做数据可视化时,我们通常只是使用其他人的数据,所以导入和读取数据是只要的工作。然而,不管是我们还是他人的需要,不管是现在还是将来的需要,我们缺失需要把产生或者处理过的数据导出或写到某个地方。对于Excel写的部分,需要安装xlwt模块。$ pip install xlwt示例代码:#-*- coding: UTF-8 -*-''' ###############################

2015-12-27 11:40:58 3392

原创 读书笔记--python数据可视化--004_读取JSON数据

示例代码#-*- coding: UTF-8 -*-''' ################################################# # Author : 余欢 # Date : Dec 26, 2015 9:00:14 PM #company : 南京师范大学--大数据实验室 # description : 读取JSON数据 ###########

2015-12-27 10:06:59 1729

原创 读书笔记--python数据可视化--003_读取定宽数据文件

如果文件中的格式是以定宽的格式存储的,那么可以通过格式来匹配并提取数据。一种方法是逐行读取数据,然后利用字符串的操作来提取数据。这种方法比较直接,如果在性能不做要求的话是首选操作。另外一种是利用python的struct模块来提升性能,并能读取较大的数据(比如几百兆的数据),因为这个模块使用c语言而不是python实现的。struct模块是python标准库的一部分,因此不需安装就能够使用。#-*-

2015-12-26 17:18:43 939

原创 读书笔记--python数据可视化--002_读取Excel文件数据

虽然Excel也支持一些图画操作,但是如果需要更加强大和灵活的可视化效果,把数据从Excel导入到Python中以备将来不时之需。首先,我们需要安装必须的模块,这里需要安装xlrd模块。$ pip install xlrd示例代码:#-*- coding: UTF-8 -*-''' ################################################# # Au

2015-12-26 16:32:02 1987

原创 读书笔记--python数据可视化--001_读取CSV文件数据

#-*- coding: UTF-8 -*-''' ################################################# # Author : 余欢 # Date : Dec 26, 2015 2:25:39 PM #company : 南京师范大学--大数据实验室 # description : #######################

2015-12-26 15:06:54 5376

原创 读书笔记 --《数学之美》_隐马尔可夫模型

《数学之美⋅第二版》第五章1、通信模型 上图表示了一个典型的通信系统,它包括雅各布森(Roman Jakobson)提出的通信的六个要素(发送者(信息源),信道,接收者,信息,上下文和编码)。 其中,s1,s2,s3,...s_1,s_2,s_3,...表示信息源发出的信号。o1,o2,o3,...o_1,o_2,o_3,...是接受器接收到的信号。通信中的解码就是根究接收到的信号o1,o2

2015-12-22 21:49:49 1468

原创 读书笔记 --《数学之美》_ 中文分词

《数学之美⋅\cdot第二版》第四章 现在中文分词是一个已经解决的问题,提升的空间微乎其微。不值得再去花很大的精力去做研究1、中文分词方法的演变 (a.)北航的梁南元教授提出的查字典类似的方法,但是对于稍微复杂的句子就无能为力;额; (b.)20世纪80年代哈工大的王晓龙博士将查字典的方法理论化,发展成最少词数的分词理论,但是没有解决词语的二义性问题; (c.)1990年前后,清华大学的

2015-12-22 20:26:45 1265

原创 读书笔记 --《数学之美》_信息的度量和作用

《数学之美⋅\cdot第二版》第六章1、信息熵:信息的度量 对于任一个随机变量XX,它的信息熵定义如下:H(X)=−∑x∈XP(x)logP(x)⋅⋅⋅⋅⋅⋅⋅(公式1.1)H(X)=-∑_{x\in X}P(x)\log{P(x)}\cdot\cdot\cdot\cdot\cdot\cdot\cdot(公式1.1) 变量的不确定性越大,信息熵越大,所需要的信息量越大。2、信息的作用:消除不确定

2015-12-21 16:22:21 1383

原创 读书笔记 -- 012_数据挖掘_频繁模式_关联性_相关性_2

FP-增长(Frequent Pattern Growth, FP-growth)算法:发现频繁模式而不产生候选 正如在Apriori算法中看到的,Apriori算法的候选产生-检查方法显著压缩了候选项集的规模,并产生了很好的性能。然而,它可能仍然需要产生大量的候选项集。同时,Apriori算法可能需要重复地扫描整个数据库。 下面介绍一种称作FP-growth的算法。该算法采用完全不同

2015-12-19 16:19:37 1195

原创 读书笔记 -- 011_数据挖掘_频繁模式_关联性_相关性_1

概念 频繁模式(frequent pattern):是频繁地出现在数据集中的模式(如项集、子序列或子结构)。频繁模式挖掘搜索给定数据集中反复出现的联系。 支持度(support)和置信度(confidence)是关联规则的两种度量。他们分别反映所发现规则的有用性和确定性。例如: computer=>antivirus_software[support = 2%; c

2015-12-15 21:46:02 1384

原创 读书笔记 -- 008_数据挖掘_聚类_基于层次的方法

概述 尽管基于划分的聚类算法满足把对象划分成一些互斥的组群的基本聚类要求,但是在某些情况下,我们希望把数据划分成不同层次的组群,如层次。层次聚类方法(hierarchical clustering method)将数据对象组成层次结构或簇的“树”。 对于数据汇总和可视化,用层次结构的形式表示数据对象是有用的。我们可以很容易地对组织在层次结构中的数据进行汇总或特征化。 这

2015-12-14 21:25:18 1727

原创 NumPy学习 -- 001_数组

#-*- coding: UTF-8 -*-''' ################################################# # Author : 余欢 # Date : Dec 14, 2015 9:39:10 AM #company : # description : #####################################

2015-12-14 11:35:55 932

原创 读书笔记 -- 007_数据挖掘_聚类_基于划分的方法

- - 概述 - - 聚类分析最简单、最基本的版本是划分,它把对象组织成多个互斥的组或簇。为了使得问题说明简洁,我们假定簇的个数作为背景知识给定。这个参数是划分方法的起点。 形式地,给定 n 个数据对象的数据集 D,以及要生成的簇个数 k,划分方法把数据对象组织成 k ( k <= n )个分区,其中每个分区代表一个簇。这些簇的形成旨在优化一个客观划分准则,如基于距离的相异性函数

2015-12-12 09:52:04 3398

原创 读书笔记 -- 006_数据挖掘_聚类_概念知识

概论 聚类是把数据对象集划分成多个组或簇的过程,使得簇内的对象具有很高的相似性,但是与其他簇中的对象很不相似。相异性和相似性根据描述对象的属性值评估,并且通常涉及距离度量。聚类作为一种数据挖掘工具已经根植于许多应用领域,如生物学、安全、商务智能和Web搜索。 聚类分析(cluster analysis)简称聚类(clustering),是一个把数据对象(或观测)划分成子集的过程。

2015-12-10 22:25:13 1874

原创 读书笔记 -- 004_数据预处理_数据规范化

概述 所用的度量单位可能影响数据分析。例如,把height的度量单位从米制换成英寸,把weight的度量单位从公斤换成磅,可能导致的结果不一样。一般而言,用较小的单位表示属性将导致该属性具有较大的值域,因此趋向于使这样的属性具有较大的影响或较高的“权重”。为了帮助避免对度量单位选择的依赖性,数据应该规范化或标准化。这涉及到变换数据,使之落入较小的共同区间,如[-1, 1]或[0.0, 1.0]

2015-12-10 21:52:20 2424

原创 读书笔记 -- 003_数据预处理_数据归约

概述 数据归约(data reduction)技术可以用来得到数据集的归约表示,它小得多,但是保持原始数据的完整性。也就是说,在归约后的数据集上挖掘更有效果,仍然产生相同( 或几乎形同)的分析结果。注意:用于数据归约的时间不应当超过或“抵消”在归约后的数据挖掘上挖掘节省的时间。数据挖掘策略包括维归约、数量归约和数据压缩。 1) 维归约(dimensionlity):减少所考虑的随机变

2015-12-10 20:46:26 1760

原创 读书笔记 -- 002_数据预处理_数据集成

概述 数据挖掘经常需要数据集成 – 合并来自多个数据源的数据。小心集成有助于减少结果数据集的冗余和不一致。这有助于提高其后数据挖掘的准确性和速度。1、实体识别问题 数据分析多半涉及数据集成。数据集成将多个数据源中的数据合并,存放那个在一个一致的数据存储中,如存放在数据仓库中。这些数据源可能包括多个数据库、数据立方体或一般文件。自数据集成时,有许多问题需要考虑。模式集成和对象匹配可能需要技巧。

2015-12-08 10:59:42 2068

原创 读书笔记 -- 001_数据预处理_数据清理

1、概述实际的数据库极易受噪声、缺失值和不一致数据的侵扰,因为数据库太大,并且多半来自多个异种数据源。低质量的数据将会导致低质量的挖掘结果。有大量的数据预处理技术: - - 数据清理:可以用来清楚数据中的噪声,纠正不一致。 - - 数据集成:将数据由多个数据源合并成一个一致的数据存储,如数据仓库。 - - 数据归约:可以通过如聚集、删除冗余特征或聚类来降低数据的规模。 - - 数据变换:(

2015-12-07 21:20:32 2821

原创 读书笔记 -- 005_数据挖掘_度量数据的相似性和相异性

1、概述 相似性和相异性都成为邻近性(Proximity)。相似性和相异性是有关联的。典型地,如果两个对象i和j不相似,则他们的相似性度量将返回0。2、数据矩阵和相异性矩阵 假设我们有n个对象,每个对象由p个属性进行刻画。那么得到对象集X = (x1, x2, x3, …. xn) ,对象xi的属性集为 P = (pi1, pi2, pi3 … pip) , 1 < i < n。 数据矩阵

2015-12-06 17:06:10 5971

转载 相似性度量总结

又机器学习中的相似性度量 、 余弦距离、欧氏距离和杰卡德相似性度量的对比分析 整理而成在做分类时常常需要估算不同样本之间的相似性度量(Similarity Measurement),这时通常采用的方法就是计算样本间的“距离”(Distance)。采用什么样的方法计算距离是很讲究,甚至关系到分类的正确与否。本文的目的就是对常用的相似性度量作一个总结。本文目录: 1. 欧氏距离

2015-12-05 20:14:13 12935 2

转载 Hash表算法

本文分为三部分内容, 第一部分为一道百度面试题Top K算法的详解;第二部分为关于Hash表算法的详细阐述;第三部分为打造一个最快的Hash表算法

2015-12-05 16:28:38 474

原创 词语在文档中的重要性 -- TF-IDF算法

词语在文档中的重要性 -- TF-IDF算法

2015-12-04 22:08:31 2532

企业级安卓开发_入门+进阶 大话企业级Android开发

企业级安卓开发_入门+进阶 分章节 从入门到进阶 有实例 有源代码 01大话企业级Android开发第一部分_简介 02大话企业级Android开发第二部分_环境搭 03大话企业级Android开发开发流程及项目管理 04大话企业级Android开发_Android项目的目录结构、执行流程及其他基础分析 05大话企业级Android开发_MVC讲解及简单短信和拨号器实现 06大话企业级Android开发_日志输出、单元测试及调试 07大话企业级Android开发_UI(上) 08大话企业级Android开发_UI(中) 09大话企业级Android开发_UI(下) 10大话企业级Android开发_组件(上) 11大话企业级Android开发_组件(下) 12大话企业级Android开发_文件 13大话企业级Android开发_数据库 14大话企业级Android开发_事务 如何成为Android高手

2014-08-29

jap调用应用程序

jap调用应用程序,如一些Dos命令,非java语言编写的应用程序等!!

2012-10-25

基于MVC+DAO的留言薄管理系统

详细的基于MVC+DAO的留言薄管理系统,有源代码和解释!!

2012-07-24

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除