- 博客(13)
- 资源 (10)
- 收藏
- 关注
原创 预测海藻数量(R语言)
1. 问题描述与目标 我希望通过建立预测模型预测河流中有害海藻的数量。本案例的目的是更好地了解影响藻类频率的因素。也就是说,我们要了解藻类的频率和水样的某些化学性质以及其他特征(如季节、河流类型等)是如何相关的。2. 数据说明 有两个数据集,第一个数据集有200个水样。该数据集的每一条记录是同一条河流在该年的同一个季节的三个月内收集的水样的平均值。 每条记录由11个变量构成。其中3个变量是名义
2016-09-18 20:46:16 8079 1
原创 金融和经济数据应用
你如何利用本章中的工具去解决金融领域中的一些特殊问题。跟其他领域和分析领域一样,在数据规整化方面所花费的警力常常会比解决核心建模和研究问题所花费的要多得多。1.数据规整化方面的话题1.1 时间序列以及截面对齐 在处理金融数据时,最费神的一个问题就是所谓的”数据对齐”(data alignment)问题。手工处理数据对齐问题是一件令人非常郁闷的工作,而验证数据是否对齐则还要更郁闷些。不仅如此,合
2016-08-05 18:13:21 538
原创 数据规整化:清理、转换、合并、重塑
数据分析和建模方面的大量编程工作都是用在数据准备上的:加载、清理、转换以及重塑。有时候,存放在文件或数据库中的数据并不能满足你的数据处理应用的要求。许多人都选择使用通用编程语言(如python、perl、R或java)或UNIX文本处理工具(sed或awk)对数据格式进行专门处理。幸运的是,pandas和python标准库提供了一组高级的、灵活的、高效的核心函数和算法,它们使你能够轻松地将数据规整化
2016-08-05 16:13:08 812
原创 数据加载、存储与文件格式
输入输出通常可以划分为几个大类:1.读取文本文件和其他更高效的磁盘存储格式;2.加载数据库中的数据;3.利用Web API操作网络资源读写文本格式的数据 pandas提供了一些用于将表格型数据读取为DataFrame对象的函数。pandas中的解析函数 read_csv 从文件、URL、文件型对象中加载带分隔符的数据。默认分隔符为逗号。read_table 从文件、URL、文件型对象中加载带分
2016-07-07 10:57:39 727
原创 Pandas入门
pandas是基于Numpy构建的,让以Numpy为中心的应用变得更加简单。pandas的数据结构介绍 要使用pandas,你首先得熟悉它的两个主要数据结构:Series和DataFrame。1. Series 1.1. Series是一种类似于一维数组的对象,它由一组数据(各种Numpy数据类型)以及一组与之相关的数据标签(即索引)组成。由于我们没有为数据指定索引,于是会自动创建一个0到N-
2016-07-06 12:27:41 1802
原创 Numpy基础:数组和矢量计算
Numpy本身并没有提供多么高级的数据分析功能,理解Numpy数组以及面向数组的计算将有助于你更加高效地使用诸如pandas之类的工具。虽然Numpy提供了大部分数据分析功能的计算基础,但你可能还是想将pandas作为数据分析工作的基础(尤其是对于结构化或表格化数据),因为他提供了能使大部分常见数据任务变得非常简洁的丰富高级接口。pandas还提供了一些Numpy所没有的更加领域特定的功能,如时间
2016-07-05 15:32:20 1376
原创 预测数值型数据:回归
分类的目标变量是标称型数据,而这里将会对连续型的数据作出预测。1.1 用线性回归找到最佳拟合直线 回归的目的是预测数值型的目标值。最直接的办法是依据输入写出一个目标值的计算公式。这个公式就是所谓的回归方程,求公式里的回归系数就是回归。一旦有了这些回归系数,再给定输入,做预测就非常容易了。具体的做法是用回归系数乘以输入值,再将结果全部加在一起,就得到了预测值。 应当怎样从一堆数据里
2016-04-25 10:28:05 1901
原创 Logistic回归
假设我们现在有一些数据点,我们用一条直线对这些点进行拟合(该线称为最佳拟合直线),这个拟合过程称作回归。利用Logistic回归进行分类的主要思想是:根据现有数据对分类边界线建立回归公式,以此进行分类。这里的“回归”一词源于最佳拟合,表示要找到最佳拟合参数集。训练分类器时的做法就是寻找最佳拟合参数,使用的是最优化算法。1.1 基于Logistic回归和Sigmoid函数的分类 我们想要的函数应
2016-04-07 21:41:06 446
原创 K-近邻算法
首先,我们将探讨k-近邻算法的基本理论;其次我们将使用Python从文本文件中导入并解析数据;再次,讨论当存在许多数据来源的时,如何避免计算距离时可能碰到的一些常见错误;最后,利用实际的例子讲解如何使用K-近邻算法改进约会网站。1.1 KNN算法 工作原理:存在一个样本数据集合,也称作训练样本集,并且样本集中每个数据都存在标签,即我们知道样本集中每一数据与所属分类的对应关系。输入没有标签的新数据后
2016-03-06 21:28:24 340
原创 使用Apriori算法进行关联分析
现在商家通过查看哪些商品经常在一起购买,来了解用户的购买行为。这种从数据海洋中抽取的知识可以用于商品的定价、市场促销、存货管理等环节。从规模数据集中寻找物品间的隐含关系被称作关联分析或者关联规则学习。下面首先详细讨论关联分析,然后讨论Apriori原理,Apriori算法正式基于该原理得到的。接下来创建函数频繁项集高效发现的函数,然后从频繁项集中抽取出关联规则。1.1 关联分析 关联分
2016-03-02 21:39:52 2315
原创 基于协同过滤的推荐引擎
推荐引擎对因特网用户而言已经不再是什么新鲜事。Amazon会根据顾客的购买历史向他们推荐物品,Netflix会向其用户推荐电影,新闻网站会对用户推荐新闻报道…..当然,有很多方法可以实现推荐功能,这里我们只使用一种称为协同过滤(collaborative filtering)的方法。协同过滤是通过将用户和其他用户的数据进行对比来实现推荐的。1.1 相似度计算 计算物品之间的相似度,一般来说,
2016-02-29 23:03:14 1046
原创 K-均值聚类算法
聚类是一种无监督学习,它将相似的对象归到同一个簇中,有点像全自动分类。聚类方法几乎可以应用于所有对象,簇内的对象越相似,聚类的效果越好。聚类与分类的最大不同在于,分类的目标事先已知,而聚类则不一样。因为其产生的结果与分类相同,而只是类别没有预先定义,聚类有时也成为无监督分类。相似这一概念取决于所选择的相似度计算方法。 K-均值算法的工作流程是:首先随机确定K个初始点作为质点。然后将数据集中
2016-02-28 23:17:31 647
原创 基于概率论的分类方法:朴素贝叶斯
在这里我们将完成两个过程:1.我们将充分利用Python的文本处理能力将文档切分为词向量,然后利用词向量对文档进行分类。2.我们将构建另一个分类器,观察其在真实的垃圾邮件数据集中的过滤效果。1.概率知识: 1.1贝叶斯决策理论 朴素贝叶斯是贝叶斯决策理论的一部分,所以讲述朴素贝叶斯之前有必要快速了解一下贝叶斯决策理论。 假设我们有一个数据集,它由两类数据组成,数据分布如图1-1所示
2016-02-27 14:29:15 1165
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人