关闭

python数据分析pandas包入门学习(四)处理缺失数据

本文参考《利用Python进行数据分析》的第五章 pandas入门 4 处理缺失数据 缺失数据(missing data)在大部分数据分析应用中都很常见。Pandas的设计目标之一就是让缺失数据的处理任务尽量轻松。例如,pandas对象上的所有描述统计都排除了缺失数据。 pandas使用NaN表示缺失数据。 Python内置的None也会被当做NaN处理: ...
阅读(3448) 评论(0)

python数据分析pandas包入门学习(三)汇总和统计描述

本文参考《利用Python进行数据分析》的第五章 pandas入门 pandas拥有一组常用的数学和统计方法。它们大部分属于约简和汇总统计,用于从Series中提取单个值(如sum和mean),或从DataFrame的行或列中提取一个Series。跟对应的Numpy数组方法相比,它们都是基于没有缺失数据的假设而构建的。 idxmin()/idxmax():返回最...
阅读(5892) 评论(0)

python数据分析pandas包入门学习(二)基本功能

本文参考《利用Python进行数据分析》的第五章 pandas入门 2基本功能 介绍操作Series和DataFrame中的数据的基本手段。 重新索引reindex 当调用Series的reindex将会根据新索引进行重排;当某个索引值当前不存在,就引入缺失值;fill_value可以给缺失值赋值。 method选项: 对于DataFrame,rei...
阅读(798) 评论(0)

python数据分析pandas包入门学习(一)pandas数据结构介绍

本文参考《利用python进行数据分析》的第五章 pandas入门 1 pandas数据结构介绍 pandas有两种主要的数据结构:series和DataFrame Series:一种类似于一维数组的对象,由一组数据(各种Numpy数据类型)以及一组与之对应的数据标签(索引)组成。 第一列为索引,从0开始,第二列为数据值。 可以通过values属性获取数组的表示形式,通过...
阅读(1432) 评论(0)

机器学习--正则化(regularization)防止分类器过拟合

本文参考吴恩达《机器学习》课程。...
阅读(1085) 评论(0)

机器学习——支持向量机(SVM)

本文主要参考吴恩达《机器学习》课程,以及网上各个大牛们的博文。 支持向量机,是一种对线性和非线性数据进行分类的方法。它按以下方法工作:使用一种非线性映射,把原训练数据映射到较高的维上,在新的维上,它搜索最佳分离超平面。使用到足够高维上的、合适的非线性映射,两个类的数据总可以被超平面分开。与其他模型相比,支持向量机不太容易过拟合。 下面按照吴恩达《机器学习》的讲义顺序进行讲解。 1 间隔(...
阅读(401) 评论(0)

逻辑回归python实现实例

这个例子是《机器学习实战》()逻辑回归的一个实例:从疝气病症预测病马的死亡率。 疝病是描述马胃肠痛的术语。该数据集中包含了医院检查马疝病的一些指标,我们的目标是通过这些指标(特征),来预测马是否会死亡。 数据集包括229个训练样本和67各测试样本,特征数量为22。数据集中包含缺失值,采取的措施是用0替换所有缺失值,这样做的原因是,我们在更新theta值时使用下式(具体参考上一篇),当某...
阅读(2191) 评论(0)

机器学习/逻辑回归(logistic regression)/--附python代码

本文为吴恩达《机器学习》课程的读书笔记,并用python实现。 逻辑回归(logistic regression)虽然叫回归,但他做的事实际上是分类。这里我们讨论二元分类,即只分两类,y属于{0,1}。...
阅读(1001) 评论(0)

机器学习线性回归(linear regression)/梯度下降法(gradient descent)/最大似然函数/--附python代码

线性回归是一个比较简单的算法,这里主要借线性回归,讲一下梯度下降法和最大似然函数,后面逻辑回归也会用到。...
阅读(1189) 评论(4)

python.numpy学习

想要用python写一些算法,发现得用到numpy,大致跟matlab差不多,花了半天时间,看了《利用python进行数据分析》(《python for data analysis》)中的第四章,整理了一下,贴出来分享给大家。 注意:有些图中的代码是我自己做的,有些是书中截图的。我做的,我直接from numpy import *,所以直接打函数名就可以了;书中应该是import numpy a...
阅读(391) 评论(1)

R语言实现聚类分析

l  K-均值聚类(K-Means)   十大经典算法 l  K-中心点聚类(K-Medoids) l  密度聚类(DBSCAN) l  系谱聚类(HC) l  期望最大化聚类(EM)   十大经典算法   聚类算法 软件包 主要函数 K-means stats kmeans() K-Med...
阅读(7142) 评论(14)

用R语言进行关联分析

主要参考《数据挖掘:R语言实战》(黄文,王正林编著)...
阅读(2133) 评论(0)

R语言进行数据预处理

4.R语言进行数据预处理            在实际情况下,数据通常是不完整(缺少属性值或某些感兴趣的属性,或仅包含聚集数据)、含噪声(包含错误或存在偏离期望的离群值)、不一致的,这样的数据必须经过预处理,剔除其中的噪声,回复数据的完整性和一致性后才能使用数据挖掘技术进行分析。            使用mice软件包中的示例数据nhanes2来进行演示。加载mice包前,要先加载lat...
阅读(3838) 评论(0)

R语言获取数据

获取内置数据 看到所有数据集: data(package = .packages(all.available =T)) 想看具体信息,比如第一个Adult,可以help(Adult)   每个包中所含有的数据集,往往正是适合诠释该软件包内相关函数的功能而收集并添置的,在学习各软件包时,可以多多利用该包中的数据,进行实战训练。   读取CSV格式          csv...
阅读(1196) 评论(0)

R语言实现数据抽样&创建训练集和测试集

在收集数据过程中,绝大多数情况下,并不采取普查的方式获取总体中所有样本的数据信息,而是以各类抽样方法抽取其中若干代表性样本来进行数据获取和分析。在获得待分析数据集后,需要再次通过抽样技术选取出训练集和测试集,以便比较选择出最优的挖掘算法。          这里主要介绍简单随机抽样、分层抽样、整群抽样三种基本抽样方法。   用到的软件包及函数 软件包 函数 ...
阅读(8442) 评论(0)
    个人资料
    • 访问:41063次
    • 积分:559
    • 等级:
    • 排名:千里之外
    • 原创:15篇
    • 转载:0篇
    • 译文:0篇
    • 评论:19条
    文章分类
    文章存档
    最新评论