数据挖掘
Pandas00
兴趣所至,无所不能!
展开
-
推荐系统
推荐系统推荐系统根据用户的兴趣特点和购买行为,向用户推荐用户感兴趣的信息和商品。 为用户节省时间,还能挖掘可能用户自己都不知道的潜在兴趣点。常用模型基于内容基于物品基于用户协同过滤基于内容,物品,用户 把相关的特征表达为向量形式后,计算它们之间的距离,根据相似度高的来为你推荐。根据距离的定义公式,计算出向量间的距离,找到最相近的几个对象,再取平均值就可以作为预测值。 协同过滤 因为原创 2017-04-28 17:14:53 · 377 阅读 · 0 评论 -
MongoDB学习之路---one
MongoDB简介MongoDB MongoDB 是一个基于分布式文件存储的数据库,旨在为 WEB 应用提供可扩展的高性能数据存储解决方案。MongoDB 是一个介于关系数据库和非关系数据库之间的产品。 MongoDB 将数据存储为一个文档,数据结构由键值(key=>value)对组成。MongoDB 文档类似于 JSON 对象。字段值可以包含其他文档,数组及文档数组。MongoDB 特点提供原创 2017-04-18 16:04:14 · 412 阅读 · 0 评论 -
sklearn---特征工程
数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。特征工程 特征工程:顾名思义,其本质是一项工程活动,目的是最大限度地从原始数据中提取特征以供算法和模型使用; 数据预处理不属于同一量纲:即特征的规格不一样。 无量纲化信息冗余:对于某些定量特征,其包含的有效信息为区间划分。 二值化定性特征不能直接使用:只能接受定量特征的输入。 哑编码将定性特征转换为定量特征存在缺失转载 2017-04-27 14:02:35 · 563 阅读 · 0 评论 -
时间序列分析
ARIMA模型预测 指数平滑法对时间序列上面连续的值之间相关性没有要求。但若要计算出预测区间, 预测误差必须是不相关的, 而且必须是服从零均值、 方差不变的正态分布。自回归移动平均模型( ARIMA) 包含一个确定(explicit) 的统计模型用于处理时间序列的不规则部分,它也允许不规则部分可以自相关。1.确定数据的差分。做时间序列差分直到你得到一个平稳时间序列。 对时间序列做 d 阶转载 2017-04-27 17:04:01 · 817 阅读 · 0 评论 -
数据可视化
数据可视化—图表不是你想画就可以画滴!图表分类五类图表:趋势类图表: 通过图表反映事物发展趋势,能够一眼看清楚走向和大势 常见图表为柱形图、折线图、面积图。对比类图表: 通过对比发现不同事物间的差异和差距,从而总结事物特征 常见图表为双柱形图、双折线图、双条形图、双面积图、雷达图。构成类图表:通过不同的面积大小、长短等反映事物的结构和组成,从而知道主要的、次要的 常见图表为饼图、圆环原创 2017-04-27 21:05:55 · 1066 阅读 · 0 评论