- 博客(4)
- 收藏
- 关注
转载 k-means算法总结
一、算法描述 k-means算法思想可描述为:首先初始化K个类簇中心;然后计算各个数据对象到聚类中心的距离,把数据对象划分至距离其最近的聚类中心所在类簇中;接着根据所得类簇,更新类簇中心;然后继续计算各个数据对象到聚类中心的距离,把数据对象划分至距离其最近的聚类中心所在类簇中;接着根据所得类簇,继续更新类簇中心;……一直迭代,直到达到最大迭代次数T,或者两次迭代J的差值小于某一阈值时,迭代终止,...
2018-08-21 14:22:21 3839
转载 用户画像整理
用户画像: 一、定义用户画像是指根据用户的属性、用户偏好、生活习惯、用户行为等信息而抽象出来的标签化用户模型。用户信息标签化 用户画像是对现实世界中用户的建模,用户画像应该包含目标,方式,组织,标准,验证这5个方面。 目标:指的是描述人,认识人,了解人,理解人。 方式:又分为非形式化手段,如使用文字、语言、图像、视频等方式描述人;形式化手段,即使用数据的方式来刻画人物的画像。 ...
2018-08-19 15:43:33 1944
转载 参数估计方法整理
参数估计:是根据从总体中抽取的样本估计总体分布中包含的未知参数的方法。参数估计包括点估计和区间估计。常见点估计方法:矩估计、最小二乘估计、极大似然估计、贝叶斯估计区间估计:利用已知的抽样分布、利用区间估计与假设检验的联系、利用大样本理论一、点估计 1、矩估计矩估计法的理论依据是大数定律。矩估计是基于一种简单的“替换”思想,即用样本矩估计总体矩 优点:简单易行, 并不需要事先...
2018-08-06 10:33:27 39191
原创 kaggle :房屋价格预测问题 ,如何解决get_dummies导致训练数据和测试数据编码不一致的情况
kaggle :房屋价格预测问题~#!user/bin/env python# -*- coding:utf-8 -*-import numpy as npimport pandas as pdfrom scipy.stats import modefrom sklearn import linear_modelfrom sklearn.cross_validation impor...
2018-08-02 19:46:16 1560
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人