数据挖掘
文章平均质量分 84
狄克推多er
多年前我怀揣憧憬与梦想来到了这里,可是现实的遭遇让我疲于应付,自今日起我会继续探索我的梦想。
展开
-
Python数据分析与挖掘实战学习笔记(一)
数据预处理1. 数据清洗(1)缺失值处理三种方法:删除记录、数据插补、不处理常见插补方法:均值/中位数/众数插补、使用固定值/期望值、回归方法(根据已有数据和其他与其有关变量等建立拟合模型来预测)、插值法(利用已知点建立合适的插值函数,如拉格朗日函数)我们以餐厅销量数据为例,使用拉格朗日插值法进行缺失值处理 ,使用缺失值前后各5个未缺失数据参与建模,得出结果如下。应用拉格朗日插值法代码如下...原创 2018-03-03 21:22:06 · 8661 阅读 · 2 评论 -
Python数据分析与挖掘实战学习笔记(二)
接着补充昨天的学习笔记:1. 数据规约(1) 属性规约和冰属性、逐步向前选择、向后删除、决策树归纳、主成分分析主成分分析:是一种用于连续属性的数据降维方法,它够早了原始数据的一个正交变换,新空间的基底去除了原始空间基底下数据的相关性,只需使用少数新变量就能够解释原始数据中的大部分变异。应用中通常是选出比原始变量个数少,能解释大部分数据中的变量的几个新变量,即所谓主成分,来代替原始变...原创 2018-03-04 15:45:30 · 773 阅读 · 0 评论 -
python机器学习之--用凝聚层次聚类进行数据分组
1.什么是层次聚类def perfrom_clustering(X,connectivity,title,num_clusters=3,linkage='ward'): plt.figure() model = AgglomerativeClustering(linkage=linkage, connectivity=connectivity,n_clust...原创 2018-04-30 23:04:50 · 1648 阅读 · 0 评论 -
利用python构建推荐引擎小项目实战
本次写的构建推荐引擎是一个晓得project,依赖于三个源文件:find_similar_user.py pearson_score.py euclidean_score.py以及最后的实现部分。一个json数据文件,格式如下: "John Carson": { "Inception": 2.5, "Pulp Fiction": 3.5, ...原创 2018-05-03 23:26:06 · 703 阅读 · 1 评论