数据挖掘
自由小节奏
这个作者很懒,什么都没留下…
展开
-
拉格朗日插值法实现
拉格朗日插值法定义:拉格朗日插值(Lagrange interpolation)是一种多项式插值方法,指插值条件中不出现被插函数导数值,过n+1个样点,满足如下图的插值条件的多项式。也叫做拉格朗日公式。一般用于处理数据中的异常值和空值。实现代码:定义:拉格朗日插值(Lagrange interpolation)是一种多项式插值方法,指插值条件中不出现被插函数导数值,过n+1个样点,满足如下图的插...原创 2018-10-22 18:13:06 · 1483 阅读 · 0 评论 -
Apriori算法
定义:Apriori算法是一种用于关联规则挖掘(Association rule mining)的代表性算法,它同样位居十大数据挖掘算法之列。关联规则挖掘是数据挖掘中的一个非常重要的研究方向,也是一个由来已久的话题,它的主要任务就是设法发现事物之间的内在联系。支持度:A和B同时发生的概率置信度(A–>B):A发生的条件下,B发生的概率Apriori源码:# -*- cod...原创 2018-10-22 18:28:50 · 336 阅读 · 0 评论 -
数据预处理之数据清洗
数据预处理之数据清洗清洗重复数据重复数据分为记录重复和特征重复,记录重复是指出现多条数据相同的情况;特征重复是指对于同一张表格中的两列不同名数据,其对于整个数据分析产生的影响都是雷同的,这两列数据被称为特征重复数据。记录重复对于记录重复,我们有三种方法进行去重:import pandas as pddata=pd.read_csv('f:/data/detail.csv',index_...原创 2018-10-25 19:38:49 · 2065 阅读 · 0 评论 -
使用Sklearn模块建立聚类、回归、分类模型并评价
数据预处理和降维首先来学习下加载数据集、划分数据集、数据预处理以及PCA降维# 加载数据集from sklearn.datasets import load_bostonboston = load_boston()boston_data = boston['data']boston_target = boston['target']boston_names = boston['fe...原创 2018-10-23 19:12:18 · 4098 阅读 · 0 评论 -
手写体数字识别的两种方法
基于贝叶斯模型和KNN模型分别对手写体数字进行识别首先,我们准备了0~9的训练集和测试集,这些手写体全部经过像素转换,用0,1表示,有颜色的区域为0,没有颜色的区域为1。实现代码如下:...原创 2018-10-25 19:09:09 · 12080 阅读 · 1 评论