数据挖掘
数据挖掘
oifengo
爬梯之路
展开
-
PythonAM3_统计量分析
Python实现数据统计计量form_future_ import print_functionimport pandas as pdcatering_sale = '../../data/3/catering_sale.xls'#读取数据 指定‘日期’为索引列data = pd.read_excel(catering_sale, index_col = u'日期')#过滤异常...原创 2018-06-24 19:09:25 · 243 阅读 · 0 评论 -
ReaHat用户挖掘有价值用户
文章目录项目实施读取数据设置图表格式合并数据拆分数据查看类型和数量拆封数据项目实施读取数据#sep=' ' sep : str, default ‘,’ 指定分隔符号 默认为 “,"#header 指定行数来作为列名字 默认为0 还可以为多行列名#keep_default_na 指定参数为na 那么默认的NaN将被覆盖 否则添加#parse_dates=["date"]解析索引...原创 2019-08-01 14:46:50 · 318 阅读 · 0 评论 -
PQ特征工程开荒
文章目录特征工程简介特征工程的重要性特征工程是什么呢?特征使用方案要实现目标需要哪些数据?基于业务理解 尽可能找出对因变量影响的自变量可用性评估获取速度覆盖率准确率特征获取方案如何获取如何存储特征处理特征清洗清洗异常样本采样数据不均衡样本权重预处理单个特征归一化离散化Dummy Coding缺失值多个特征衍生变量特征监控特征工程简介========================特征工程的重...原创 2019-07-06 14:48:46 · 1367 阅读 · 0 评论 -
python主要数据探索函数
Python中用于数据探索的库主要是Pandas(数据分析)统计分析函数 统计作图函数Matplotlib(数据可视化)基本统计特征函数sum按列计算样本总和mean计算样本的算数平均数var样本的方差std标准差corr 计算spearman(Person)相关系数矩阵cov协方差矩阵skew样本偏值(三阶矩阵)kurt样本峰度(四阶矩阵)describe...原创 2018-06-24 23:01:24 · 863 阅读 · 0 评论 -
Kaggle爬梯之路
一 数据质量分析 脏数据:不符合要求,不能进行分析的数据缺失值异常值不一致的值重复的数据含有特殊符号的数据(&×%¥) 数据缺失值分析删除可能值进行插补不处理> 异常值分析的三种方法 简单的统计量的分析数据应该有实际意义,手工去除不符合实际的数据 3σ原则异常值:一组测定值中与平均值的偏差超过3倍标准差的...原创 2018-04-17 20:01:01 · 583 阅读 · 0 评论 -
Python数据特征分析
二 数据特征分析完成对数据的质量分析后,剩下的数据就可以绘制表图 计算了某些特征量等手段进行数据的特征分析分布分析 揭示数据的分布特征和分布类型定量数据:分析分布是对称,发现某些特征值的大小和可疑值,频率分布表、频率分布直方图、茎叶图定性数据:饼图、条形图1.定量分析数据 原则:各组之间相互排斥所有数据必须包含组宽最好相等 步骤求极差...原创 2018-06-24 15:33:19 · 1409 阅读 · 0 评论 -
机器学习100天-5-逻辑回归探究
LRlogistic回归,是一种广义的线性回归分析模型常用与数据挖掘 疾病自动诊断 经济预测优点计算地阿基啊相对较低思路清晰易于理解和实现缺点线性分类器 容易欠拟合分类精度不高逻辑回归简介名为回归 实质为分类ps:默认为列向量 转置为行向量过程特征向量线性变换Sigmoid预测结果逻辑回归模型性质线性分类器 无特殊处理 无法解决非线性问题...原创 2019-03-13 11:17:53 · 227 阅读 · 0 评论 -
机器学习100天-9-支持向量机(SVM)
SVM简介支持向量机(support vector machines, SVM)是一种二分类模型,它的基本模型是定义在特征空间上的间隔最大的线性分类器,间隔最大使它有别于感知机;SVM还包括核技巧,这使它成为实质上的非线性分类器。SVM的的学习策略就是间隔最大化,可形式化为一个求解凸二次规划的问题,也等价于正则化的合页损失函数的最小化问题。SVM的的学习算法就是求解凸二次规划的最优化算法。S...原创 2019-03-17 22:26:02 · 431 阅读 · 0 评论 -
机器学习100天-4-逻辑回归
逻辑回归原理解决分类问题逻辑回归既可以看做是一个回归算法,也可以看做是分类算法通常作为分类算法使用,只可以解决二分问题原创 2019-03-12 21:30:02 · 123 阅读 · 0 评论 -
机器学习100天-8-逻辑回归的代码实现
条件预设决策2*x1 - x2 - 4 为正例 否则为负例采样误差假设数据采集过程中有误差,误差服从正在分布N(0,1)数据集x1 x2 都在区间[-5,5]之间均匀分布,随机采取500个样点作为数据集数据采样误差分析模型参数求解实现.pyimport sysfrom numpy import *def loadData(fn): dataMa...原创 2019-03-16 09:40:32 · 201 阅读 · 0 评论 -
利用TensorFlow手写数字识别(MNIST)
MNIST数据集MNIST数据集主要由一些手写的数字和相应的标签组成,图片一共有10类,分别对应0~9 包含以下四个文件train-images-idx3-ubyte.gz 9M 训练图像数据train-labels-idx3-ubyte.gz 0.03M 训练图像的标签t10k-images-idx3-ubyte.gz 1.57M 测试图像数据t10k-labels-idx3...原创 2018-06-25 18:50:19 · 899 阅读 · 0 评论 -
Linux常用命令(上)
简单命令显示linux系统的当前时间date以2012/03/23的方式显示日期date +%y/%m/%d* 列出当前月份的月历*cal显示整年的月历cal 2018显示2018年3月的月历cal 3 2018使用计算器计算bc使用计算器计算1/3,结果保留2位小数scale = 2 1/3显示当前目录下...原创 2018-09-12 15:52:24 · 7482 阅读 · 0 评论 -
Python挖掘建模
前言经过数据探索与数据预处理,得到了可以直接建模的数据。根据**挖掘目标**和**挖掘形式**可以建立分类与预测聚类分析关联规则时序模式偏差检测等模型分类与预测假设对于餐饮企业来说,碰到如下问题基于菜品销售历史,以及节假日、气候和竞争对手等影响因素,对菜品销量进行预测分析预测未来一段时间内哪些顾客会流失,哪个会充值VIP预测新品的销量,在不同人群中的受欢迎程度实...原创 2018-10-22 21:04:44 · 857 阅读 · 2 评论 -
机器学习100天-1-数据预处理
目录1 导库NumPy:数学计算函数Pandas:导入和管理数据集2 导入数据集.csv:文本形式保存表格数据,一行一条数据pd.read_csv:读取本地csv作为一个数据帧数据帧制作自变量 因变量的矩阵和向量3 处理丢失数据丢失的数据会降低模型性能sklearn.preprocessing.Imputer:整列平均值(中间值)代替丢失4 解析分类数据分类数据:不...原创 2019-03-09 22:32:32 · 228 阅读 · 0 评论 -
机器学习100天-2-线性回归
目录1 数据预处理100-12 训练集训练线性回归模型from sklearn.linear_model import LinearRegression创建LinearRegression类的regressor对象fit():将regressor对象对数据集进行训练3 预测结果输出保存在Y_pred中用前一步训练的回归模型regerssor的LinearRegressio...原创 2019-03-10 18:39:48 · 161 阅读 · 0 评论 -
机器学习100天-6-逻辑回归探究
数据集 | 社交网络该数据集包含了社交网络中用户的信息。这些信息涉及用户ID,性别,年龄以及预估薪资。一家汽车公司刚刚推出了他们新型的豪华SUV,我们尝试预测哪些用户会购买这种全新SUV。并且在最后一列用来表示用户是否购买。我们将建立一种模型来预测用户是否购买这种SUV,该模型基于两个变量,分别是年龄和预计薪资。因此我们的特征矩阵将是这两列。我们尝试寻找用户年龄与预估薪资之间的某种相关性,以...原创 2019-03-14 21:10:44 · 316 阅读 · 0 评论 -
机器学习100天-7-KNN
原创 2019-03-15 22:18:53 · 184 阅读 · 0 评论 -
机器学习100天-3-多远线性回归
步骤第1步: 数据预处理导入库import pandas as pdimport numpy as np导入数据集dataset = pd.read_csv('50_Startups.csv')X = dataset.iloc[ : , :-1].valuesY = dataset.iloc[ : , 4 ].values将类别数据数字化from sklearn.pre...原创 2019-03-11 21:18:34 · 217 阅读 · 0 评论 -
机器学习实践指南
一.python基础Nump库1.nabarry数组基础**6.数组运算** 加法:array([20,31,42,53])=array([20,30,40,50])+array([0,1,2,3]) 乘法:array([2,0],[0,4])=array([[2,0],[4,0]])=array([[1,1],[0,1]])*array([[2,x...原创 2017-11-13 12:18:48 · 465 阅读 · 0 评论