机器学习
阿唐明
time is money
https://www.zhihu.com/people/hirolin-89
展开
-
机器学习问题处理流程
1.加载数据,查看总体情况pandas。如果文件过大则用chunck分块head()info()describe() 注意缺失值2.数据预处理离群点 根据数据说明判断是否要去除数据是否符合正态分布。如果用回归模型则考虑转换数据之间关联性 使用corr如果数据有id这样的自增数据,删除 。抽取label字段3.特征工程丢失值填充0 或者None看数据说明Coun...原创 2020-02-15 23:21:57 · 177 阅读 · 0 评论 -
机器学习实战(基于Sklearn和tensorflow)第三章 分类 学习笔记
机器学习实战 书籍第三章例子学习笔记书中源码,here本文地址,here要分为Mnist数据处理、交叉验证、混淆矩阵、精度、多分类问题等。加载数据 可以从本地下载fetch_mldata下载较慢,可以下载到本地链接:https://pan.baidu.com/s/1fAInuofJ_MJJfvNjY1djsg提取码:e462在当前工程目录下新建并拷贝自己下载文件datasets...原创 2019-04-14 12:22:18 · 1146 阅读 · 0 评论 -
机器学习实战(基于Sklearn和tensorflow)第二章学习笔记
机器学习实战 书籍第二章例子学习笔记书中源码,here文中还有很多扩展知识和更新方法,很值得学习本文地址here注:1.增加CustomLabelBinarizer转换器解决参数传递问题(出现args参数数量错误)2.在评估数据集some_data报错 因为选取数据object那个对象进行稀疏向量表示时会出现长度不是样本的5维,例如选择了5组数据,原本第一组属性是object应该是[1...原创 2019-04-10 16:14:09 · 771 阅读 · 0 评论 -
pandas清洗数据常用笔记
read_csvread_csv header 如果为None 则使用默认列名(指定names)import pandas as pddata = pd.read_csv("data/test.csv", header=None)data.head()data = pd.read_csv("data/simple.csv", header=None, names=["用户id", "...原创 2019-03-31 16:14:43 · 422 阅读 · 0 评论 -
机器学习之集成算法 随机森林 sklearn
集成算法目的:简单来说就是构建并结合多个学习分类器来完成学习任务,也称为多分类器系统。例如:有分类任务,使用A分类器和B分类器分别做分类,再结合结果输出。当然有多种模式。1.Bagging...原创 2019-03-06 23:41:38 · 371 阅读 · 0 评论 -
numpy常用笔记
1.降维 ravel()、flatten()、squeeze()、reshape(-1)ravel 如果没有必要,不会产生源数据的副本flatten 返回源数据的副本 源数据不会变化squeeze 只能对维数为1的维度降维arr.flatten()arr.ravel()注意默认是行优先,列优先 arr.flatten(‘F’)...原创 2019-03-03 23:00:58 · 129 阅读 · 0 评论 -
pandas常用笔记
1. ix iloc loc这三个都是用于索引数据的。iloc 使用数字索引数据,不能使用字符型标签来索引。loc 使用字符型标签来索引。ix 是混合索引,字符和整型都可以的注:当然对列标签和行标签都是数字,loc也是可以使用的例:import numpy as npimport pandas as pddata = np.arange(12).reshape(3,4)df...原创 2019-03-03 21:37:30 · 163 阅读 · 0 评论 -
sklearn中个人常见函数笔记
1.fit_transformfit 求得训练集X的均值,方差,最大值,最小值,这些训练集X固有的属性。transform 在fit的基础上,进行标准化,降维,归一化等操作(看具体用的是哪个工具,如PCA,StandardScaler等)。fit_transform 对部分数据先拟合fit,找到该part的整体指标,如均值、方差、最大值最小值等等(根据具体转换的目的),然后对该trainDa...原创 2019-03-03 17:24:57 · 177 阅读 · 0 评论 -
算法常见概念笔记
1.归一化,标准化归一化:把数据投影到(0,1)或者(-1,1)之间的小数。标准化:数据变成平均值为0,标准差为1的数。中心化:均值为0区别:归一化是将样本的特征值转换到同一量纲下把数据映射到[0,1]或者[-1, 1]区间内,变量的极值决定。标准化通过求z-score的方法,转换为标准正态分布。归一化计算有多种方式,例如:x1 = (x - x_min)/(x_max - x_mi...原创 2019-03-03 23:50:07 · 342 阅读 · 0 评论 -
机器学习之决策树
决策树是一个递归的过程,每层使用不同判断标准。熵信息增益信息增益率GINI系数剪枝策略举例1.熵熵表示随机变量不确定性的度量(即内部混乱程度,分布越混乱熵值越大。)E(x)=−∑(p)∗log(p)i=1,2,3......E(x) = -\sum (p)*log(p) i = 1,2,3......E(x)=−∑(p)∗log(p)i=1,2,3......例如...原创 2019-03-06 00:00:26 · 172 阅读 · 0 评论 -
机器学习之回归算法
1.一元线性回归s=∑(i=1)nnis=\sum(i=1)^n{n_i}s=∑(i=1)nni原创 2019-03-05 00:01:32 · 160 阅读 · 0 评论