![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习入门
DropJing
这个作者很懒,什么都没留下…
展开
-
6 对分类器的提升
1.GDBT 对决策树加权 其实就是每次计算下一步的时候,挑选那个让损失函数最小的f(x)来对决策树进行优化 1.1基本原理和目标函数 一个决策树的核心是树的结构和叶的权值 1.2 正则项的定义 让叶子节点的个数,和权值进入,可以在一定程度上防止过拟合 1.3 对目标函数的简化(拿到目标函数的最小值) 1.4 自己的一点理解 关于XGBoost是对一个决策树进行提升,但由于目标韩...原创 2020-03-30 18:55:58 · 257 阅读 · 0 评论 -
决策树决策森林2
1 Bagging策略 用同一组数据做好几次试验 2.随机森林 3.Bagging解决回归问题 (取均值降噪声) 4.样本不均衡的解决方案 5.一个最基本的决策树算法 #!/usr/bin/python # -*- coding:utf-8 -*- import numpy as np import pandas as pd import matplotlib.pyplot as ...原创 2020-03-27 18:59:45 · 279 阅读 · 0 评论 -
1 cifar_10图片文件的读取和写入以及安装tensorflow踩的坑
1 读取文件 import urllib import os import sys import tarfile import glob import pickle import numpy as np import cv2 def download_and_uncompress_tarball(tarball_url, dataset_dir): """Downloads the `tar...原创 2020-03-12 22:55:11 · 215 阅读 · 0 评论 -
3 回归实战
1.关于损失的计算 R^2越大拟合效率越好 2 logistic回归 非常重要的概念 假设一个函数好h(x)(与线性分布相比x) 假设是二项分布(线性分布是假设会高斯分布)求似然函数 求似然函数, 取对数, 求偏导数 这里的参数迭代和线性回归很像,以为同是指数族,有相似性质 3.对数线性模型的反推 4.ROC曲线和AUC面积 我个人理解就是衡量在,二项分布是的拟合程度 5.差分...原创 2020-03-05 19:22:21 · 148 阅读 · 0 评论 -
2 回归问题
1.用极大似然估计解释最小二乘 由中心极限定理知道,当随机现象可以看做众多因素的独立影响的综合反映,往往服从正态分布 于是得到每个x(i)对应的概率密度函数,有因为每个x(i)独立同分布,所有由极大似然估计知道,似然函数是每个x(i)对应密度的乘积 于是由似然函数的求参数的方法,取对数,求导,取极值 - 然后求导 导数为0,求解参数 但考虑到XT * X未必为可以求逆的,于是加上扰动因子 ,...原创 2020-03-04 17:14:39 · 221 阅读 · 0 评论 -
1 数据处理
1.数据抽取有用特征值 在鸾尾花的数据中,共有四个特征值,150条数据 将X^T * X 形成4*4的对称矩阵 求4个特征值,以及对应的四个正交特征向量 取两个特征值最大的特征对应的特征向量,作为标准方向 将剩余的两列特征值投影 原理:其实特征值最大的就是离散程度最高的,用这两个做标注方向,特征值不至于损失太多 2.车辆数据描述 用0, 1, 2, 3表示特征值在参数前方加入参数还是挺麻烦的,...原创 2020-03-03 18:28:25 · 130 阅读 · 0 评论 -
pandas练题
1.读取excel pd.read_excel('animal.xlsx', 'Sheet1', index_col=None, na_values=['NA']) 2.Series 赋值多重索引 pd.read_excel('animal.xlsx', 'Sheet1', index_col=None, na_values=['NA']) # 查询索引为 1,3,6 的值 s.loc[:, ...原创 2020-02-08 22:13:12 · 245 阅读 · 0 评论 -
机器学习之数据处理 学习笔记
1.什么样的数据需要删除 很多条数据,删除这个无所谓 这一列的数据缺失的太多导致,没有办法使用 比如邮编等不可填充 2.pandas常用的数据删除处理的方法 删除 //删除行 df.dropna(axis=0) //删除列 df.dropna(axis=1) 简单填充 //用前面的填充 df.fillna(method='pad') //用用后边的填充 df.fillna(method='b...原创 2020-02-05 16:42:49 · 195 阅读 · 0 评论 -
pandas实战教程1_热门电影
1 简介 刚学完pandas基础后跟着老师写的一个热门电影数据分析,电影分析数据集地址 2 过程 1. 导入数据 unames = ["user_id", "gender", "age", "occupation", "zip"] users = pd.read_table("ml-1m/users.dat", sep="::", header=None, names=unames) rati...原创 2020-02-01 17:56:07 · 286 阅读 · 0 评论 -
pandas入门 基于莫烦python
# coding: utf-8 # In[2]: import pandas as pd import numpy as np # In[3]: #numpy基础 s = pd.Series([1,3,6,np.nan,44,1]) # In[4]: s # In[5]: #dataFrame创建的方式 # 1 指定index clumn dates = pd.da...原创 2020-01-31 20:13:49 · 123 阅读 · 0 评论 -
numpy基础学习 参考莫烦python
import numpy as np #创建 a = np.array([1, 3, 3]) a = np.array([2,23,4],dtype=np.int) a = np.array([2,23,4],dtype=np.float)#指定类型 a = np.zeros((3,4)) # 数据全为0,3行4列 a = np.ones((3,4),dtype = np.int) # 数据为...原创 2020-01-29 20:01:09 · 114 阅读 · 0 评论