机器学习
文章平均质量分 81
jose_yubin
这个作者很懒,什么都没留下…
展开
-
Python基础知识
help 说明文档 dir 这个包含哪些可以使用的东西导航 列表推导式 返回的是列表,列表中的每个元素 [x**2 for x in [1,2,3]] append 把一个元素,一个元素当作一个整体填充到list中 extend把各个元素都加入到list中 高级排序功能sorted ...原创 2018-04-18 21:52:14 · 175 阅读 · 0 评论 -
deeplearning.ai神经网络和深度学习学习笔记
逻辑回归 前向传播 求损失函数导数 m个样本的梯度下降 向量化 浅层神经网络 神经网络表示 浅层神经网络运算的向量表示 激活函数 逻辑回归 单个样本的情况如下: 前向传播 假设一个样本有2个特征x1,x2x1,x2x_{1},x_{2},从左向右传播,依次求出z,az,az,a和损失函数,我们需要一次次的更新参数w1,w2,bw1,w2,bw_{1}...原创 2018-04-12 11:10:53 · 273 阅读 · 1 评论 -
pandas要点
DataFrame的列都是Series,可以理解成DataFrame就是Series的集合 # 每一列多少缺失值 data.isnull().sum(axis=0) 每一行都有多少缺失值 data.isnull().sum(axis=1)原创 2018-03-28 18:13:43 · 181 阅读 · 0 评论 -
Spark与大数据处理常用操作
初始化RDD RDD的transform 1 Spark可以分为1个driver(笔记本电脑或者集群网关机器上)和若干个executor(在各个节点上),通过SparkContext(简称sc)连接Spark集群、创建RDD,简单可以认为SparkContext是Spark程序的根本。 Driver会把计算任务分成一系列小的task,然后送到executor执行。e...原创 2018-03-28 12:26:10 · 2285 阅读 · 0 评论 -
pandas-常用操作
groupby import pandas as pd import numpy as np %matplotlib inline salaries = pd.DataFrame({ 'Name': ['July', 'Zewei', 'Zewei', 'Han', 'July', 'July', 'Zewei', 'July'], 'Year': [2016,2016,20...原创 2018-04-01 23:18:50 · 213 阅读 · 0 评论 -
机器学习-数据处理
基本处理 缺失值处理 fillna dropna 常用特征工程处理 数值型 幅度缩放 统计结果作为特征 四则运算 高次特征和交叉特征 离散化/分箱 独热向量编码 时间型 特征选择 过滤型 包裹型 嵌入型 基本处理 缺失值处理 fillna dropna 常用特征工程处理 数值型 幅度缩放 from sklearn.prep...原创 2018-03-31 13:04:24 · 201 阅读 · 0 评论 -
《统计机器学习》-决策树学习笔记
优点 决策树学习三个步骤 定义 结点类型 决策树与条件概率分布 过拟合 ID3构建决策树 随机变量 墒 信息增益 信息增益算法 计算H(D) 计算条件墒H(D|A) 计算信息增益 利用信息增益构建决策树实例 信息增益比 ID3算法 C4.5生成算法 决策树的剪枝 决策树的损失函数 CART算法 决策树是基本的分类和回归方法。但是主要用于分类。在分类问题中,表示基于...原创 2018-03-30 12:32:03 · 300 阅读 · 0 评论 -
机器学习
数据清洗 简单易知的不可能数值 比如身高12米的人 组合属性判定 地区在米国但是IP地址在大陆的新闻用户 补齐可对应的缺省值 缺失值很多的字段考虑不用 很多情况正负样本不均衡 电商情况下,用户点击/购买的商品 疾病患者和健康人 大多数模型对正负样本敏感,比如逻辑回归(LR)。这是因为如果正样本特别多,那么损失函数中正样本所占比例就更大,因为损失函数就是一个个样本误差叠加起来的,如果正样...原创 2018-03-15 16:52:00 · 186 阅读 · 0 评论 -
逻辑回归
引出 线性回归+阈值会有一定问题,因此需要把值映射到某个范围内,sigmoid函数11+e−z11+e−z\frac{1}{1+e^{-z}} 当预测出来的结果,可以看成概率p<0.5,y=0;如果p>0.5,y=1 损失函数,代价函数 如果逻辑回归采用的代价函数和线性回归使用同样的损失函数,平方损失,在逻辑回归的假设函数条件下,损失函数是非凸函数,因此逻辑回归的损失函数为...原创 2018-03-15 15:54:43 · 120 阅读 · 0 评论 -
机器学习基本概念1
梯度 该方向上升最大的方向 梯度下降法 原因 并不是所有的矩阵都有逆 计算量会很大 梯度下降法更新参数 沿着负梯度的方向 下降 Θ1=Θ1−αdJ(Θ))dΘ1Θ1=Θ1−αdJ(Θ))dΘ1 \Theta _{1}=\Theta _{1}-\alpha \frac{\mathrm{d} J(\Theta))}{\mathrm{d} \Theta _{1}} 凸函数 ...原创 2018-03-15 02:25:34 · 125 阅读 · 0 评论 -
Pandas基础入门
倒入pandas库 import pandas as pd 读取csv格式文件 food_info=pd.read_csv("food_info.csv") 查看前5行 head()默认显示前五行 food_info.head() 查看有多少属性列 food_info.columns 查看数据有多少行,多少列 查看某个特定行的数据原创 2018-01-09 11:21:03 · 213 阅读 · 0 评论 -
线性回归原理推导
单变量的推导yi^=f(xi)=ωxi+b\hat{y_{i}}=f\left ( x_{i} \right )=\omega x_{i}+b 其中损失函数可以是:L(f(xi))=(yi−yi^)2L\left ( f\left ( x_{i} \right ) \right )=\left( y_{i} -\hat{y_{i}}\right)^2,这里的损失函数可以是任意的,什么形式都可以。其原创 2018-01-04 09:01:51 · 586 阅读 · 0 评论 -
Matplotlib基础入门之简易折线图
import pandas as pd import matplotlib.pyplot as plt unrate=pd.read_csv("UNRATE.csv") #把字符串转成时间格式 unrate['DATE']=pd.to_datetime(unrate['DATE']) #截取前六个显示 first_6=unrate[0:6] #plot画图,x,y分别对应 plt.plot(fir原创 2018-01-11 09:37:37 · 176 阅读 · 0 评论