李宏毅机器学习hw2

这篇博客介绍了机器学习作业中的分类任务,主要涉及数据清洗、标准化、训练集与验证集划分以及Logistic Regression的训练过程。使用小批次梯度下降法进行训练,并对训练结果进行了预测和准确率计算。
摘要由CSDN通过智能技术生成

Homework 2 - Classification

 

1.数据清洗

 

读取文件

         在这次作业中只有X_train,X_test,Y_train三个文件被用到,可以通过Notepad++查看三个文件具体的数据。

         X_train,X_test第一行是表头,第二行开始是数据。表头是个人信息。

         Y_train只有两列,第一列是人的编号(ID),第二列是一个label——如果年收入>50K美元,label就是1;如果年收入≤50K美元,label就是0。

         用numpy数组来存数据

标准化

划分训练集和验证集

         用训练集的10%作为验证集

import numpy as np

np.random.seed(0)
#设置文件路径
X_train_fpath = './hwdata/hw2/data/X_train'
X_test_fpath = './hwdata/hw2/data/X_test'
Y_train_fpath = './hwdata/hw2/data/Y_train'
output_fpath = './output_{}.csv'

with open(X_train_fpath) as f:
    next(f)
    X_train = np.array([line.strip('\n').split(',')[1:]  for line in f], dtype = 'float')
    
with open(X_test_fpath) as f:
    next(f)
    X_test = np.array([line.strip('\n').split(',')[1:]  for line in f], dtype = 'float')
    
with open(Y_train_fpath) as f:
    next(f)
    Y_train = np.array([line.strip('\n').split(',')[1]  for line in f], dtype = 'float') 
    

#标准化
def _normal(X, train = True, specificed_column = None, X_mean = None, X_std = None):
    
    
    if specifice
  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值