中国移动实习总结
Mr_Zhang_Zhen
重庆大学硕士,从事机器学习、深度学习方面的研究
展开
-
matlab读入excel的数据,后求取平均值,标准差,然后将结果写入其中
clear all;num=xlsread('实验结果_修订2(1).xlsx',1,'C463:H550'); 读入待计算的数据为num[m,n]=size(num);accuracy_mean=zeros(m,1);STD=zeros(m,1);%将nan的数据赋值为0test=num;for i=m:-1:1 if isnan(test(i,1))==1 num(i,:)=0; endend% 求得平均值,标准差for i=1:maccuracy_m原创 2021-04-26 10:19:23 · 9324 阅读 · 0 评论 -
【中国移动实习打杂项目】用matlab 将多个excel合并为一个
clearclose allcd K:\数通设备端口流量-filenames =dir();%读入所有文件夹的名字,前两个不作数% filenames(1:101,:)=filenames(3:103,:)file_length= size(filenames,1);sum=0;%所有excel中总行数for i=3:file_length%读每个文件夹 file_name=filenames(i).name;%单个文件夹的名字 path=strcat('K:\数通设备端口流量原创 2021-04-26 10:11:29 · 900 阅读 · 0 评论 -
验证集与交叉验证法
设置验证集的作用:首先用训练集合多个正则化超参数训练多个模型,选择在验证集上有最佳性能的模型和超参数。最后用测试集得到结果。如果没有验证集,直接在测试集上调至模型和正则化超参数,会导致模型对新数据的性能不会高下面交叉验证的讲法更容易理解:...原创 2021-03-22 10:56:21 · 715 阅读 · 0 评论 -
过拟合与正则化、欠拟合
过拟合是指网络相对于数据量过于复杂,以至于没有学习到数据本征特征反而学习到了样本噪声,以致模型在训练数据上表现很好, 但是推广效果不好。解决方法:正则化:原创 2021-03-22 10:26:29 · 62 阅读 · 0 评论 -
数据清洗
原创 2021-03-22 10:17:40 · 73 阅读 · 0 评论 -
特征工程
原创 2021-03-22 10:16:48 · 65 阅读 · 0 评论 -
机器学习、数据挖掘、分类与回归定义
机器学习是通过编程让计算机从数据中进行学习的科学计算机程序利用经验 E 学习任务 T, 性能是 P, 如果针对任务 T 的性能 P 随着经验 E 不断增长, 则称为机器学习。使用机器学习方法挖掘大量数据, 可以发现并不显著的规律。 这称作数据挖掘。一个典型的监督学习任务是分类。 垃圾邮件过滤器就是一个很好的例子: 用许多带有归类( 垃圾邮件或普通邮件) 的邮件样本进行训练, 过滤器必须还能对新邮件进行分类。另一个典型任务是预测目标数值, 例如给出一些特征( 里程数、 车龄、 品牌等等) 称作预测原创 2021-03-22 10:15:41 · 247 阅读 · 0 评论 -
Python报错: Using TensorFlow backend
解决:导入os头文件,并如下设置import osos.environ['KERAS_BACKEND']='tensorflow'原创 2021-03-19 16:40:14 · 355 阅读 · 0 评论 -
Python 结构化数据 正负样本不均衡 问题及采样策略(降采样,过采样原理代码)
代码链接:https://www.pianshen.com/article/1270372172/from sklearn.datasets import make_blobsimport numpy as np, matplotlib.pyplot as mpfrom sklearn.linear_model import LogisticRegression# 负样本:正样本 = 1:1X, Y = make_blobs(centers=2, cluster_std=2, random_st原创 2021-03-19 16:37:49 · 941 阅读 · 0 评论 -
数据填充准则
一组数据中如果有特别大的数或特别小的数时,一般用中位数一组数据比较多(20个以上),范围比较集中,一般用众数将数据中的缺失值按众数填充是不对的!应该先写出众数然后粘贴复制进去...原创 2021-03-18 10:47:24 · 187 阅读 · 0 评论 -
XGBoost
XGBoost的目标函数如下图所示:红色箭头所指向的L 即为损失函数(比如平方损失函数:l(yi,yi)=(yi−yi)2l(yi,yi)=(yi−yi)2)红色方框所框起来的是正则项(包括L1正则、L2正则)红色圆圈所圈起来的为常数项对于f(x),XGBoost利用泰勒展开三项,做一个近似。f(x)表示的是其中一颗回归树。XGBoost的核心算法思想不难,基本就是:不断地添加树,不断地进行特征分裂来生长一棵树,每次添加一个树,其实是学习一个新函数f(x),去拟合上次预测的残差。当我们训练完转载 2021-03-08 19:24:35 · 172 阅读 · 0 评论