自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(11)
  • 收藏
  • 关注

原创 李宏毅机器学习——1.Regression

1.定义:找到一个函数function,通过输入特征X,输出一个数值Scaler。2.应用举例:股市预测输入:过去十年股票的变动、新闻资讯等输出:预测股市明天的平均值Pokemon(宝可梦)精灵攻击力预测输入:进化前的CP值、物种、血量(HP)、重量(weight)、高度(height)输出:进化后的CP值3.模型步骤Step1:模型假设,选择模型框架(线性模型)Ste...

2020-02-12 09:45:04 225

原创 李宏毅机器学习——0.Introduction

一.机器学习介绍目标:人工智慧(Artificial Intelligence)手段:机器学习(Machine Learning)深度学习是机器学习中的一种方法Machine Learning≈Looking for a Functioneg:语音辨识中:找一个function,输入的是声音讯号,输出语言辨识的文字。如何找到这个function呢?以影像辨识为例,找个functio...

2020-02-10 09:12:16 163

原创 kaggle竞赛-Instacart Market Basket Analysis(推荐)-特征工程

紧接上次的分析初探,进行进一步特征工程的详细分析。1.数据准备1.1导入工具包import pandas as pdimport numpy as npimport matplotlib.pyplot as pltimport seaborn as snsimport lightgbm as lgbimport gc%matplotlib inline 1.2导入数据pat...

2020-01-31 17:59:57 1270

原创 kaggle竞赛-Instacart Market Basket Analysis(推荐)-初探

竞赛网址参考代码1.1赛题背景:1.2数据集详情:aisle.csv 产品摆放位置说明 - 包含了aisle_id和aisle两列数据departments.csv 产品所属类别 - 包含了department_id和department两列数据products.csv 产品详情说明 - 包含product_id、product_name、aisle_id、department...

2019-12-25 16:04:33 2249

原创 四、挖掘建模——分类

训练集、验证集和测试集训练集:用于训练和拟合模型验证集:通过训练集训练出多个模型后,使用验证集数据来寻找模型得最佳参数测试集:模型泛化能力的考量(泛化指的是对未知数据的预测能力)#划分训练集、验证集和测试集from sklearn.model_selection import train_test_splitf_v=features.valuesl_v=label.values...

2019-09-17 19:19:40 203

原创 三、预处理理论

特征工程:1.特征使用(数据的选择、数据的可用性)2.特征获取(特征来源、特征存储)3.特征处理(数据清洗、特征预处理)4.特征监控(现有特征、新特征)下面重点介绍一下特征处理1.数据清洗1)数据样本采集(抽样)2)异常值(空值)处理import pandas as pddf=pd.DataFrame({'A':['a0','a1','a1','a2','a3','a4'],'...

2019-08-24 19:59:16 175

原创 二、多因子探索分析与可视化

一、假设检验与方差检验import numpy as npimport scipy.stats as ss1.正态检验norm_dist=ss.norm.rvs(size=20) #符合标准正态分布的20个数ss.normaltest(norm_dist) #检验是否为正态分布,p>0.05符合正态分布,基于偏度和峰度的一种检验法2.卡方检验ss.chi2_contingenc...

2019-08-12 19:32:57 2415

原创 爬虫初学1

一、读懂网页结构1.什么是HTML (标记语言)html是用来描述网页的一种语言html指超文本标记语言html使用标记标签来描述网页html文档=网页2.标签、元素、属性1)标签:HTML标签由尖括号包围的关键字 eg:< html>         通常成对出现 eg:< b> 和< ...

2019-07-23 10:03:29 163

原创 一、单因子探索分析与可视化

1.读取csv文件,查看基本信息import pandas as pddf=pd.read_csv('HR.csv')df.head() #查看前五行数据type(df) #查看数据类型df.mean() #平均值df.median() #中值df.quantile(q=0.25) #四分位数df.mode() #众数df.std() #标准差df.var(...

2019-06-23 21:50:30 260

原创 OS模块下的关于文件的操作

1、os.listdir(path)列出指定路径下的所有文件2、os.listdir(os.getcwd())列出当前路径下的所有文件3、os.mkdir(path)在指定路径下创建指定文件夹4、os.rmdir(path)删除指定路径下的指定文件夹...

2019-04-08 08:45:07 236

原创 数据预处理

1.导入python中的三个库(Numpy、Matplotlib、Pandas)import numpy as apimport matplotlib.pyplot as pltimport pandas as pd读入数据集dataset=pd.read_csv(data.csv)创建矩阵保存自变量X=dataset.iloc[:,:-1].values#第一个:表示提取...

2019-04-04 15:09:56 764

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除