Zee_Chao-CSDN博客

原创 sklearn自学目录（更新中）

1.scikit-learn数据集介绍（更新中）2.scikit-learn代码实例学习目录（更新中）

2019-07-14 14:56:10 545

原创 AcWing解题目录（C++）

# 试题名称思想方法难度试题来源 1 A+B 简单 AcWing 2 01背包问题简单 3 完全背包问题简单 4 多重背包问题I 简单 5 多重背包问题II 中等 6 多重背包问题...

2019-06-09 18:08:42 871

原创 CCF认证解题目录（C++）

试题编号试题名称思想方法解题链接 201312-1 出现次数最多的数 https://blog.csdn.net/Zee_Chao/article/details/89576713 201312-2 ISBN号码字符串处理 https://blog.csdn.net/Zee_Chao/article/details/8957...

2019-06-09 17:08:24 583

原创 912数据结构自学习题目录

Part1:https://blog.csdn.net/Zee_Chao/article/details/90272963Part2:https://blog.csdn.net/Zee_Chao/article/details/90342371Part3:https://blog.csdn.net/Zee_Chao/article/details/90445183Part4:https...

2019-05-18 15:51:59 2352

原创从关山口到五道口（2019年清华计算机考研全程回顾+经验+总结）

0.写在最前防迷路本人于2017年毕业于华中科技大学，是一名计算机专业的三战考生。第一年考本校失败，第二年考清华失败，第三年调剂清华网研院学硕上岸。初试成绩：政治：58、英语一：66、数学一：126、专业课（912）：94、总分：344。说实话，就凭这个成绩自己应该是没有脸去写什么经验帖的，所以我也只是把自己的考研历程记录了下来，算是为自己留一个纪念。温馨提示：本文废话比较多，时间紧迫的同...

2019-04-10 22:30:47 19026 27

1. Stacking概述严格来说Stacking不是一种集成学习算法，它更像是一种集成策略。简单来说，Stacking是一种两层集成策略。它的第一层含有多个基础分类器，把预测的结果提供给第二层。第二层的分类器通常是逻辑回归，它会将第一层分类器的结果当做特征输出预测结果。2. Blending——简化版的Stacking Blending也遵从Stacking的策略，但是比较简单，可以用来帮助深入理解Stacking。它的算法流程如下：（1）将数...

2021-09-01 18:45:10 575

原创集成学习-Task4 Boosting

1. Bagging与Boosting的联系与区别 Bagging思想的本质是：通过bootstrap的方式对全样本数据集做有放回抽样得到多个子集，在不同的子集上训练不同的弱分类器，最后通过投票的方式决定最终预测结果。这些弱分类器都倾向于过拟合并且Bagging会通过降低方差的方式减少预测误差。 Boosting则是采取另一种思想：使用全样本数据集训练一系列弱分类器，然后将这些弱分类器组合形成一个预测性能更好的分类器。这些弱分类器都倾向于欠拟合并且Boosting会通过降...

2021-08-24 23:00:22 587

原创集成学习-Task3 投票法与Bagging

1.基于投票法的集成学习1.1投票与机器学习投票简单来说就是“少数服从多数”，那么这个道理跟机器学习有什么关系呢？我们知道集成学习简单来说就是用多个不同的模型来处理同一个问题，那么对于多个不同的处理结果我们应该如何选取呢？对于一个分类问题来说，如果我们用多个不同的模型来预测，可能会得到多个不同的结果。显然，这里我们就可以用少数服从多数的投票法来决定。我们可以直接将投票结果中出现次数最多的类别当作预测结果，这种投票方法叫硬投票。我们还可以将预...

2021-08-22 20:11:11 846

原创集成学习-Task2 机器学习基础模型回顾

1.机器学习的分类假设数据集中有N个样本，每个样本记作。前m个维度称之为特征，最后一个维度称之为因变量（我习惯叫做标签）。特征是用来描述影响因变量的因素的。根据是否有因变量，机器学习可以分为有监督学习和无监督学习。有监督学习：有因变量，预测结果。例如根据房屋参数做房价预测。其中，根据因变量是连续的还是离散的，有监督学习还可以细分为回归和分类。无监督学习：无因变量，寻找数据中存在的关系或结构。例如根据电商用户消费记录寻找行为相似的用户。2.有...

2021-08-19 16:03:34 228

原创集成学习-Task1 机器学习的数学基础

1. 高等数学（略去部分内容）1.1 梯度梯度是一个“向量”而非标量。因此梯度具有两个属性：方向和长度（模）。梯度与方向导数具有很密切的联系。函数在某点的梯度，其方向意味着函数在该点的所有方向导数中沿着该方向可以取得最大值，而这个最大方向导数的值就是梯度的模。更通俗些来讲，从函数变化的角度来看，函数在某点的梯度，其意味着函数在该点沿着此方向增长速度会最快，这个增长的变化率就是梯度的模。1.2 雅各比矩阵（Jacobian矩阵） ...

2021-08-17 20:01:20 466

原创自然语言处理实践（新闻文本分类）-Task3 简单词向量+机器学习算法

目录1.学习内容2.构建词向量并将处理好的数据保存2.1准备工作2.2词袋向量2.3 TFIDF向量3.将不同的词向量应用到不同的机器学习分类算法上3.1逻辑回归3.1.1词袋+逻辑回归3.1.2 TFIDF+逻辑回归3.2岭回归分类3.2.1词袋+岭回归3.2.2 TFIDF+岭回归3.3朴素贝叶斯分类3.3.1词袋+朴素贝叶斯3.3.2 TFIDF+朴素贝叶斯3.4 SVM3.4.1词袋+SVM3.4.2 T...

2020-07-25 23:11:17 988

原创自然语言处理实践（新闻文本分类）-Task2 数据分析

1.准备工作import pandas as pdimport numpy as npimport matplotlib.pyplot as pltfrom collections import Counterdf = pd.read_csv(r'./data/train_set.csv', sep = '\t')print(df.head()) label text0 2 .

2020-07-22 23:17:34 784

原创自然语言处理实践（新闻文本分类）-Task1 赛题理解

1.赛题介绍赛题：Datawhale零基础入门NLP赛事地址：https://tianchi.aliyun.com/competition/entrance/531810/introduction?spm=5176.12281973.1005.1.3dd52448NqFj16赛题以自然语言处理为背景，要求选手根据新闻文本字符对新闻的类别进行分类，这是一个经典文本分类问题。通过这道赛题可以引导大家走入自然语言处理的世界，带大家接触NLP的预处理、模型构建和模型训练等知识点。2. 数据介绍.

2020-07-21 22:31:42 497

原创 CS224N（NLP）组队学习-L13 Contextual Word Representations and Pretraining

注意：博主本身第一次接触NLP。该博文只是把博主目前能够理解的部分记录了下来，以下内容实际上还有很多的细节需要进一步补充！1.学习内容1. ELMo2. Transformer3. GPT4. BERT本项目参见https://github.com/datawhalechina/team-learning/tree/master/04%20%E8%87%AA%E7%84%B6%E8%AF%AD%E8%A8%80%E5%A4%84%E7%90%862. ELMo无论我们使用那.

2020-07-03 20:35:04 264

原创 CS224N（NLP）组队学习-L12 Information from Parts of Words: Subword Models

1.学习内容1.基于单词的模型的局限2.词级和字符级语言模型3. n-gram思想4. fastText本项目参见https://github.com/datawhalechina/team-learning/tree/master/04%20%E8%87%AA%E7%84%B6%E8%AF%AD%E8%A8%80%E5%A4%84%E7%90%862.基于单词的模型的局限在使用基于单词的模型时需要处理规模庞大的词汇表。这种方式虽然效果不错，但是对于单词而言，只要稍微做些...

2020-06-30 18:51:11 257

原创 pandas组队学习-Task9 时序数据

目录1.学习内容2.准备工作3.创建时序数据3.1时序数据类型3.2创建时间点3.2.1 to_datetime()方法3.2.2date_range()方法3.2.3bdate_range()方法3.3 DateOffset对象3.3.1DateOffset与Timedelta的区别4.时序的索引及属性4.1索引切片4.2子集索引4.3时间点的属性5.重采样5.1一般用法5.2采样聚合5.3采样组的迭代...

2020-06-29 15:43:51 746

原创 CS224N（NLP）组队学习-L2 Word Vectors2 and Word Senses

1.学习内容1.了解word2vector的具体实现方法2.介绍其他实现方法本项目参见https://github.com/datawhalechina/team-learning/tree/master/04%20%E8%87%AA%E7%84%B6%E8%AF%AD%E8%A8%80%E5%A4%84%E7%90%862. Word2vector的实现细节Word2vector是计算单词词向量的一种方式。它的核心思想是预测每个单词和上下文单词之间的关系。具体实现算法有Skip-...

2020-06-27 20:16:40 284

原创 pandas组队学习-Task8 分类类型

目录1.学习内容2.准备工作3.分类变量的创建及其性质3.1创建3.2性质3.2.1查看分类类别以及是否有序3.2.2修改类别3.2.3添加类别3.2.4删除类别4.分类变量的排序4.1序的建立与退化4.1.2建立4.1.2退化4.2排序5.分类变量的比较操作5.1 与标量或等长序列的比较5.2与另一分类变量的比较5.2.1等式判别5.2.2不等式判别1.学习内容1.学习分类类型的创建...

2020-06-27 15:34:20 358

原创 pandas组队学习-Task7 文本数据（string类型）处理

1.学习内容1.了解string类型与object类型的区别2.学会string类型的各种处理方式本项目参见https://github.com/datawhalechina/team-learning/tree/master/Pandas%E6%95%99%E7%A8%8B%EF%BC%88%E4%B8%8A%EF%BC%892.准备工作import pandas as pdimport numpy as np3.string类型的性质与转换3.1string类...

2020-06-26 22:17:35 518

原创 CS224N（NLP）组队学习-L1 Introduction and Word Vectors

1.学习内容1.词义2.如何对一个词进行表示3.什么是word2vector4.word2vector的目标函数本项目参见https://github.com/datawhalechina/team-learning/tree/master/04%20%E8%87%AA%E7%84%B6%E8%AF%AD%E8%A8%80%E5%A4%84%E7%90%862.词义词义：语言或文字符号所表示的某种概念。通过wordnet，我们可以查找与某个英语单词含义相近其他词汇...

2020-06-24 18:54:42 308

原创 pandas组队学习-Task6 缺失值处理

目录1.学习内容2.准备工作3.发现缺失值并统计缺失值的情况3.1观察具体位置上是否出现缺失值3.2缺失值的统计3.3缺失值数据的筛选与过滤3.3.1找出某列缺失值所在的行数据3.3.2找出所有值都非缺失的行数据3.4缺失值符号介绍3.4.1旧体系的符号3.4.2新体系的数据类型和符号3.5convert_dtypes()方法4.缺失数据的运算与分组4.1运算4.2分组（groupby）5.缺失值的填充与删除...

2020-06-23 23:12:42 647

原创第十周：支持向量机（SVM）

1.学习内容1.了解SVM的原理2.实现SVM3.认识核函数4.如何用SVM解决线性回归问题2.什么是SVM要了解什么是SVM，还需要从分类问题中的决策边界不适定问题讲起。我们都知道，一个二分类的模型其决策边界可视化后可以是一个低维度平面或者直线。但是，可以将正样本和负样本完美分隔开的低维平面有很多个，假如每一个平面都对应一个模型，那么我们要如何从中选择最好的那...

2020-05-02 22:55:05 622

原创 pandas组队学习-Task5 表格的新增行列、数据填充与表格合并

1.学习内容1.学会如何对已有的表格新增行和列以及如何将不同的表格合并2.学会如何用其他表格的数据来对当前表格进行填充2.准备工作import numpy as npimport pandas as pddf = pd.read_csv('data/table.csv')print(df.head()) School Class ID Gender ...

2020-04-30 22:22:17 925

原创 pandas组队学习-Task4 用pandas对表格进行变形

1.学习内容1.了解透视表的构造与还原2.了解哑变量的生成本项目参见https://github.com/datawhalechina/team-learning/tree/master/Pandas%E6%95%99%E7%A8%8B%EF%BC%88%E4%B8%8A%EF%BC%892.准备工作import numpy as npimport pandas a...

2020-04-28 23:25:55 733

原创第九周：主成分分析(PCA)算法

1.学习内容1.了解PCA算法的思想及原理2.了解PCA算法的实现及应用2. PCA算法介绍PCA即主成分分析方法，是一种使用最广泛的数据降维算法（非监督的机器学习方法）。其最主要的用途在于“降维”，即通过析取主成分显出的最大的个别差异，发现更便于人类理解的特征。也可以用来削减回归分析和聚类分析中变量的数目[1]。很多时候我们要用到的数据会具有非常多的特征。数据的特征越多...

2020-04-26 23:30:01 1128

原创 pandas组队学习-Task3 分组方法groupby()和它的小伙伴们

目录1.学习内容2.什么是SAC过程3.准备工作4.groupby()方法4.1一般用法4.1.1按某一列分组4.1.2按多列分组4.1.3查看每一组的容量和分成的组数4.1.4遍历每一组4.1.5level参数和axis参数4.2groupby对象的特点4.2.1可用的方法4.2.2head()方法和firtst()方...

2020-04-26 21:11:22 1344

原创 pandas组队学习-Task2 pandas的各种索引操作

1.学习内容1.了解pandas支持的各种索引操作2.了解pandas对索引的设置3.了解pandas的索引函数4.利用pandas的索引操作对数据进行处理和抽样本项目参见https://github.com/datawhalechina/team-learning/tree/master/Pandas%E6%95%99%E7%A8%8B%EF%BC%88%E4%B8...

2020-04-23 22:05:52 1957

原创 pandas组队学习-Task1 pandas的基本操作

1.学习内容1.了解如何用pandas保存和读取不同文件类型的数据2.了解如何使用pandas的两个基本数据结构及其操作本项目参见https://github.com/datawhalechina/team-learning/tree/master/Pandas%E6%95%99%E7%A8%8B%EF%BC%88%E4%B8%8A%EF%BC%892.准备工作首先，需...

2020-04-20 22:41:16 1386

原创第八周：决策树模型

1.学习内容1.决策树的概念及核心思想2.决策树的学习过程3.如何选择特征进行划分4.利用ID3和C4.5来构建决策树5.用sklearn实现决策树6.分类与回归树CART2. 决策树的基本概念2.1什么是决策树如果你对流程图比较了解的话，那么决策树就相当于是一个只含有“开始”、“结束”和“判断”的树状流程图。决策树是一个非常有意思的模型，它的建...

2020-04-19 23:20:11 1572

原创第七周：逻辑回归模型

目录1.学习内容2.用逻辑回归解决分类问题2.1为什么不能用线性回归解决分类问题2.2什么是逻辑回归3.逻辑回归的目标函数3.1从线性回归到逻辑回归3.2从极大似然到逻辑回归4.利用梯度下降法求解参数5.逻辑回归的实现及应用6.逻辑回归的决策边界及多项式7.逻辑回归的正则化8.参考文献1.学习内容1. 逻辑回归本质及...

2020-04-12 22:27:47 1225

原创第六周：机器学习理论与实践的补充

目录1. 学习内容2. 多项式回归2.1 什么是多项式回归2.2 一元多项式回归的实现2.2.1 手动实现2.2.2 调用sklearn中的相关模块2.3 多元多项式回归的实现3. sklearn中的pipeline4. 偏差与方差4.1 什么是偏差和方差4.2 偏差与方差产生的原因4.3 如何权避免高偏差和高方差5. L1正则与L2正则5....

2020-04-05 22:55:02 879 1

原创零基础入门数据挖掘-Task5 模型融合

1. 学习内容1. 了解模型融合的目的2. 对于多种调参完成的模型进行模型融合3. 了解模型融合的各种方法本项目参见https://github.com/datawhalechina/team-learning2. 为什么要进行模型融合不同的模型在进行预测的时候都各有侧重。那么，如果将多个不同的模型一同进行考量，就很可能产生互补的效果从而使总体的预测效果提升。3. 回...

2020-04-03 22:20:03 349

原创零基础入门数据挖掘-Task4 建模调参

目录1. 学习内容2. 准备工作3. 用线性回归简单建模3.1 用简单线性回归建模3.2 查看效果并做相应的调整3.3 K-折交叉验证3.4 模拟真实的业务情况3.5绘制学习率曲线和验证曲线4. 多模型对比4.1 预处理4.2线性模型与嵌入式特征选择4.3 非线性模型5. 模型调参（以LGB模型为例）5.1 贪心调参5.2 网格调参...

2020-04-01 20:57:02 1339

原创第五周：梯度下降

1. 学习目标1. 实现梯度下降及其在线性回归中的应用2. 实现随机梯度下降2. 梯度下降法2.1 最优化目标函数时遇到的问题与梯度下降算法如果我们把机器学习算法看做一个函数的集合，那么我们需要根据定义好的某项衡量标准来从中找出最好的那个函数。例如，在第二周我们学习了如何衡量一个模型的好坏即衡量标准；第四周我们通过最小二乘法找到了线性回归模型的目标函数的最优参数从而确定了最好的...

2020-03-29 15:35:10 780

原创零基础入门数据挖掘-Task3 特征工程

1. 学习内容1. 异常处理2. 特征归一化/标准化3. 数据分桶4. 缺失值处理5. 特征构造6. 特征筛选本项目参见https://github.com/datawhalechina/team-learning2. 导入相关模块和数据import pandas as pdimport numpy as npimport matplotlibimpor...

2020-03-28 19:14:31 728

原创零基础入门数据挖掘-Task2 数据分析

1. 学习内容1. 载入各种数据科学及可视化库2. 载入数据3. 数据总览4. 判断和处理缺失值与异常值5. 了解预测值分布6. 了解特征值分布7. 特征分析（包括类别特征和数字特征）8. 生成数据报告2. 载入数据库...

2020-03-24 21:14:30 688

原创零基础入门数据挖掘-Task1 赛题理解

1. 赛题介绍赛题：零基础入门数据挖掘 - 二手车交易价格预测地址：https://tianchi.aliyun.com/competition/entrance/231784/introduction?spm=5176.12281957.1004.1.38b02448ausjSX比赛要求参赛选手根据给定的数据集，建立模型，最终预测二手汽车的交易价格。2. 数据介绍数据来自Eb...

2020-03-23 13:58:01 258

原创第四周：线性回归模型

目录1. 学习目标2. 简单线性回归与最小二乘法2.1 什么是简单线性回归2.2 如何找到最佳的直线2.3 千奇百怪的单样本损失函数2.3.1 0-1损失函数2.3.2 平方损失函数2.3.3 绝对损失函数2.3.4 对数损失函数2.4 侧重不同的多样本风险函数2.4.1 期望风险2.4.2 经验风险2.4.3 结构风险2.5 最小二乘法...

2020-03-20 16:03:53 751

原创第三周：简单的数据预处理和特征工程

1. 学习目标1. 无量纲化：最值归一化，均值方差标准化，sklearn中的preprocessing2. 缺失值处理3. 处理分类型特征：编码与哑变量4. 处理连续型特征：二值化与分段2. 无量纲化2.1 为什么要做无量纲化不同的特征可能会有不同的计量单位，这些有单位的特征在计算距离或者相似度的时候会对结果造成不良影响。例如：在两个样本中肿瘤大小的分别为1cm和5cm...

2020-03-14 13:39:42 1745

空空如也

空空如也