迷迷糊糊本人-CSDN博客

转载李宏毅机器学习6

没有看完先copy一下-_-，明天补充！为什么用CNN我们都知道CNN常常被用在影像处理上，如果你今天用CNN来做影像处理，当然也可以用一般的neural network来做影像处理，不一定要用CNN。比如说你想要做影像的分类，那么你就是training一个neural network,input一张图片，那么你就把这张图片表示成里面的pixel，也就是很长很长的vector。output就是(假如你有1000个类别，output就是1000个dimension)dimension。那我相信根据刚才那堂

2021-07-24 22:09:54 187

原创李宏毅机器学习--Tips for training

目录crirical point means gradient=0判断**critical point**是**local minima**还是**saddle point**？卡在saddle point时参数update的方向？saddle point vs. local minimasmall batch size and momentum help escape critical pointBatchMomentumcrirical point means gradient=0当梯度接近于0甚至

2021-07-21 15:58:51 590

原创李宏毅机器学习--梯度下降

目录梯度下降review学习率的调整可视化设置学习率的大小Adaptive learning rate（自适应学习率）梯度下降review首先给定一个参数初始值，然后沿着参数梯度方向的反方向走η\etaη距离更新参数，知道找到损失函数L的最小点为止。学习率的调整如果设置的学习率刚好的话，如红色的线，可以顺利高效地找到最低点；如果学习率设置的太小，如蓝色的线，会走得很慢，但是在足够多的迭代次数后也会找到最低点；如果学习率设置的太大，如绿色和黄色的线，永远无法到达最低点。所以学习率的设置至关重要。

2021-07-15 20:21:14 473 6

原创李宏毅机器学习--机器学习中的关键问题：在bias和variance之间trade-off

目录误差来源Bias vs. Variancebias大 -> 欠拟合variance大 -> 过拟合在bias和variance之间tarde-off选择模型 -> 交叉验证误差来源Error有两个来源：bias（偏差）和variance（方差）Error反映的是整个模型的准确度，Bias反映的是模型的输出结果与真实值之间的误差，即模型本身的精准度，Variance反映的是模型每一次输出结果与模型输出期望之间的误差，即模型的稳定性。Bias vs. Variancebia

2021-07-15 16:21:31 302

原创李宏毅深度学习--以回归为例走一遍机器学习流程

目录机器学习流程Step 1 -> 选择模型：线性模型Step 2 -> 模型评估：损失函数Step 3 -> 最佳模型：梯度下降梯度下降(gradient descent)过拟合(Overfitting)优化1：input更多的特征优化2：input更多的参数优化3：正则化(regularization)机器学习流程Step 1：A set of function -> 选择模型，一组w, bStep 2：Goodness of function -> 评估模型，损失函

2021-07-14 11:21:57 394

原创李宏毅深度学习--机器学习介绍

目录机器学习机器学习相关技术参考资料机器学习Mechine Learning = Looking for a function from DataFramework:Step 1: function set 就是 modelStep 2: 通过输入Training Data得到 function set 中每个 function 的结果Step 3: 需要一个好的演算法从 function set 中挑出最好的function机器学习相关技术监督学习：训练集都是带label的数据

2021-07-12 17:32:31 113

原创 leetcode--动态规划

动态规划的思想动态规划的思想是找出问题之间的联系，记录之前子问题的答案以解答更大规模问题。动态规划往往用于优化递归问题，例如斐波那契数列，如果运用递归的方式来求解会重复计算很多相同的子问题，利用动态规划的思想可以减少计算量。动态规划的步骤确定动态规划状态确定状态转移方程（即找出问题之间的联系）考虑初始化条件考虑输出条件考虑优化时间、空间复杂度应用DataWhale动态规划有了四步解题法模板，再也不害怕动态规划！（进阶版）有了四步解题法模板，再也不害怕动态规划！...

2021-06-10 11:17:24 72

原创 leetcode--分治算法

分治法的思想把一个复杂的问题递归地分成若干子问题，知道子问题满足边界条件，停止递归。将子问题逐个击破，再将解决的子问题合并，得到原问题的答案。分治法使用的情况该问题的规模缩小到一定的程度就可以容易地解决该问题可以分解为若干个规模较小的相同问题，即该问题具有最优子结构性质。利用该问题分解出的子问题的解可以合并为该问题的解；该问题所分解出的各个子问题是相互独立的，即子问题之间不包含公共的子子问题。【注】：第三条特征是关键，能否利用分治法完全取决于问题是否具有第三条特征，如果具备了第一条和第二条特

2021-06-01 19:58:50 206

原创 pyplot绘制子图笔记

创建子图fig = plt.figure(figsize=(4,3),dpi=100)ax1 = fig.add_subplot(1,2,1)ax2 = fig.add_subplot(122)等同于fig, ax = plt.subplots(1,2,figsize=(4,3),dpi=100)其中，fig是图像对象，ax是子图对象的元组组合。figsize控制每个子图的比例大小，dpi控制清晰度。设置子图样式fig, ax = plt.subplots(1, 2, figsize=(

2021-04-24 17:07:31 526 1

原创集成学习笔记5--使用sklearn构建完整的分类项目

掌握基本的分类模型逻辑回归logistic regression收集数据集并选择合适的特征在数据集上我们使用我们比较熟悉的IRIS鸢尾花数据集。import pandas as pdfrom sklearn import datasetsiris = datasets.load_iris()X = iris.datay = iris.targetfeatures = iris.feature_namesdata = pd.DataFrame(X, columns=features)

2021-03-27 23:18:53 309

原创集成学习笔记4--参数调优

超参数调优参数和超参数优化超参数对模型的超参数进行调优（调参）：我们前面4部分的优化都是基于模型本身的具体形式的优化，那本次5调整的内容是超参数，也就是取不同的超参数的值对于模型的性能有不同的影响。参数和超参数在刚刚的讨论中，我们似乎对模型的优化都是对模型算法本身的改进，比如：岭回归对线性回归的优化在于在线性回归的损失函数中加入L2正则化项从而牺牲无偏性降低方差。但是，大家是否想过这样的问题：在L2正则化中参数 λ 应该选择多少？是0.01、0.1、还是1？到目前为止，我们只能凭经验或者瞎猜，能

2021-03-24 20:29:05 912 2

原创集成学习笔记3--偏差与方差理论

3.偏差与方差理论训练均方误差和测试均方误差偏差-方差的均衡优化模型（调参）训练均方误差和测试均方误差在回归中，我们最常使用的评价指标为均方误差（MSE）：MSE=1N∑i=1N(yi−f^(xi))2MSE=\frac {1}{N}\sum_{i=1}^{N}(y_i-\hat f(x_i))^2MSE=N1∑i=1N(yi−f^(xi))2。左：通过不同函数f拟合产生的数据。右：灰色曲线->训练均方误差，红色曲线->测试均方误差。方块分别对应左图通过不同模型模拟数据

2021-03-22 22:47:16 626

原创集成学习笔记2--回归模型

2.掌握基本的回归模型2.1 使用sklearn构建完整的回归项目还未整理完笔记，明日补充使用sklearn构建完整的机器学习项目流程：明确项目任务：回归/分类收集数据集并选择合适的特征选择度量模型性能的指标选择具体的模型进行训练评估模型性能并调参2.1 使用sklearn构建完整的回归项目收集数据集并选择合适的特征根据导论选择Boston数据集。选择度量模型性能的指标https://scikit-learn.org/stable/modules/model_evaluat

2021-03-18 23:52:23 297

原创集成学习笔记1--导论

1.导论1.1 回归1.2 分类1.3 无监督学习机器学习的一个重要的目标就是利用数学模型来理解数据，发现数据中的规律，用作数据的分析和预测。数据通常由一组向量组成，这组向量中的每个向量都是一个样本，用????????来表示，其中???? = 1, 2, 3, . . . , ????，共N个样本，每个样本???????? = (????????1, ????????2, . . . , ????????????, ????????)共p+1个维度，前p个维度的每个维度我们称为一个特征，最后一个维度???

2021-03-15 23:53:44 181

原创梯度下降与回归算法

梯度下降与回归算法目录梯度下降与回归算法1. 机器学习的基本模式2. 线性回归3. 梯度下降python实现参考资料1. 机器学习的基本模式拟合数据（训练模型） --> 进行预测假设函数（Hypothesis Function）：通常表示为 H(x)，输入数据输出预测值y^。损失函数（Loss Function）：通常表示为 L(x)，表示预测值与真实值的偏差。。函数返回值越大，表示结果偏差越大。成本函数（Cost Function）：通常表示为 J(x) ，与损失函数一样表示预

2020-09-11 11:03:41 1177

原创 Python学习--类和方法

链接: DataWhale类和方法.目录1.对象 = 属性 + 方法2.self是什么？3.python的魔法方法4.公有和私有5.继承6.组合7.类、类对象和实例对象8.什么是绑定？9.一些相关的内置函数(BIF)1.对象 = 属性 + 方法对象是类的实例。换句话说，类主要定义对象的结构，然后我们以类为模板创建对象。类不但包含方法定义，而且还包含所有实例共享的数据。封装：信息隐蔽技术，将属性和方法封装在对象内部。class Turtle: # Python中的类名约定以大写字母开头

2020-08-24 12:13:45 310

原创机器学习实战第4章利用SVD简化数据学习笔记

目录SVD概述SVD概念奇异值数目SVD降维SVD应用基于协同过滤的推荐系统相似度计算推荐引擎的评价餐馆菜肴推荐引擎基于SVD的图像压缩SVD概述SVD概念奇异值：奇异值和矩阵的特征值有关系。这里的奇异值Data*DataT特征值的平方根。奇异值分解：SVD是矩阵分解的一种类型，用于提取信息，可以把SVD看成是从噪声数据中抽取相关特征。SVD将原始的数据集矩阵Data分解成三个矩阵U、Σ和VT。Datam∗n=Um∗mΣm∗nVTn∗nData_{m*n} = U_{m*m} Σ_{

2020-08-21 11:26:12 365

原创机器学习算法1--基于逻辑回归的分类预测

链接: 基于逻辑回归的分类预测.目录Part1 Demo实践Step1:库函数导入Step2:模型训练Step3:模型参数查看Step4:数据和模型可视化Step5:模型预测Part1 Demo实践Step1:库函数导入## 基础函数库import numpy as np ## 导入画图库import matplotlib.pyplot as pltimport seaborn as sns## 导入逻辑回归模型函数from sklearn.linear_model import

2020-08-20 22:55:33 374

原创 Python学习--函数与Lambda表达式

链接: DataWhale函数与Lambda表达式.目录1.函数函数的定义函数的调用函数的返回值函数文档及注解函数参数1.位置参数2.默认参数3.可变参数4.关键字参数5.命名关键字参数6.参数组合变量作用域内嵌函数闭包递归2.Lambda 表达式匿名函数的定义匿名函数的应用练习题1.函数函数的定义def functionname(parameters): "函数_文档字符串" function_suite return [expression]函数以def关键词开头

2020-08-19 23:12:30 740

原创 Python学习--序列

学习链接: DataWhale序列目录序列1.针对序列的内置函数练习题序列在 Python 中，序列类型包括字符串、列表、元组、集合和字典，这些序列支持一些通用的操作，但比较特殊的是，集合和字典不支持索引、切片、相加和相乘操作。1.针对序列的内置函数list(sub) 把一个可迭代对象转换为列表。tuple(sub) 把一个可迭代对象转换为元组。str(obj) 把obj对象转换为字符串b = 'I Love Python'print(list(b)) #['I', ' ',

2020-08-14 00:05:17 558

原创 Python学习--集合

链接: DataWhale集合.目录1.集合的定义2.集合的创建3.访问集合中的值4.集合的内置方法5.集合的转换6.不可变集合练习题1.集合的定义集合定义语法为{元素1, 元素2, ... , 元素n}Python 中set与dict类似，也是一组key的集合，但不存储value。集合两个特点：无序和唯一。因为集合元素的无序性，所以我们不可以为集合创建索引或执行切片(slice)操作，也没有键(keys)可用来获取集合中元素的值，但是可以判断一个元素是否在集合中。因为集合元素的唯

2020-08-07 18:31:39 217

原创 nlp实践--基于深度学习的文本分类3

链接: 基于深度学习的文本分类3.目录文本表示方法Part4Transformer原理基于预训练语言模型的词表示基于Bert的文本分类Bert PretrainBert Finetune文本表示方法Part4Transformer原理Transformer是在"Attention is All You Need ."中提出的，模型的编码部分是一组编码器的堆叠（论文中依次堆叠六个编码器），模型的解码部分是由相同数量的解码器的堆叠。我们重点关注编码部分。他们结构完全相同，但是并不共享参数，每一个编码

2020-08-04 22:19:51 245

原创 Python学习--函数与Lambda表达式

学习链接: DadaWhale.目录函数函数的定义函数的调用函数文档函数参数位置参数默认参数可变参数关键字参数命名关键字参数参数组合函数的返回值变量作用域内嵌函数闭包递归函数在Python 里面“万物皆对象”。Python 把函数也当成对象，可以从另一个函数中返回出来而去构建高阶函数。参数是函数返回值是函数函数的定义函数以def关键词开头，后接函数名和圆括号()。函数执行的代码以冒号起始，并且缩进。return [表达式] 结束函数，选择性地返回一个值给调用方。不带表达式的retur

2020-08-02 21:52:54 388

原创 nlp实践--基于深度学习的文本分类2

链接: 基于深度学习的文本分类2.在上一章节，我们通过FastText快速实现了基于深度学习的文本分类模型，但是这个模型并不是最优的。在本章我们将继续深入。目录文本表示方法 Part3Skip-grams原理和网络结构Skip-grams训练Hierarchical Softmax使用gensim训练word2vecTextCNNTextRNN基于TextCNN、TextRNN的文本表示TextCNNTextRNN使用HAN用于文本分类本章作业文本表示方法 Part3词向量本节通过word2v

2020-07-31 22:34:03 218

原创 Python学习--字典

链接: lDataWhale.目录可变类型与不可变类型字典的定义创建和访问字典字典的内置方法可变类型与不可变类型序列是以连续的整数为索引，与此不同的是，字典以"关键字"为索引，关键字可以是任意不可变类型，通常用字符串或数值。字典是 Python 唯一的一个映射类型，字符串、元组、列表属于序列类型。那么如何快速判断一个数据类型 X 是不是可变类型的呢？两种方法：麻烦方法：用 id(X) 函数，对 X 进行某种操作，比较操作前后的 id，如果不一样，则 X 不可变，如果一样，则 X 可变。便捷方

2020-07-31 22:10:58 560

原创 Python学习--字符串

学习链接: DataWhale字符串目录字符串的定义字符串的切片和拼接字符串的常用内置方法字符串格式化练习题字符串的定义Python 中字符串被定义为引号之间的字符集合，支持使用成对的单引号或双引号。类似于元组具有不可修改性。t1 = 'i love Python!'print(t1, type(t1))# i love Python! <class 'str'>t2 = "I love Python!"print(t2, type(t2))# I love Pyt

2020-07-29 22:11:50 363

原创 Python学习--元组

链接: DataWhale元组目录元组的定义元组的创建获取元组中的元素更新和删除一个元组元组的常用操作符内置方法解压元组（元组的拆包）练习题元组的定义「元组」定义语法为：(元素1, 元素2, ..., 元素n)小括号把所有元素绑在一起，逗号将每个元素一一分开元组的创建Python 的元组与列表类似，不同之处在于tuple被创建后就不能对其进行修改，类似字符串。创建元组可以用小括号 ()，也可以什么都不用，为了可读性，建议还是用 ()。t1 = (1, 10.31, 'python'

2020-07-29 12:31:07 535

原创 Python学习--列表

学习链接: DataWhale-列表目录

2020-07-28 17:39:37 281

原创 nlp实践--基于深度学习的文本分类1

链接: 基于深度学习的文本分类1与传统机器学习不同，深度学习既提供特征提取功能，也可以完成分类的功能。目录文本表示方法 Part2文本表示方法 Part2在基于机器学习的文本分类中，介绍了4中文本表示方法：one-hot、Bag of Word、N-gram和TF-IDF。但上述方法存在一定的问题：转换得到的向量维度很高，需要较长的训练实践；没有考虑单词与单词之间的关系，只是进行了统计。...

2020-07-27 23:05:46 165

原创 nlp实践--基于机器学习的文本分类

链接: 基于机器学习的文本分类本章侧重使用传统机器学习，从下一章开始是基于深度学习的文本分类。目录机器学习模型文本表示方法one-hotBag of WordN-gramTF-IDF基于机器学习的文本分类练习题机器学习模型机器学习是对能通过经验自动改进的计算机算法的研究。机器学习通过历史数据训练出模型对应于人类对经验进行归纳的过程，机器学习利用模型对新数据进行预测对应于人类利用总结的规律对新问题进行预测的过程。机器学习有很多种分支：每种机器学习算法有一定的偏好，需要具体问题具体分析文

2020-07-25 21:44:26 994

原创 Python学习--异常处理

学习链接: 异常处理异常处理Python标准异常总结Python标准警告总结try-except语句try-except-else语句try-except-finally语句raise语句练习题Python标准异常总结异常描述BaseException所有异常的基类Exception常规异常的基类StandardError所有的内建标准异常的基类ArithmeticError所有数值计算异常的基类FloatingPointError浮点计算异常

2020-07-25 10:31:32 246

原创 Python学习--条件、循环结构

链接: 条件语句循环语句条件、循环结构条件语句if结构assert断言循环语句循环结构range函数enumerate()函数break语句和continue语句pass语句推导式练习题条件语句if结构if语句if expression: expr_true_suiteif - else语句if expression: expr_true_suiteelse: expr_false_suiteif - elif - else 语句elif 语句即为 else i

2020-07-23 23:35:08 303

原创 nlp实践--数据分析

学习链接: 数据读取与数据分析import pandas as pdimport matplotlib.pyplot as plttrain_df = pd.read_csv(r'D:\python\python3.6\pysl\Pre_\nlp_data\train_set.csv', sep='\t', nrows=100)#句子长度分析train_df['text_len'] = train_df['text'].apply(lambda x : len(x.split()))train

2020-07-22 22:39:07 455

原创 Python学习--变量、运算符、数据类型及位运算

一、基础1.1 注释1.2 运算符1.3 变量1.4 数据类型1.1 注释单行注释 #多行注释 ''' '''或者""" """1.2 运算符算术运算符操作符名称+加-减*乘/除（真除法：不管操作数的类型，都返回包含小数的结果）//整除（对于整数执行截断除法，对于浮点数执行浮点除法）%取余**幂比较运算符操作符名称>大于>=大于等于<小于<

2020-07-22 16:36:39 332

原创 pandas学习-时序数据

学习链接: 第9章时序数据.九、时序数据9.1 四类时间变量9.2 时序的创建9.2.1Date times 时间点的创建9.2.2 Dateoffset对象9.2 时序的属性9.3 以时序作索引9.4 重采样9.4.1 resample对象的基本操作9.4.2 采样聚合9.4.3 采样组的迭代9.5 窗口函数问题与练习9.1 四类时间变量名称描述元素类型创建方式① Date times（时间点/时刻）描述特定日期或时间点Timestampto_datetime或dat

2020-06-29 22:27:23 418

原创 pandas学习-分类数据

学习链接: 第8章分类数据.八、分类数据8.1 category的创建及其性质8.2 分类变量的类别8.3 分类变量的排序8.4 分类变量的比较操作问题与练习8.1 category的创建及其性质分类变量的创建（a）用Series创建pd.Series(["a", "b", "c", "a"], dtype="category")（b）对DataFrame指定类型创建temp_df = pd.DataFrame({'A':pd.Series(["a", "b", "c", "a"],

2020-06-27 23:10:15 349

原创 pandas学习-文本数据

学习链接: https://github.com/datawhalechina/joyful-pandas/blob/master/%E7%AC%AC7%E7%AB%A0%20%E6%96%87%E6%9C%AC%E6%95%B0%E6%8D%AE.ipynb.七、文本数据7.1 string类型的性质7.2 拆分与拼接7.3 替换7.4 子串匹配与提取7.5 常用字符串方法问题与联系7.1 string类型的性质string与object的区别① 字符存取方法（如str.count）会返回相应数

2020-06-26 21:02:54 224

原创 pandas学习-缺失数据

学习链接: https://github.com/datawhalechina/joyful-pandas.六、缺失数据6.1缺失值查看6.2缺失值符号6.3填充与删除6.4插值问题与练习6.1缺失值查看isna()、isnull()：如果是缺失值返回True，否则返回Falsenotna()：如果不是缺失值返回True，否则返回Falseinfo()：输出整个表所有列的数据类型常用操作df.isna().sum() #每列有多少缺失值df[df['Physics'].isna(

2020-06-22 21:42:45 322

空空如也

空空如也