自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

LWY_Xing的博客

原创 08.SVM支持向量机介绍

理解SVM：第一层支持向量机，因其英文名为support vector machine，故一般简称SVM，通俗来讲，它是一种二类分类模型，其基本模型定义为特征空间上的间隔最大的线性分类器，其学习策略便是间隔最大化，最终可转化为一个凸二次规划问题的求解。线性分类器：给定一些数据点，它们分别属于两个不同的类，现在要找到一个线性分类器把这些数据分成两类。如果用x表示数据点，用y表示类别（y可以取1或者-1，分别代表两个不同的类），一个线性分类器的学习目标便是要在n维的数据空间中找到一个超平面（hyper pl

2021-01-14 00:39:18 496

原创 07.感知机介绍

什么是感知机概括而言：感知机是二分类的线性分类模型，输入为实例的特征向量，输出为实例的类别（取+1和-1）。感知机对应于输入空间中将实例划分为两类的分离超平面。感知机旨在求出该超平面，为求得超平面导入了基于误分类的损失函数，利用梯度下降法对损失函数进行最优化。感知机的决策函数f(x)=sign(w∗x+b)f(x)=sign(w*x+b)f(x)=sign(w∗x+b)上面该函数称为感知机，其中w，b称为模型的参数，w称为权值，b称为偏置，w*x表示为w，x的内积输出为实例的类别和逻辑回归非常不同

2021-01-14 00:38:25 743

原创 06.逻辑回归介绍

【数学基础-各种熵的概念】联合熵：H(X,Y)=−∑y∈Y∑x∈Xp(x,y)logp(x,y)H(X,Y)=-\displaystyle\sum_{y\in Y}\displaystyle\sum_{x\in X}p(x,y)logp(x,y)H(X,Y)=−y∈Y∑x∈X∑p(x,y)logp(x,y)条件熵：（记住结论，无须推导）条件熵为联合熵减去边缘熵，X发生的条件下，Y发生的这件事带来的信息熵。H(Y∣X)=H(X,Y)−H(X)H(Y|X)=H(X,Y)-H(X)H(Y∣X)=H

2020-12-16 23:09:13 365

原创 05.线性回归介绍

【数学基础】什么是线性回归？线性：两个变量之间的关系是一次函数（图像是直线）；非线性：两个变量之间的关系是非一次函数（图像不是直线）；回归：人们在测量事物的时候因为客观条件的限制，求的都是测量值，而不是事物的真实值，为了能够得到真实值无限次测量，最后通过这些测量数据计算回归到真实值，这就是回归的由来；一般表达式：y=wx+by=wx+by=wx+b均方误差（MSE）：欧氏距离（损失函数）J=12m∑i=1m(y′−y)2J=\frac{1}{2m}\displaystyle\sum_{i=1

2020-12-12 16:43:35 950

原创 04.决策树介绍

【数学基础】信息熵越低，纯度越高。信息熵通俗来说，就是用来度量包含的信息量，如果样本的属性都是一样的，那么它的信息就很单一没有差异化，相反，如果样本属性都不一样，那么它包含的信息就很多。其中信息熵公式如下：Ent(D)=−∑k=1∣y∣pk∗log2pkEnt(D)=-\displaystyle\sum_{k=1}^{|y|}p_k*log_2^{p_k}Ent(D)=−k=1∑∣y∣pk∗log2pkpk表示当前集合D中，第k类样本所占的比例。信息增益公式：Gain(D,a)=Ent(

2020-12-09 19:15:40 166

原创 03.KNN算法介绍

【数学基础】欧氏距离：最常见的两点之间或多点之间的距离表示法，又称之为欧几里得度量，它定义于欧几里得空间中，如点 x = (x1,…,xn) 和 y = (y1,…,yn) 之间的距离为：曼哈顿距离：我们可以定义曼哈顿距离的正式意义为L1-距离或城市区块距离，也就是在欧几里得空间的固定直角坐标系上两点所形成的线段对轴产生的投影的距离总和。例如在平面上，坐标（x1, y1）的点P1与坐标（x2, y2）的点P2的曼哈顿距离为：标准化欧氏距离：标准化欧氏距离是针对简单欧氏距离的缺点而作的一种改进方案

2020-12-03 23:52:22 865

原创 02.朴素贝叶斯-垃圾邮件分类

import matplotlib.pyplot as pltimport pandas as pdimport stringimport codecsimport os#import jiebafrom sklearn.feature_extraction.text import CountVectorizerfrom sklearn import naive_bayes as bayesfrom sklearn.model_selection import train_test_spli

2020-12-01 23:45:11 489 1

原创 01.朴素贝叶斯介绍

【数学基础】1. 概率条件概率：事件A在事件B发生的前提下发生的概率，表示为：P(A|B)，读作A在B发生的条件下发生的概率。联合概率：两个事件共同发生的概率，比如事件A和B的联合概率表示为：P(AB)或者P(A,B)。边缘概率：是对某个事件发生的概率，而与其他事件无关，比如事件A的边缘概率表示为P(A)，同样事件B的边缘概率表示为P(B)。条件概率的链式法则：P(A,B) = P(A) * P(B|A)如果A事件和B事件是互相独立，那么P(B|A)=P(B)，其对应联合概率：P(A

2020-11-30 23:41:57 816

原创中文分词(jieba)

中文分词中文分词(Chinese Word Segmentation) 指的是将一个汉字序列切分成一个一个单独的词。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。jieba 是目前Python中文分词组件之一。特点支持四种分词模式：精确模式，试图将句子最精确地切开，适合文本分析；全模式，把句子中所有的可以成词的词语都扫描出来, 速度非常快，但是不能解决歧义；搜索引擎模式...

2020-02-29 23:25:31 1645 1

线性回归房价预测数据集

该数据集内容为房价预测数据集，用于自然语言处理>05.线性回归介绍中的案例数据，为线性回归算法预测房价案例，该数据集仅供参考

2020-12-12

朴素贝叶斯-垃圾邮件分类数据集

该数据集内容为垃圾邮件分类数据集，用于自然语言处理>02.朴素贝叶斯-垃圾邮件分类中的案例数据，该数据集仅供参考

2020-12-02

KNN算法房价预测数据集

该数据集内容为房价预测数据集，用于自然语言处理>03.KNN算法介绍中的案例数据，为KNN近邻算法预测房价案例，该数据集仅供参考

2020-12-02

KNN手写数字数据集

该数据集内容为手写数字图片，用于自然语言处理>03.KNN算法介绍中的案例数据，为KNN近邻算法手写数字识别训练集和测试集数据，该数据集仅供参考

2020-12-02

朴素贝叶斯西瓜数据集

朴素贝叶斯相关西瓜数据集，用于自然语言处理>01.朴素贝叶斯介绍中的案例数据，该数据集仅作参考使用

2020-12-01

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

LWY_Xing CSDN认证博客专家 CSDN认证企业博客

码龄14年

IP 属地：广东省

IP属地以运营商信息为准，境内显示到省（区、市），境外显示到国家（地区）

9: 原创

22万+: 周排名

112万+: 总排名

6577: 访问

: 等级

124: 积分

0: 粉丝

5: 获赞

2: 评论

17: 收藏

私信

关注

热门文章

分类专栏

自然语言处理 9篇

最新评论

中文分词(jieba)
JayFAN?: 请问，我开启paddle模式时候会报错是什么原因呢
02.朴素贝叶斯-垃圾邮件分类
不正经的kimol君: 忍不住就是一个赞，写得很棒，欢迎回赞哦~

最新文章

提示

确定要删除当前文章？

取消删除