自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(11)
  • 收藏
  • 关注

原创 自然语言处理 第六期

nlp第六期 SVM的原理 支持向量机(SVM)是一种二分类模型,目标是建立一个超平面作为分界线,使得正例子和反例的隔离边界最大化。若样本之间不能通过线性划分,通常将样本通过核函数映射到高维空间,在高维空间将非线性问题转化为线性可分的问题。 使用SVM作为模型时候,通常采用的流程如下: 1)对样本数据进行归一化; 2)应用核函数对样本进行映射(最常用的核函数为RBF和Linear,在样本线性可...

2019-04-17 21:51:52 328

原创 自然语言处理 第五期

朴素贝叶斯 朴素贝叶斯的原理 贝叶斯公式如下: P(Yk∣X)=P(X∣Yk)P(Yk)∑jP(Yj)P(X∣Yj)P(Y_k|X) = \frac{P(X|Y_k)P(Y_k)}{\sum_jP(Y_j)P(X|Y_j)}P(Yk​∣X)=∑j​P(Yj​)P(X∣Yj​)P(X∣Yk​)P(Yk​)​ 朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法。 y=f(x)=argmaxc...

2019-04-15 20:14:55 122

原创 自然语言处理第四期

TF-IDF原理 TF-IDF(词频-逆文本频率),是一种统计方法,用于评估一个词对于一个文本的重要程度,词的重要性随着它在文件中出现的次数成正比,但同时会因为它在多个文本中出现的频率成反比。总的来说,一个词语在一篇文章中出现的次数越多,同时在所有文档中出现的次数越少,就越能代表该文章。 TF-IDF主要是有词频TF和IDF逆文本频率IDF组成,公式为: TF−IDF=TF∗IDFTF-IDF ...

2019-04-14 00:12:15 144

原创 自然语言处理第三期

基本文本处理技能 1.1 分词的概念(分词的正向最大、逆向最大、双向最大匹配法); 正向最大匹配法:定义一个最大长度,从前向后选取最大长度的字符串,然后与词典的词进行匹配,如果匹配到了就停止,如果没匹配到就去除最后面的一个数,继续匹配,直至匹配到词典的词或剩一个字为止,就为分词;对句子剩下的字符串坐相同处理,最后得到分词。 例如:句子 = “我今天在学习”,最大长度N=5 第一轮: 第一次:”我...

2019-04-11 21:27:20 201

原创 自然语言处理 第二期

召回率、准确率、ROC曲线、AUC、PR曲线 机器学习中对于分类的评估指标有准确率、召回率、F值、ROC曲线、AUC和PR曲线等。 4.1 介绍指标之前,先引入混淆矩阵 True Postive: 将正样本预测为正类的个数 True Negative: 将负样本预测为负类的个数 False Postive: 将负样本预测为正类的个数 False Negative: 将正样本预测为负类的个数 ...

2019-04-09 23:07:39 160

原创 PYTHON:饼图和折线图

一、饼图 import matplotlib.pyplot as plt labels = '1', '2', '3', '4' sizes = 15,20, 45, 10 # 标签对应的份额数 colors = 'yellowgreen', 'gold', 'lightskyblue', 'lightcoral' explode = 0, 0.1, 0, 0 plt.pie(sizes, e...

2019-03-15 21:09:20 944

转载 python5

file 1.1 打开文件方式(读写两种方式) 1.1.1 File = open(‘file.txt’, ‘r’, encoding = ‘utf-8’), 1.1.2 Import codecs with codecs.open(‘file.txt’, ‘r’, ‘utf-8’) as f: print(f.readO) 这是python打开文件的两种方式,其中第二个参数为对文件的操作方式...

2019-03-07 20:03:00 154

转载 python基础4

函数关键字 关键字是python内置的,具有特殊意义的标识符,自定义标识符命名时不能与之重复。 关键字包括[‘False’, ‘None’, ‘True’, ‘and’, ‘as’, ‘assert’, ‘break’, ‘class’, ‘continue’, ‘def’, ‘del’, ‘elif’, ‘else’, ‘except’, ‘finally’, ‘for’, ‘from’, ...

2019-03-04 20:29:20 76

转载 python基础3

dict字典 a. 定义 字典是一种可变容器模型,用于存储任意类型对象。字典中的每个键key和值value是一一对应。 b. 创建 dict = {key1: value1, key2: value2} c. 字典的方法 访问: 访问字典中的单个值: print(dict[‘key1’]); 访问字典中的所有keys: print(dict.keys( )); 访问字典中的所有value: p...

2019-03-03 16:16:59 88

转载 python基础2

基础 1.列表 a. 标志 列表的标志是[ ],方括号里面为列表的元素。 b. 基本操作(创建,append( ),pop( ),del( ),拷贝) 创建列表用方括号表示,方括号里面的元素用逗号隔开,元素可以为数值,字符串; append( )是在列表末尾添加新的元素; pop( )是移除列表中的一个元素,并返回该元素的值; remove( )是接受列表中的数,在原列表中从左到右删除第一次出现的...

2019-03-01 00:14:41 80

转载 Python基础知识

环境搭建 a)anaconda环境配置 Anaconda是一个包含数据科学常用包等python发行版本。它基于conda衍生而来。使用conda创建环境可以分离不同python版本和其它程序吧,以便项目环境的搭建,防止项目因为环境冲突而引发问题。 电脑环境: b)解释器 我用的解释器是python3 python初体验 a)print and input print可以显示输出,包括字符串...

2019-02-27 19:18:23 100

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除