午匀需-CSDN博客

原创 Python自然语言处理—使用CNN进行Text Classification

文章是https://github.com/yandexdataschool/nlp_course week2的学习笔记，本周主要介绍了使用CNN进行文本分类（我上次接触CNN还是吴恩达老师的课程介绍的CNN用作图像处理）。本次文章将介绍CNN的基本原理，并使用Keras搭建一个CNN模型处理Kaggle的一个工资预测，第一次自己搭碰到很多坑，我会在第七步搭建过程中介绍一下这些坑。一文本分类...

2018-12-24 13:16:07 4150 1

原创 Python自然语言处理—词嵌入 word2vec

Python自然语言处理这本书后几章感觉更偏向一些文法知识，我简单读了一下放弃了。现在开始学https://github.com/yandexdataschool/nlp_course，本章将介绍第一周的内容——词嵌入。一 Word Embedding词如何转为向量呢？最简单的方法就是维护一个长的词典，使用one-hot来表示一个词,吃饭 [0,0,0,0,1,...,0,0,0]。基...

2018-12-13 10:40:36 2807 2

原创 Python自然语言处理—朴素贝叶斯

一贝叶斯公式公式很好理解，当我们相求已知状态X下打上ý标签的概率的时候，可以将问题分以下三个问题1，求标签ÿ下X状态的概率2，求标签ÿ的概率3，求X状态的概率以上三个问题可以简单的统计已知样本就可以获取得到，这个工作是可以大规模并行处理的。我们再数学一点的解释一下，当我们想求的后验概率的时候-P（Y | X），可以先获取它的先验概率P（Y），再通过已有样本计算出调整因子...

2018-11-28 14:40:00 1005

原创 Python自然语言处理—文本分类基础介绍

本篇文章将简单介绍分类的流程，并详细解读书上的程序，尤其是6.1节最后一个程序。一分类的定义首先要说明自动分类任务是通过有监督的机器学习解决的，盗用原文的图。分类任务首先要通过有标签的数据进行学习，学习出一套打标签的逻辑，再把这套逻辑用在无标签的数据上！文本分类的应用很多，例如新闻的主题判定，情感分析和垃圾邮件的判定等等二文本分类的实现1特征选择模型会学习你输入...

2018-11-25 10:05:03 1010

原创 Python自然语言处理—算法基础

本章主要介绍文本分析的算法设计过程中会用到的一些技巧，我只把书中对我来说有意思的例子拿出来了。一递归递归就是循环的一种，为了实现某种目的反复调用自身。下面这个例子的有意思的地方不仅限于迭代，还用了yield，可以参考廖雪峰老师关于Yield的解释https://www.ibm.com/developerworks/cn/opensource/os-cn-python-yield/。为了...

2018-11-17 11:00:34 561

原创 Python自然语言处理—分割

分割其实包含了分词、断句等等，分词对于中文文本是十分重要的。本章我也只关注分词，当然本章最后介绍的分词方法过去简单，仅供参考。1. 分割, 按照01组成的序列对字符串进行拆分def segment(text, segs): # 利用01数据将 str切分开 words = [] last = 0 for i in range(len(segs)...

2018-11-13 09:52:53 1331

原创 Python自然语言处理—提取词干

一提取词干在英文中同一个词的形式是有多种的，名词的单数复数、动词的现在和过去式等等，所以在处理英文时要考虑词干的抽取问题。这里直接调用Nltk自带的两个词干抽取器import reimport nltkraw = """DENNIS: Listen, strange women lying in ponds distributing swords is no basis for...

2018-11-13 09:34:13 3959

原创 Python自然语言处理—正则表达式检测词组re.search()

1. 开头和结尾 ^ $import reimport nltkwordlist = [w for w in nltk.corpus.words.words("en") if w.islower()]print([w for w in wordlist if re.search("^ed",w)]) # 已ed开头print([w for w in wordlist if re.s...

2018-11-08 16:44:34 2038

原创 Python自然语言处理—停用词词典

一过滤文本去除停用词典和错词检错都可以用词典的形式完成，以停用词为例，我使用的应该是知网提供的中文停用词典。测试的数据集是小学生数学题。print(text) # 打印未去除停用词前版本with open(r"C:\Users\BF\Desktop\NLTK\stopwords.txt","r",encoding='utf-8') as stopfile: # 读取停用词，用u...

2018-11-06 16:00:01 8560 2

原创 Python自然语言处理—条件词频分布

一条件词频统计由于要按条件统计词频，自己准备数据较为麻烦，本次数据集调用NLTK自带的数据集，from nltk.corpus import browncdf = nltk.ConditionalFreqDist((genre,word) for genre in brown.categories() for word in ...

2018-11-05 22:05:26 547

原创 Python自然语言处理—统计词频

一数据的预处理本文所有的例子我都将使用中文文本进行，所以在分析前需要对中文的文本进行一个预处理的过程（暂时只用的分词，去除停用词的部分后面介绍）# -*- coding:utf-8 -*-from nltk import FreqDistimport jiebaimport pymssql# 我的数据来源于数据库，用的是爬虫的小学数学题conndb = pymssql.co...

2018-10-31 15:00:42 4458

原创聚类算法（1）

一聚类算法简介1.聚类和分类的区别聚类 - 利用算法将相似或者相近的样本聚成一簇，这些样本都是无标签的，是一种无监督学习算法。分类 - 首先需要从有标签样本学习出打标签逻辑，再利用学习出的逻辑对无标签样本进行分类，是一种有监督学习算法。2.聚类的使用聚类算法可以帮助我们认识数据，比如一批新闻文本，通过几次聚类的尝试，你可能就会知道这一批新闻文本主要分类几个类别。聚类算...

2018-10-09 09:54:25 899

原创最大熵模型

一信息熵1.自信息i = -log(p(x))某件事发生的概率越大，富含信息越少。例如明天太阳从东边出来这句话的有用的信息其实是很少的，但是明天要下雨这句话富含的信息就比前一句话多了。p(下雨)<p(太阳从东边出来)2.熵自信息的期望3.条件熵其实还有互信息，平均互信息，交叉熵等等的概念，这里就不介绍了，以后会专门写一篇关于信息熵的。二最大熵值模型...

2018-09-18 16:44:52 163

原创 python自然语言处理-—安装NLTK

安装Anaconda后，进入Prompt界面依次输入easy_install pippip install pyyaml nltk结果如下下载nltk中的数据集import nltknltk.download()选择book文本集合下载相关数据集合即可也可以通过百度网盘自行下载数据集！链接：https://pan.baidu.com/s/1Re...

2018-09-16 20:38:22 157

原创主成分分析PCA & 奇异值分解SVD

一特征值和特征向量想了解PCA和SVD，首先要了解的一个概念就是特征值和特征向量。 A是矩阵，x是向量、是数。如果满足公式，则说是矩阵A的一个特征值，非零向量x为矩阵A的属于特征值的特征向量。矩阵A的特征值和特征向量可以写成以下格式，请注意。为什么能把x叫做A矩阵的特征向量呢，其实矩阵乘向量可以理解成对向量进行旋转和拉长。当然并不是所有向量都可以被旋转，矩阵无法旋转的非...

2018-09-12 17:05:34 640

m0_38126215的博客