2017年12月_数据科学家corten

原创 python与自然语言处理之rnn在 nlps上的应用

1.引言在离人工智能越来越近的今天，研究界和工业界对神经网络和深度学习的兴趣也越来越浓，期待也越来越高。我们在深度学习与计算机视觉专栏中看过计算机通过卷积神经网络学会了识别图片的内容——模仿人类的看，而工业界大量的应用也证明了神经网络能让计算机学会听（比如百度的语音识别），于是大量的精力开始投向NLP领域，让计算机学会写也一定是非常有意思的事情，试想一下，如果计算机通过读韩寒和小四的

2017-12-25 12:26:13 1368

原创 python自然语言处理之lda

自然语言处理之LDALDA由PLSA发展而来，PLSA由LSA发展而来，同样用于隐含语义分析，这里先给出两篇实现LSA和PLSA的文章链接。自然语言处理之LSA自然语言处理之PLSA我们知道，PLSA也定义了一个概率图模型，假设了数据的生成过程，但是不是一个完全的生成过程：没有给出先验。因此PLSA给出的是一个最大似然估计(ML)或者最大后验估计(MAP)。LD

2017-12-21 16:15:13 2637

原创 python 与自然语言处理之语言模型n-gram

1. 引言：朴素贝叶斯的局限性我们在之前文章《NLP系列(2)_用朴素贝叶斯进行文本分类(上)》探讨过，朴素贝叶斯的局限性来源于其条件独立假设，它将文本看成是词袋子模型，不考虑词语之间的顺序信息，就会把“武松打死了老虎”与“老虎打死了武松”认作是一个意思。那么有没有一种方法提高其对词语顺序的识别能力呢？有，就是本节要接到的N-gram语言模型。2. N-gram语言模型是啥？

2017-12-21 12:07:18 12224 1

原创 python与自然语言处理之朴素贝叶斯下

1. 引言上一篇文章我们主要从理论上梳理了朴素贝叶斯方法进行文本分类的基本思路。这篇文章我们主要从实践上探讨一些应用过程中的tricks，并进一步分析贝叶斯方法，最后以情绪褒贬分析和拼写纠错为例展示这种简单强大的方法在自然语言处理问题上的具体应用。2. 为什么不直接匹配关键词来识别垃圾邮件？看了上一篇文章的一些同学可能会问：“何必费这么大劲算那么多词的概率？直接看邮件中有没

2017-12-21 12:06:06 1627

原创 python与自然语言处理之贝叶斯实战

1.引言前两篇博文介绍了朴素贝叶斯这个名字读着”萌蠢”但实际上简单直接高效的方法，我们也介绍了一下贝叶斯方法的一些细节。按照老规矩，『锄头』给你了，得负责教教怎么用和注意事项，也顺便带大家去除除草对吧。恩，此节作为更贴近实际应用的部分，将介绍贝叶斯方法的优缺点、常见适用场景和可优化点，然后找点实际场景撸点例子练练手，看看工具怎么用。PS：本文所有的python代码和ipython

2017-12-21 12:04:08 1689

原创 python与自然语言处理之朴素贝叶斯上

1. 引言贝叶斯方法是一个历史悠久，有着坚实的理论基础的方法，同时处理很多问题时直接而又高效，很多高级自然语言处理模型也可以从它演化而来。因此，学习贝叶斯方法，是研究自然语言处理问题的一个非常好的切入口。2. 贝叶斯公式贝叶斯公式就一行：P(Y|X)=P(X|Y)P(Y)P(X)而它其实是由以下的联合概率公式推导出来：P(

2017-12-21 12:01:31 1695

原创 python与自然语言处理 2结巴分词

特点1，支持三种分词模式： a,精确模式，试图将句子最精确地切开，适合文本分析； b,全模式，把句子中所有的可以成词的词语都扫描出来, 速度非常快，但是不能解决歧义； c,搜索引擎模式，在精确模式的基础上，对长词再次切分，提高召回率，适合用于搜索引擎分词。2，支持繁体分词3，支持自定义词典安装1，Python 2.x 下

2017-12-18 17:39:21 447

原创 python与自然语言处理1 正则匹配

find()方法语法：str.find(str, beg=0, end=len(string))参数str -- 指定检索的字符串beg -- 开始索引，默认为0。end -- 结束索引，默认为字符串的长度。返回值如果包含子字符串返回开始的索引值，否则返回-1。实例以下实例展示了find()方法的实例：实例(Python

2017-12-18 17:38:02 367

原创 sk-learn 学习官方笔记1

加载示例数据集scikit-learn提供了一些标准数据集，例如用于分类的虹膜和数字数据集和波士顿房价回归数据集。在下文中，我们从shell中启动一个Python解释器，然后加载iris和digits数据集。我们的符号约定是 $表示shell提示符，而>>>表示Python解释器提示符：$ python>>> from s

2017-12-18 14:30:37 341

原创爬虫之pyquery 解析html

PyQuery库也是一个非常强大又灵活的网页解析库，如果你有前端开发经验的，都应该接触过jQuery,那么PyQuery就是你非常绝佳的选择，PyQuery 是 Python 仿照 jQuery 的严格实现。语法与 jQuery 几乎完全相同，所以不用再去费心去记一些奇怪的方法了。官网地址：http://pyquery.readthedocs.io/en/latest/jQuery参考

2017-12-14 11:35:05 2020

原创深度学习

shen神经网络结构两个隐藏层的神经网络MultiLayer Perceptions (MLP): 实际是sigmoid neurons, 不是perceptrons 假设识别一个手写图片:如果图片是64*64, 输入层总共有64*64 = 4096个神经元如果图片是28*28, 输入层总共有28*28 = 784个神经元

2017-12-13 16:30:06 655

原创机器学习之softmax函数

Softmax分类函数这篇教程是翻译Peter Roelants写的神经网络教程，作者已经授权翻译，这是原文。该教程将介绍如何入门神经网络，一共包含五部分。你可以在以下链接找到完整内容。（一）神经网络入门之线性回归Logistic分类函数（二）神经网络入门之Logistic回归（分类问题）（三）神经网络入门之隐藏层设计Softmax分类函数（四

2017-12-07 16:35:45 1871

原创神经网络之cost函数损失函数，

【机器学习】代价函数（cost function）注：代价函数（有的地方也叫损失函数，Loss Function）在机器学习中的每一种算法中都很重要，因为训练模型的过程就是优化代价函数的过程，代价函数对每个参数的偏导数就是梯度下降中提到的梯度，防止过拟合时添加的正则化项也是加在代价函数后面的。在学习相关算法的过程中，对代价函数的理解也在不断的加深，在此做一个小结。 1.

2017-12-07 15:54:10 7313

原创机器学习之降维

python大战机器学习——数据降维注：因为公式敲起来太麻烦，因此本文中的公式没有呈现出来，想要知道具体的计算公式，请参考原书中内容　　　　　降维就是指采用某种映射方法，将原高维空间中的数据点映射到低维度的空间中1、主成分分析（PCA）　　将n维样本X通过投影矩阵W，转换为K维矩阵Z　　输入：样本集D，低维空间d　　输出：投影矩阵W　　算法步骤：

2017-12-05 16:36:35 483

原创机器学习之神经网络

1. 背景: 1.1 以人脑中的神经网络为启发，历史上出现过很多不同版本 1.2 最著名的算法是1980年的 backpropagation 2. 多层向前神经网络(Multilayer Feed-Forward Neural Network) 2.1 Backpropagation被使用在多层向前神经网络上 2.2 多层向前神经网络由以

2017-12-05 15:03:20 211

原创机器学习之聚类

聚类1、聚类试图将数据集中的数据划分为若干个通常是不相交的子集，每个子集称为一个“簇”(cluster)2、聚类过程仅能自动形成簇结构，簇所对应的概念语义需由使用者来把握和命名思考：簇所对应的概念固然是可以任意命名的，但我们一般的规律仍然是通过样本的属性来命名的，这就意味着，有可能根据样本特征给不同的簇命名3、聚类既能作为一个单独的过程，用于找寻数据内在的分布结

2017-12-01 16:54:29 1777

qq_37634812的博客