2018年02月_Kevinniec

翻译人工智能：python 实现第十一章，时间序列数据分片

时间序列数据分片现在我们知道如何处理时间序列，让我们看看如何进行时间序列份片。分片的过程值得是将数据分成各种子区间并提取相关的信息。当你处理时间序列数据集时，这是非常有用的。我们使用时间戳来进行数据分片，而不是索引。创建一个python 文件，代码如下import numpy as npimport matplotlib.pyplot as pltimport pandas as pdfr...

2018-02-28 20:58:52 889

翻译人工智能：python 实现第十一章，使用Pandas处理时间序列数据

使用Pandas处理时间序列数据让我们开始学习如何使用Pandas处理时间数据。在本节中，我们会将一队数字转换为时间序列和可视化。Pandas提供了添加时间戳，组织数据等选项，之后可以高效的操作它。创建一个新的python文档，完整代码如下：import numpy as npimport pandas as pdimport matplotlib.pyplot as plt...

2018-02-28 20:28:58 589

原创关于python第三方库安装失败的解决方法

使用.whl手动安装，以管理员身份运行pip install 包所在路径+包名参考：http://blog.csdn.net/u010189457/article/details/54962873

2018-02-28 19:41:38 5216

翻译人工智能：python 实现第十一章，序列数据的概率推理介绍

序列数据的概率推理在这一章节中，我们将学习怎样构建序列学习模型。我们将学习怎样使用Pandas处理时间序列数据.我们将弄明白怎样分割连续的时间数据，并且执行各种操作。我们将讨论如何在滚动的基础上从时间序列数据中提取各种统计数据。我们将学习隐马尔科夫模型，并实现一个系统来构建这些模型。我们将明白怎样使用条件随机场算法(CRF)来分析字母表序列。我们将讨论怎样使用目前学到的技术分析股票市场数据在本章结...

2018-02-28 17:17:14 327

转载 c++stl源码刨析

http://www.cnblogs.com/lfsblack/archive/2012/11/10/2764334.html

2018-02-28 14:51:24 300

翻译第十章总结

总结在这一章中，我们学习了关于各种自然语言处理基本概念。我们讨论了分词以及如何分离输入文档分成多个词。我们学了如何使用stemming和leammatization将单词还原成最基本的形式。我们实现了文本的分块器，用于将文本按照预定义的条件分块。我们讨论了次贷模型，并且为输入的文本构建了一个文档的单词矩阵，我们之后学习了怎样使用机器学习进行文本的分类。我们使用启发式构建了一个性别识别器。我们使...

2018-02-27 21:55:08 252

翻译人工智能：python 实现第十章，NLP 第七天，主题模型

文档主题生成模型topic model指一种统计模型,用来从一批文档的集合中发现抽象的主题/论题。如果文本包含多个主题，这个技术能够用来识别和分离这些主题。我们这样做可以发掘给定的一系列文本的隐藏的主题结构。Topic Modeling 以一个最佳的方式帮助我们组织文档，这种方式能够被用来分析。值得注意的是，Topic modeling 算法不需要任何被标记的数据。这就像无监督学习一样，依靠自己本...

2018-02-27 21:41:04 593

翻译人工智能：python 实现第十章，NLP 第七天，构建语义分析器

构建语义分析器语意分析是确定给定文本片段的语意的过程。例如，它能够被用来确定一个电影评论是积极还是负面的。这是自然语言处理用的最广的一个应用。我们也能够根据手头的问题添加更多的类别。这种技术被广泛的使用去获取人们对一个特定的产品，牌子或主题的感觉。它被频繁使用来分析市场活动，选举投票，社会媒体形象，电子商务网站的产品评价等等。那如何确定影评的语意呢？我们将使用朴素贝叶斯分类器来构建分类器。我们首...

2018-02-27 21:05:04 2350

翻译人工智能：python 实现第十章，NLP 第六天，构建性别识别器

构建性别识别器性别识别是一个有趣的问题。既然如此，我们将使用启发式的方法来构建一个特征向量，并且使用它训练一个分类器。这里使用的启发式是被给定名字的最后N个字母。例如，假设名字以ia结尾，它很可能是一个女性的名字，如Amelia 或者Genelia。另外，如果名字以rk结尾，它更可能是一个男性的名字，如Mark 或者Clark。因此我们不能确定要使用的准确字母数量，我们将使用这个参数，并且找出这...

2018-02-27 19:39:48 564

翻译人工智能：python 实现第十章，NLP 第五天，构建文档文档类别预测器

构建文档类别预测器文档类别预测器是用于预测所给出的文档属于的类别。这频繁的使用在文本分类，进行文档的归类。搜索引擎也频繁的使用这个工具进行相关结果搜索。例如，假设我们想要预测一个给定的句子是否是描述运动、政治或者科学。为了达到目的，我们需要建立一个数据语料库，并且训练一个算法。这个算法之后能够用于推断未知的数据。为了构建预测器，我们将使用称之为TermFrequency-Inverse Docum...

2018-02-27 12:37:33 512

翻译人工智能：python 实现第十章，NLP 第四天 A　Ｂａｇ Of Words

使用用词袋（a bag of words）模型提取频繁项文本分析的主要目标之一是将文本转化为数值形式。以便使用机器进行学习。我们考虑下，数以百万计的单词文档，为了去分析这些文档，我们需要提取文本并且将其转化为数值符号。机器学习算法需要处理数值的数据，以便他们能够分析数据并且提取有用的信息。用词袋模型从文档的所有单词中提取特征单词，并且用这些特征项矩阵建模。这就使得我们能够将每一份文档描述成一个用...

2018-02-26 17:10:48 2317 1

翻译人工智能：python 实现第十章，NLP 第三天文本分块

文本分块文本数据经常需要被分成一小块来进行分析，这个过程称之为分块。这种技术在文本分析中使用频繁。使用文本分块的情况变化很多，各部相同，这依赖于手头的项目。文本分块与分词单词分词不同.分块，不受任何条件的限制，并且输出的结果是由意义的。当我们处理大篇幅的文本文档时，将文本分块就显得很重要，这有利于提取有意义的信息。在这一节中，我们将弄明白怎样将输入的文本分成很多片。创建一个新的python 文档 ...

2018-02-26 14:48:36 1089

翻译人工智能：python 实现第十章，NLP 第二天基于词义的词形还原

基于词义的词形还原lemmatization 是另一种词形还原的方式。在前一节中，我们可以明白从词干中提取词的基本形式没有任何意义。例如，三个三个词干提取器都显示calves的基本形式是calv,但它并不是一个真正的单词。Lemmatization 采取了一种更具结构化的方法解决了这个问题。lemmatizatio原理是使用语法和词态分析器进行单词分析，它包含了去除了如ing和ed等后缀的单词基...

2018-02-24 14:39:27 1329

翻译人工智能：python 实现第十章，NLP 第一天入门介绍及使用stemming还原词汇

tokenization：分词Stemming：基于规则Lemmatization：基于字典两者区别：词形还原（lemmatization），是把一个任何形式的语言词汇还原为一般形式（能表达完整语义），而词干提取（stemming）是抽取词的词干或词根形式（不一定能够表达完整语义）。词形还原和词干提取是词形规范化的两类topic modeling:主题模型Extract：提取category pr...

2018-02-13 17:07:25 5217

聂雄超的博客