人工智能
使用python实现AI相关算法
Kevinniec
聂雄超,2019年毕业于武汉大学,取得硕士学位,目前就职于深圳TCL华星光电技术有限公司,担任大数据研发工程师,主要从事实时数仓方面的研发工作。
展开
-
人工智能:python 实现 第十章,NLP 第二天 基于词义的词形还原
基于词义的词形还原lemmatization 是另一种词形还原的方式。 在前一节中,我们可以明白从词干中提取词的基本形式没有任何意义。例如,三个三个词干提取器都显示calves的基本形式是calv,但它并不是一个真正的单词。Lemmatization 采取了一种更具结构化的方法解决了这个问题。lemmatizatio原理是使用语法和词态分析器进行单词分析,它包含了去除了如ing和ed等后缀的单词基...翻译 2018-02-24 14:39:27 · 1332 阅读 · 0 评论 -
第十一章 总结
在这一章中,我们学会了怎样构建序列学习模型。我们弄清楚了怎样处理时间序列使用Pandas。我们讨论了怎样分割时间序列数据和执行各种操作。我们学游戏了怎样提取时间序列的各种状态。我们学习了HMM并使用它构建了一个系统。 我们讨论了怎样使用CRF来分析字母序列。我们学习了怎样使用各种技术分析股票数据。在下一章中,我们将学习语音识别并构建一个自动识别系统...翻译 2018-03-09 16:52:07 · 213 阅读 · 0 评论 -
人工智能:python 实现 第十一章 股票市场分析
股票市场分析在这一节中,我们将使用HMM分析股票数据。这个例子的数据已经打上了时间戳。我们将使用matplotlib包中的数据。数据集包含各个公司整年的股票数据。HMM是生成模型,他能分析时间序列数据以及提取其底层结构。我们将使用这个模型分析变化的股票价格,并输出结果。创建新的python文档,输入一下代码:import datetimeimport warningsimport numpy ...翻译 2018-03-09 16:46:40 · 2701 阅读 · 0 评论 -
人工智能:python 实现 第十一章,时间序列数据分片
时间序列数据分片现在我们知道如何处理时间序列,让我们看看如何进行时间序列份片。分片的过程值得是将数据分成各种子区间并提取相关的信息。当你处理时间序列数据集时,这是非常有用的。我们使用时间戳来进行数据分片,而不是索引。创建一个python 文件,代码如下import numpy as npimport matplotlib.pyplot as pltimport pandas as pdfr...翻译 2018-02-28 20:58:52 · 891 阅读 · 0 评论 -
人工智能:python 实现 第十一章,使用Pandas处理时间序列数据
使用Pandas处理时间序列数据 让我们开始学习如何使用Pandas处理时间数据。在本节中,我们会将一队数字转换为时间序列和可视化。Pandas提供了添加时间戳,组织数据等选项,之后可以高效的操作它。 创建一个新的python文档,完整代码如下:import numpy as npimport pandas as pdimport matplotlib.pyplot as plt...翻译 2018-02-28 20:28:58 · 592 阅读 · 0 评论 -
关于python第三方库安装失败的解决方法
使用.whl手动安装,以管理员身份运行pip install 包所在路径+包名参考:http://blog.csdn.net/u010189457/article/details/54962873原创 2018-02-28 19:41:38 · 5219 阅读 · 0 评论 -
人工智能:python 实现 第十一章,序列数据的概率推理介绍
序列数据的概率推理在这一章节中,我们将学习怎样构建序列学习模型。我们将学习怎样使用Pandas处理时间序列数据.我们将弄明白怎样分割连续的时间数据,并且执行各种操作。我们将讨论如何在滚动的基础上从时间序列数据中提取各种统计数据。我们将学习隐马尔科夫模型,并实现一个系统来构建这些模型。我们将明白怎样使用条件随机场算法(CRF)来分析字母表序列。我们将讨论怎样使用目前学到的技术分析股票市场数据在本章结...翻译 2018-02-28 17:17:14 · 328 阅读 · 0 评论 -
第十章总结
总结在这一章中,我们学习了关于各种自然语言处理基本概念。我们讨论了分词 以及如何分离输入文档分成多个词。我们学了如何使用stemming和leammatization将单词还原成最基本的形式。我们实现了文本的分块器,用于将文本按照预定义的条件分块。我们讨论了次贷模型 ,并且为输入的文本构建了一个文档的单词矩阵,我们之后学习了怎样使用机器学习进行文本的分类。我们使用启发式构建了一个性别识别器。我们使...翻译 2018-02-27 21:55:08 · 253 阅读 · 0 评论 -
人工智能:python 实现 第十章,NLP 第七天,主题模型
文档主题生成模型topic model指一种统计模型,用来从一批文档的集合中发现抽象的主题/论题。如果文本包含多个主题,这个技术能够用来识别和分离这些主题。我们这样做可以发掘给定的一系列文本的隐藏的主题结构。Topic Modeling 以一个最佳的方式帮助我们组织文档,这种方式能够被用来分析。值得注意的是,Topic modeling 算法不需要任何被标记的数据。这就像无监督学习一样,依靠自己本...翻译 2018-02-27 21:41:04 · 598 阅读 · 0 评论 -
人工智能:python 实现 第十章,NLP 第七天,构建语义分析器
构建语义分析器语意分析是确定给定文本片段的语意的过程。例如,它能够被用来确定一个电影评论是积极还是负面的 。这是自然语言处理用的最广的一个应用。我们也能够根据手头的问题添加更多的类别。这种技术被广泛的使用去获取人们对一个特定的产品,牌子或主题的感觉。它被频繁使用来分析市场活动,选举投票,社会媒体形象,电子商务网站的产品评价等等。那如何确定影评的语意呢?我们将使用朴素贝叶斯分类器来构建分类器。我们首...翻译 2018-02-27 21:05:04 · 2356 阅读 · 0 评论 -
人工智能:python 实现 第十一章 使用CRF识别字母序列
使用CRF识别字母序列 条件随机场算法(CRFs)是一个被频繁用来分析结构化数据的概率模型。我们使用这些模型对序列数据打标签和分段。值得注意的是,CRFS是判别模型。这是与HMMS相反的,HMMS是一个生成模型。 我们可以在标记的测量序列上定义条件概率分布.我们使用这个框架构建CRF模型。在HMMS中,我们必须在观察序列和标签上定义一个联合分布。 CRFS...翻译 2018-03-09 15:27:23 · 1042 阅读 · 0 评论 -
人工智能:python 实现 第十章,NLP 第六天,构建性别识别器
构建性别识别器性别识别是一个有趣的问题。既然如此,我们将使用启发式的方法来构建一个特征向量,并且使用它训练一个分类器。这里使用的启发式是被给定名字的最后N个字母。例如,假设名字以ia结尾,它很可能是一个女性的名字,如Amelia 或者Genelia。另外,如果名字以rk结尾,它更可能是一个男性的名字,如Mark 或者Clark。因此 我们不能确定要使用的准确字母数量,我们将使用这个参数,并且找出这...翻译 2018-02-27 19:39:48 · 569 阅读 · 0 评论 -
人工智能:python 实现 第十章,NLP 第一天 入门介绍及使用stemming还原词汇
tokenization:分词Stemming:基于规则Lemmatization:基于字典两者区别:词形还原(lemmatization),是把一个任何形式的语言词汇还原为一般形式(能表达完整语义),而词干提取(stemming)是抽取词的词干或词根形式(不一定能够表达完整语义)。词形还原和词干提取是词形规范化的两类topic modeling:主题模型Extract:提取category pr...翻译 2018-02-13 17:07:25 · 5223 阅读 · 0 评论 -
人工智能:python 实现 第十章,NLP 第五天,构建文档文档类别预测器
构建文档类别预测器文档类别预测器是用于预测所给出的文档属于的类别。这频繁的使用在文本分类,进行文档的归类。搜索引擎也频繁的使用这个工具进行相关结果搜索。例如,假设我们想要预测一个给定的句子是否是描述运动、政治或者科学。为了达到目的,我们需要建立一个数据语料库,并且训练一个算法。这个算法之后能够用于推断未知的数据。为了构建预测器,我们将使用称之为TermFrequency-Inverse Docum...翻译 2018-02-27 12:37:33 · 516 阅读 · 0 评论 -
人工智能:python 实现 第十章,NLP 第四天 A Bag Of Words
使用用词袋(a bag of words)模型提取频繁项文本分析的主要目标之一是将文本转化为数值形式。以便使用机器进行学习。我们考虑下,数以百万计的单词文档,为了去分析这些文档,我们需要提取文本 并且将其转化为数值符号。机器学习算法需要处理数值的数据,以便他们能够分析数据并且提取有用的信息。用词袋模型从文档的所有单词中提取特征单词,并且用这些特征项矩阵建模。这就使得我们能够将每一份文档描述成一个用...翻译 2018-02-26 17:10:48 · 2320 阅读 · 1 评论 -
人工智能:python 实现 第十章,NLP 第三天 文本分块
文本分块文本数据经常需要被分成一小块来进行分析,这个过程称之为分块。这种技术在文本分析中使用频繁。使用文本分块的情况变化很多,各部相同,这依赖于手头的项目。文本分块与分词单词分词不同.分块,不受任何条件的限制,并且输出的结果是由意义的。当我们处理大篇幅的文本文档时,将文本分块就显得很重要,这有利于提取有意义的信息。在这一节中,我们将弄明白怎样将输入的文本分成很多片。创建一个新的python 文档 ...翻译 2018-02-26 14:48:36 · 1099 阅读 · 0 评论 -
人工智能:python 实现 第十一章,操作时间序列
时间序列的操作 pandas库允许我们高效的操作时间序列,可执行各种操作,例如过滤和添加。你能设置一些条件,pandas将过滤数据集并返回正确的数据子集。你也能将两个时间序列变量相加。这允许我们快速的构建各种应用,而无需重复各种没有意义的操作。 构建一个新的Python文档,完整代码如下:import numpy as npimport pandas as pdimport...翻译 2018-03-05 11:26:49 · 447 阅读 · 0 评论