2018年01月_千寻～

12月 11月 10月 09月 08月 07月 06月 05月 04月 03月 02月 01月

转载 nlp---使用NLTK进行建构词性标注器

自然语言是人类在沟通中形成的一套规则体系。规则有强有弱，比如非正式场合使用口语，正式场合下的书面语。要处理自然语言，也要遵循这些形成的规则，否则就会得出令人无法理解的结论。下面介绍一些术语的简单区别。文法：等同于语法(grammar)，文章的书写规范，用来描述语言及其结构，它包含句法和词法规范。句法：Syntax，句子的结构或成分的构成与关系的规范。词法：Lexical，词的构词，变化等的规...

2018-01-31 15:03:43 2091

转载 nlp--使用NLTK进行简单文本分析

原文：http://blog.csdn.net/zzulp/article/details/76146947nltk的全称是natural language toolkit，是一套基于python的自然语言处理工具集。1 NLTK的安装nltk的安装十分便捷，只需要pip就可以。pip install nltk在nltk中集成了语料与模型等的包管理器，通过在python解释器中执行（在jupyte...

2018-01-31 15:00:45 3298

转载 sklearn机器学习算法速查

常见的机器学习算法以下是最常用的机器学习算法，大部分数据问题都可以通过它们解决：线性回归 (Linear Regression)逻辑回归 (Logistic Regression)决策树 (Decision Tree)支持向量机（SVM）朴素贝叶斯 (Naive Bayes)K邻近算法（KNN）K-均值算法（K-means）随机森林 (Random Forest)降低维度算法（Dimensiona...

2018-01-30 16:36:14 441

原创 sklearn分类算法（逻辑回归、朴素贝叶斯、K近邻、支持向量机、决策树、随机森林）的使用

scikit-learn机器学习的分类算法包括逻辑回归、朴素贝叶斯、KNN、支持向量机、决策树和随机森林等。这些模块的调用形式基本一致，训练用fit方法，预测用predict方法。用joblib.dump方法可以保存训练的模型，用joblib.load方法可以载入模型。测试程序。测试数据采用小麦种子数据集（seeds）。（注意，该数据集有个别数据用多个\t分割，执行前要把多余的\t删除，

2018-01-29 16:00:49 11676 1

原创 sklearn包中K近邻分类器 KNeighborsClassifier的使用

1. KNN算法K近邻(k-Nearest Neighbor，KNN)分类算法的核心思想是如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别，则该样本也属于这个类别。KNN算法可用于多分类，KNN算法不仅可以用于分类，还可以用于回归。通过找出一个样本的k个最近邻居，将这些邻居的属性的平均值赋给该样本，作为预测值。KNeighborsClassi

2018-01-29 15:00:51 28759

转载 sklearn的快速使用

　传统的机器学习任务从开始到建模的一般流程是：获取数据 -> 数据预处理 -> 训练建模 -> 模型评估 -> 预测，分类。本文我们将依据传统机器学习的流程，看看在每一步流程中都有哪些常用的函数以及它们的用法是怎么样的。希望你看完这篇文章可以最为快速的开始你的学习任务。1. 获取数据1.1 导入sklearn数据集　　sklearn中包含了大量的优质的数据集，在你学习机器学...

2018-01-29 11:04:26 381

转载数据挖掘之关联分析

数据挖掘之关联分析一（基本概念）数据挖掘之关联分析二（频繁项集的产生）数据挖掘之关联分析三（规则的产生）数据挖掘之关联分析四（连续属性处理）数据挖掘之关联分析五（序列模式）数据挖掘之关联分析六（子图模式）数据挖掘之关联分析七（非频繁模式）

2018-01-24 15:00:24 2848

转载奇异值分解(SVD)、主成分分析(PCA)、潜在语义索引(LSI)

一、奇异值与特征值基础知识：特征值分解和奇异值分解在机器学习领域都是属于常用的方法。两者有着很紧密的关系，我在接下来会谈到，特征值分解和奇异值分解的目的都是一样，就是提取出一个矩阵最重要的特征。先谈谈特征值分解吧： 1）特征值：见这篇文章： http://www.cnblogs.com/pinard/p/6251584.html 2）奇异值：下面谈谈...

2018-01-23 21:40:09 1134

转载主成分分析（PCA）原理详解

一、PCA简介1. 相关背景主成分分析（Principal Component Analysis，PCA）是一种统计方法。通过正交变换将一组可能存在相关性的变量转换为一组线性不相关的变量，转换后的这组变量叫主成分。在许多领域的研究与应用中，往往需要对反映事物的多个变量进行大量的观测，收集大量数据以便进行分析寻找规律。多变量大样本无疑会为研究和应用提供了丰

2018-01-23 20:51:21 3167

转载隐马尔可夫模型

本文是《统计学习方法》第10章的笔记，用一段167行的Python代码实现了隐马模型观测序列的生成、前向后向算法、Baum-Welch无监督训练、维特比算法。公式与代码相互对照，循序渐进。HMM算是个特别常见的模型，早在我没有挖ML这个坑的时候，就已经在用HMM做基于字符序列标注的分词和词性标注了，甚至照葫芦画瓢实现了一个2阶的HMM分词器。但我的理解仅仅停留在“前向算法”“Viterbi

2018-01-23 15:13:51 6716 1

转载 nlp--Latent Semantic Analysis(LSA/ LSI)算法简介

1. 传统向量空间模型的缺陷向量空间模型是信息检索中最常用的检索方法，其检索过程是，将文档集D中的所有文档和查询都表示成以单词为特征的向量，特征值为每个单词的TF-IDF值，然后使用向量空间模型(亦即计算查询q的向量和每个文档di的向量之间的相似度)来衡量文档和查询之间的相似度，从而得到和给定查询最相关的文档。向量空间模型简单的基于单词的出现与否以及TF-IDF等信息来进行检索，但是...

2018-01-12 15:11:04 1819

原创微信跳一跳游戏外挂（mac电脑+android手机）

外挂源码地址：https://github.com/wangshub/wechat_jump_game1.先下载github的脚本代码进入下载后的文件夹，安装依赖文件 pip install -r requirements.txt2.安装brew（如果有可忽略，直接执行第二步）安装方法如下：打开mac的终端工具（安装时间有点长） rub...

2018-01-04 14:28:46 5686 2

转载数据归一化和两种常用的归一化方法

数据标准化（归一化）处理是数据挖掘的一项基础工作，不同评价指标往往具有不同的量纲和量纲单位，这样的情况会影响到数据分析的结果，为了消除指标之间的量纲影响，需要进行数据标准化处理，以解决数据指标之间的可比性。原始数据经过数据标准化处理后，各指标处于同一数量级，适合进行综合对比评价。以下是两种常用的归一化方法：一、min-max标准化（Min-Max Normalization）也称为离差标...

2018-01-03 16:28:54 6608