自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

飘过的春风

小白的进阶

  • 博客(13)
  • 资源 (19)
  • 收藏
  • 关注

转载 nlp---使用NLTK进行建构词性标注器

自然语言是人类在沟通中形成的一套规则体系。规则有强有弱,比如非正式场合使用口语,正式场合下的书面语。要处理自然语言,也要遵循这些形成的规则,否则就会得出令人无法理解的结论。下面介绍一些术语的简单区别。文法:等同于语法(grammar),文章的书写规范,用来描述语言及其结构,它包含句法和词法规范。句法:Syntax,句子的结构或成分的构成与关系的规范。词法:Lexical,词的构词,变化等的规...

2018-01-31 15:03:43 2090

转载 nlp--使用NLTK进行简单文本分析

原文:http://blog.csdn.net/zzulp/article/details/76146947nltk的全称是natural language toolkit,是一套基于python的自然语言处理工具集。1 NLTK的安装nltk的安装十分便捷,只需要pip就可以。pip install nltk在nltk中集成了语料与模型等的包管理器,通过在python解释器中执行(在jupyte...

2018-01-31 15:00:45 3297

转载 sklearn机器学习算法速查

常见的机器学习算法以下是最常用的机器学习算法,大部分数据问题都可以通过它们解决:线性回归 (Linear Regression)逻辑回归 (Logistic Regression)决策树 (Decision Tree)支持向量机(SVM)朴素贝叶斯 (Naive Bayes)K邻近算法(KNN)K-均值算法(K-means)随机森林 (Random Forest)降低维度算法(Dimensiona...

2018-01-30 16:36:14 441

原创 sklearn分类算法(逻辑回归、朴素贝叶斯、K近邻、支持向量机 、决策树、随机森林 )的使用

scikit-learn机器学习的分类算法包括逻辑回归、朴素贝叶斯、KNN、支持向量机、决策树和随机森林等。这些模块的调用形式基本一致,训练用fit方法,预测用predict方法。用joblib.dump方法可以保存训练的模型,用joblib.load方法可以载入模型。测试程序。测试数据采用小麦种子数据集 (seeds)。(注意,该数据集有个别数据用多个\t分割,执行前要把多余的\t删除,

2018-01-29 16:00:49 11675 1

原创 sklearn包中K近邻分类器 KNeighborsClassifier的使用

1. KNN算法K近邻(k-Nearest Neighbor,KNN)分类算法的核心思想是如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。KNN算法可用于多分类,KNN算法不仅可以用于分类,还可以用于回归。通过找出一个样本的k个最近邻居,将这些邻居的属性的平均值赋给该样本,作为预测值。KNeighborsClassi

2018-01-29 15:00:51 28758

转载 sklearn的快速使用

 传统的机器学习任务从开始到建模的一般流程是:获取数据 -> 数据预处理 -> 训练建模 -> 模型评估 -> 预测,分类。本文我们将依据传统机器学习的流程,看看在每一步流程中都有哪些常用的函数以及它们的用法是怎么样的。希望你看完这篇文章可以最为快速的开始你的学习任务。1. 获取数据1.1 导入sklearn数据集  sklearn中包含了大量的优质的数据集,在你学习机器学...

2018-01-29 11:04:26 381

转载 数据挖掘之关联分析

数据挖掘之关联分析一(基本概念)数据挖掘之关联分析二(频繁项集的产生)数据挖掘之关联分析三(规则的产生)数据挖掘之关联分析四(连续属性处理)数据挖掘之关联分析五(序列模式)数据挖掘之关联分析六(子图模式)数据挖掘之关联分析七(非频繁模式)

2018-01-24 15:00:24 2847

转载 奇异值分解(SVD)、主成分分析(PCA)、潜在语义索引(LSI)

一、奇异值与特征值基础知识:      特征值分解和奇异值分解在机器学习领域都是属于常用的方法。两者有着很紧密的关系,我在接下来会谈到,特征值分解和奇异值分解的目的都是一样,就是提取出一个矩阵最重要的特征。先谈谈特征值分解吧:   1)特征值:       见这篇文章: http://www.cnblogs.com/pinard/p/6251584.html   2)奇异值:       下面谈谈...

2018-01-23 21:40:09 1134

转载 主成分分析(PCA)原理详解

一、PCA简介1. 相关背景主成分分析(Principal Component Analysis,PCA)是一种统计方法。通过正交变换将一组可能存在相关性的变量转换为一组线性不相关的变量,转换后的这组变量叫主成分。        在许多领域的研究与应用中,往往需要对反映事物的多个变量进行大量的观测,收集大量数据以便进行分析寻找规律。多变量大样本无疑会为研究和应用提供了丰

2018-01-23 20:51:21 3166

转载 隐马尔可夫模型

本文是《统计学习方法》第10章的笔记,用一段167行的Python代码实现了隐马模型观测序列的生成、前向后向算法、Baum-Welch无监督训练、维特比算法。公式与代码相互对照,循序渐进。HMM算是个特别常见的模型,早在我没有挖ML这个坑的时候,就已经在用HMM做基于字符序列标注的分词和词性标注了,甚至照葫芦画瓢实现了一个2阶的HMM分词器。但我的理解仅仅停留在“前向算法”“Viterbi

2018-01-23 15:13:51 6715 1

转载 nlp--Latent Semantic Analysis(LSA/ LSI)算法简介

1. 传统向量空间模型的缺陷    向量空间模型是信息检索中最常用的检索方法,其检索过程是,将文档集D中的所有文档和查询都表示成以单词为特征的向量,特征值为每个单词的TF-IDF值,然后使用向量空间模型(亦即计算查询q的向量和每个文档di的向量之间的相似度)来衡量文档和查询之间的相似度,从而得到和给定查询最相关的文档。   向量空间模型简单的基于单词的出现与否以及TF-IDF等信息来进行检索,但是...

2018-01-12 15:11:04 1818

原创 微信跳一跳游戏外挂(mac电脑+android手机)

外挂源码地址:https://github.com/wangshub/wechat_jump_game1.先下载github的脚本代码 进入下载后的文件夹,安装依赖文件 pip install -r requirements.txt2.安装brew(如果有可忽略,直接执行第二步) 安装方法如下:打开mac的终端工具(安装时间有点长) rub...

2018-01-04 14:28:46 5685 2

转载 数据归一化和两种常用的归一化方法

     数据标准化(归一化)处理是数据挖掘的一项基础工作,不同评价指标往往具有不同的量纲和量纲单位,这样的情况会影响到数据分析的结果,为了消除指标之间的量纲影响,需要进行数据标准化处理,以解决数据指标之间的可比性。原始数据经过数据标准化处理后,各指标处于同一数量级,适合进行综合对比评价。以下是两种常用的归一化方法:一、min-max标准化(Min-Max Normalization)也称为离差标...

2018-01-03 16:28:54 6608

Higgs Boson竞赛训练数据

Higgs Boson竞赛训练数据 。竞赛官网:https://www.kaggle.com/c/higgs-boson/

2018-03-03

蘑菇数据集

xgboost、蘑菇数据集、xgboost、蘑菇数据集、xgboost、蘑菇数据集、

2018-03-02

Mushroom Classification--xgboost训练数据

xgboost训练数据,Mushroom Classification。Mushroom Classification--xgboost训练数据

2018-03-02

大话众筹及案例PPT 学习

众筹商业模式及众筹案例介绍

2016-12-15

众筹网概况

众筹商业模式介绍 和众筹网的盈利模式、经营成本等概述

2016-12-15

Linux就是这个范儿

Linux就是这个范儿,适合linux学习

2015-11-26

菠萝科学奖男生追女生的数学模型

2013菠萝科学奖之数学奖:男生追女生的数学模型.pdf )

2014-03-18

dreamwear数据库网站开发

dreamwear数据库网站开发

2014-03-18

数据库操作

数据库操作 mysql ppt

2013-09-11

JAVA编程题全集

最新JAVA编程题全集 (50题及答案).

2013-09-11

硬件基础 钱晓捷

硬件基础 钱晓捷 ppt

2013-09-11

钱晓捷-32位汇编

钱晓捷- 32位汇编 ppt

2013-09-11

经典算法大全

经典 算法 大全

2013-09-11

java网页 html

java 网页 html

2013-09-11

C标准函数库文件.pdf

C标准函数库.pdf 快速查阅 c函数。

2013-09-11

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除