TF-IDF

TF-IDF算法分析TF-IDF是一种数值统计,用于反映一个词对于语料中某篇文章的重要性,在信息检索和文本挖掘领域,它经常用于因子加权。主要思想:如果某个词在一片文档中出现的频率高,即TF高;并且在语料库中其他文档中很少出现即IDF高,则认为这个词具有很好的类别区分能力。 TF-IDF在实际中主要...

2017-11-24 10:55:06

阅读数 611

评论数 0

Python包的安装

1、使用pip当Python2和Python3同时存在于Windows上时,它们对应的pip都叫做pip.exe,所以不能直接使用pip install命令来安装软件包,而是要使用启动器py.exe来指定pip的版本,命令如下: py -2 -m pip instal xxxx -2表示使用P...

2017-11-17 18:03:46

阅读数 926

评论数 0

Kaggle过程

Kaggle网站的比赛(Competition)可以分为两大类: 面向初学者 1、Getting Started:让初学者体会机器学习比赛 2、Playground:有趣的比赛,主要看创意,而非解决问题 面向竞争者 1、Recruitment:赞助商为招聘数据科学家而设立的比赛 2、Fea...

2017-11-17 15:10:38

阅读数 181

评论数 0

EDA To Prediction(DieTanic)

Contents of the NotebookPart1:探索性数据分析(EDA) 1)分析特征 2)发现多个特征之间的关系Part2:特征工程和数据清洗 1)加入少数特征 2)移除冗余特征 3)把特征转换为适合建模的格式Part3:预测建模 1)运行基础算法 2)交叉验证 3)...

2017-11-13 17:07:58

阅读数 193

评论数 0

生成器&迭代器

生成器通过列表生成式,我们可以直接创建一个列表。但是,受到内存限制,列表容量肯定是有限的。而且,创建一个包含100万个元素的列表,不仅占用很大的存储空间,如果我们仅仅需要访问前面几个元素,那后面绝大多数元素占用的空间都白白浪费了。所以,如果列表元素可以按照某种算法推算出来,那我们是否可以在循环的过...

2017-11-08 21:29:57

阅读数 423

评论数 0

决策树

构建决策树通常包括3个步骤: 特征选择 决策树生成 决策树剪枝 决策树的一般流程 收集数据:可以使用任何方法 准备数据:树构造算法只适用于标称型数据,因此数值型数据必须离散化 分析数据:可以使用任何方法,构造树完成之后,我们应该检查图形是否符合预期 训练算法:构造树的数据结构 测试算法:使用经验树...

2017-11-02 21:31:40

阅读数 236

评论数 0

集成学习(ensemble learning)之RandomForest

Bagging算法原理 Bagging基于自主采样法(bootstrap sampling)。给定包含N个样本的训练数据集D,自助采样法是这样进行的:先从D中醉鸡取出一个样本放入采样集Ds中,再把该样本放回D中(有放回的重复独立采样)。经过N次随机采样操作,得到包含N个样本的采样集Ds。 Ba...

2017-11-01 14:40:58

阅读数 657

评论数 0

集成学习(ensemble learning)之AdaBoost

什么是集成学习? 它就是多算法融合,它的思想相当简单直接,以至于用一句俗语就可以完美概括:三个臭皮匠,顶个诸葛亮。实际操作中,集成算法把大大小小的多种算法融合在一起,共同协作来解决一个问题。这些算法可以使不同的算法,也可以是相同的算法。 集成学习是通过构建并结合多个学习器来完成学习任务的。 ...

2017-10-31 11:01:51

阅读数 389

评论数 0

降维算法(PCA)

降维方法1、主成分分析(PCA) 在PCA中,数据从原来的坐标系转换到新的坐标系,新坐标系的选择是由数据本身决定的。第一个新坐标轴选择的是原始数据中方差最大的方向,第二个新坐标轴选择和第一个坐标轴正交且具有最大方差的方向。该过程一直重复,重复次数为原始数据中特征的数目。我们会发现,大部分方差都包...

2017-10-30 11:30:47

阅读数 8718

评论数 0

机器学习概念理解

要进行机器学习,先要有数据。假定我们收集了一批关于西瓜的数据。例如(色泽=青绿;根蒂=蜷缩;敲声=浊响),(色泽=乌黑;根蒂=稍蜷;敲声=沉闷),(色泽=浅白;根蒂=硬挺;敲声=清脆),……,每对括号是一条记录。这组记录的集合称为一个“数据集”(data set),其中每条记录是关于一个事件或对象...

2017-10-29 21:21:37

阅读数 213

评论数 0

PageRank

PageRank除了考虑到入链数量的影响,还考虑了网页质量因素,两者结合获得了更好的网页重要性评价标准。 对于某个互联网网页A来说,该网页PageRank的计算基于以下两个基本假设: 数量假设:如果一个页面节点接收到的其他网页指向的入链数量越多,那么这个页面越重要。 质量假设:指向页面A的入...

2017-10-26 17:58:02

阅读数 175

评论数 0

贝叶斯分类器

原理: 通过某对象的先验概率,利用贝叶斯公式计算出其后验概率,即该对象属于某一类的概率,选择具有最大后验概率的类作为该对象所属的类。 贝叶斯公式: 案例: 挑战者B不知道原垄断者A是属于高阻挠成本类型还是低阻挠成本类型,但B知道,如果A属于高阻挠成本类型,那么B进入市场时A进行阻挠的概率为2...

2017-10-25 11:24:18

阅读数 338

评论数 0

线性模型(linear model)

注:arg 是变元(即自变量argument)的英文缩写。 arg min 就是使后面这个式子达到最小值时的变量的取值 arg max 就是使后面这个式子达到最大值时的变量的取值形式:**f(**x)=w.x+b 参数解释: x:列向量,n维表示样本的n种特征 w:为每个特征对应的权重...

2017-10-24 17:21:04

阅读数 2872

评论数 0

HMM与CRF

HMM(隐马尔科夫模型) 1、 知道骰子有几种(隐含状态数量),每种骰子是什么(转换概率),根据掷骰子掷出的结果(可见状态链),我想知道每次掷出来的是哪种骰子(隐含状态链)。 在语音识别领域叫做解码问题。 (1) 求最大似然路径状态,通俗来说,就是我求一串骰子序列,这串骰子序列产生观测结果...

2017-10-23 21:31:52

阅读数 647

评论数 0

数组或列表切分

arr2=np.array([(1.3,9,2.0),(7,6,1)])#通过元组创建数组 1、arr2.shape()#规格 result:(2,3) 2、arr2.ndim#秩 result:2 3、arr2.szie#元素的总数 result:...

2017-10-22 17:17:53

阅读数 178

评论数 0

独热编码(One-Hot Encoding)

通常需要处理的数值都是稀疏而又散乱地分布在空间中,然而,我们并不需要存储这些大数值,这时可以用独热编码。例如:我们需要处理4维向量空间,当给一个特征向量的第n个特征进行编码时,编码器会遍历每个特征向量的第n个特征,然后进行非重复计数。若第n个特征的最大值为K,则就把这个特征转换为只有一个值为1而其...

2017-10-20 09:27:43

阅读数 6935

评论数 2

用主题建模识别文本模式

主题建模是指识别文本数据隐藏模式的过程,其目的是发现一组文档的隐藏主题结构。# -*- coding: utf-8 -*- """ Created on Thu Oct 12 16:30:39 2017@author: Yxm """fr...

2017-10-14 10:55:16

阅读数 161

评论数 0

使用Python进行文本分类

注:下面写明的是整体思路,后面附上综合代码1、准备数据:从文本中构建词向量(1)词表到向量的转换函数 **创建一些实验样本 loadDataSet() **创建一个包含在所有文档中出现的不重复词的列表 createVocabList(dataSet) **该函数的输入参数为词汇表及某个文...

2017-10-13 21:30:21

阅读数 1239

评论数 0

函数参数

Python中的函数参数主要有3种形式:1)位置或关键字参数 def fun(a,b,c): print a,b,c *可以使用位置参数 fun(1,2,3) *可以使用关键字参数,关键字参数之间的顺序没有关系 fun(a=1,c=3,b=2) *也可以混合使用位置参数和关键...

2017-10-12 09:33:28

阅读数 83

评论数 0

偏差与方差

偏差与方差偏差—方差分解:是解释算法泛化性能的一种重要工具。泛化误差可分解为偏差、方差与噪声之和偏差:学习算法的期望预测与真是结果的偏离程度,刻画了学习算法本身的拟合能力。 方差:同样大小的训练集的变动所导致的学习性能的变化,刻画了数据扰动所造成的影响。 噪声:在当前任务上任何学习算法所能达到...

2017-10-11 11:26:10

阅读数 164

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭