自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(20)
  • 收藏
  • 关注

转载 TF-IDF

TF-IDF算法分析TF-IDF是一种数值统计,用于反映一个词对于语料中某篇文章的重要性,在信息检索和文本挖掘领域,它经常用于因子加权。主要思想:如果某个词在一片文档中出现的频率高,即TF高;并且在语料库中其他文档中很少出现即IDF高,则认为这个词具有很好的类别区分能力。TF-IDF在实际中主要是将两者相乘,也即TF*IDF,TF为词频(Term Frequency),表示词t在文档d中出现的频率

2017-11-24 10:55:06 1156

原创 Python包的安装

1、使用pip当Python2和Python3同时存在于Windows上时,它们对应的pip都叫做pip.exe,所以不能直接使用pip install命令来安装软件包,而是要使用启动器py.exe来指定pip的版本,命令如下: py -2 -m pip instal xxxx -2表示使用Python2,-m pip表示运行pip模块,也就是运行pip命令。如果为Python3安装软件,那么命

2017-11-17 18:03:46 1351

转载 Kaggle过程

Kaggle网站的比赛(Competition)可以分为两大类:面向初学者 1、Getting Started:让初学者体会机器学习比赛 2、Playground:有趣的比赛,主要看创意,而非解决问题面向竞争者 1、Recruitment:赞助商为招聘数据科学家而设立的比赛 2、Featured:为解决商业问题设立的有奖金的比赛 3、Research:解决学界前沿问题设立的比赛一般来

2017-11-17 15:10:38 576

原创 EDA To Prediction(DieTanic)

Contents of the NotebookPart1:探索性数据分析(EDA) 1)分析特征 2)发现多个特征之间的关系Part2:特征工程和数据清洗 1)加入少数特征 2)移除冗余特征 3)把特征转换为适合建模的格式Part3:预测建模 1)运行基础算法 2)交叉验证 3)集成学习 4)重要特征抽取详细介绍 Part1:探索性数据分析(EDA) 1)对train.csv

2017-11-13 17:07:58 543

原创 生成器&迭代器

生成器通过列表生成式,我们可以直接创建一个列表。但是,受到内存限制,列表容量肯定是有限的。而且,创建一个包含100万个元素的列表,不仅占用很大的存储空间,如果我们仅仅需要访问前面几个元素,那后面绝大多数元素占用的空间都白白浪费了。所以,如果列表元素可以按照某种算法推算出来,那我们是否可以在循环的过程中不断推算出后续的元素呢?这样就不必创建完整的list,从而节省大量的空间。在Python中,这种一边

2017-11-08 21:29:57 636

原创 决策树

构建决策树通常包括3个步骤:特征选择决策树生成决策树剪枝决策树的一般流程收集数据:可以使用任何方法准备数据:树构造算法只适用于标称型数据,因此数值型数据必须离散化分析数据:可以使用任何方法,构造树完成之后,我们应该检查图形是否符合预期训练算法:构造树的数据结构测试算法:使用经验树计算错误率使用算法:可适用于任何监督学习算法,而使用决策树可以更好地理解数据的内在含义Python实

2017-11-02 21:31:40 644

原创 集成学习(ensemble learning)之RandomForest

Bagging算法原理 Bagging基于自主采样法(bootstrap sampling)。给定包含N个样本的训练数据集D,自助采样法是这样进行的:先从D中醉鸡取出一个样本放入采样集Ds中,再把该样本放回D中(有放回的重复独立采样)。经过N次随机采样操作,得到包含N个样本的采样集Ds。Bagging首先采用M轮自助采样法,获得M个包含N个训练样本的采样集。然后,基于这些采样集训练出一个基学

2017-11-01 14:40:58 1191

原创 集成学习(ensemble learning)之AdaBoost

什么是集成学习? 它就是多算法融合,它的思想相当简单直接,以至于用一句俗语就可以完美概括:三个臭皮匠,顶个诸葛亮。实际操作中,集成算法把大大小小的多种算法融合在一起,共同协作来解决一个问题。这些算法可以使不同的算法,也可以是相同的算法。集成学习是通过构建并结合多个学习器来完成学习任务的。 工作流程: 1、先产生一组“个体学习器”。在分类问题中,个体学习器也称为基类分类器。 2、再使用某

2017-10-31 11:01:51 1162

原创 降维算法(PCA)

降维方法1、主成分分析(PCA) 在PCA中,数据从原来的坐标系转换到新的坐标系,新坐标系的选择是由数据本身决定的。第一个新坐标轴选择的是原始数据中方差最大的方向,第二个新坐标轴选择和第一个坐标轴正交且具有最大方差的方向。该过程一直重复,重复次数为原始数据中特征的数目。我们会发现,大部分方差都包含在最前面的几个新坐标轴中。因此,我们可以忽略余下的坐标轴,即对数据进行降维处理。2、因子分析(Fact

2017-10-30 11:30:47 14887 2

原创 机器学习概念理解

要进行机器学习,先要有数据。假定我们收集了一批关于西瓜的数据。例如(色泽=青绿;根蒂=蜷缩;敲声=浊响),(色泽=乌黑;根蒂=稍蜷;敲声=沉闷),(色泽=浅白;根蒂=硬挺;敲声=清脆),……,每对括号是一条记录。这组记录的集合称为一个“数据集”(data set),其中每条记录是关于一个事件或对象(这里是一个西瓜)的描述,称为一个“示例”(instance)或“样本”(sample)。反映事件或对象

2017-10-29 21:21:37 772

原创 PageRank

PageRank除了考虑到入链数量的影响,还考虑了网页质量因素,两者结合获得了更好的网页重要性评价标准。 对于某个互联网网页A来说,该网页PageRank的计算基于以下两个基本假设: 数量假设:如果一个页面节点接收到的其他网页指向的入链数量越多,那么这个页面越重要。 质量假设:指向页面A的入链质量不同,质量高的页面会通过链向其他页面传递更多的权重。PageRank算法原理 1)在初始阶段:网

2017-10-26 17:58:02 476

原创 贝叶斯分类器

原理: 通过某对象的先验概率,利用贝叶斯公式计算出其后验概率,即该对象属于某一类的概率,选择具有最大后验概率的类作为该对象所属的类。 贝叶斯公式: 案例: 挑战者B不知道原垄断者A是属于高阻挠成本类型还是低阻挠成本类型,但B知道,如果A属于高阻挠成本类型,那么B进入市场时A进行阻挠的概率为20%(此时A为了保持垄断带来的高利润,不计成本地拼命阻挠);如果A属于低阻挠成本类型,那B进入市场时,A

2017-10-25 11:24:18 581

原创 线性模型(linear model)

注:arg 是变元(即自变量argument)的英文缩写。arg min 就是使后面这个式子达到最小值时的变量的取值arg max 就是使后面这个式子达到最大值时的变量的取值形式:**f(**x)=w.x+b 参数解释: x:列向量,n维表示样本的n种特征 w:为每个特征对应的权重生成的权重向量 案例: 以房价与房屋面积的例子引出线性回归问题,首先定义一些符号: m:训练数据的

2017-10-24 17:21:04 11109

原创 HMM与CRF

HMM(隐马尔科夫模型) 1、 知道骰子有几种(隐含状态数量),每种骰子是什么(转换概率),根据掷骰子掷出的结果(可见状态链),我想知道每次掷出来的是哪种骰子(隐含状态链)。 在语音识别领域叫做解码问题。 (1) 求最大似然路径状态,通俗来说,就是我求一串骰子序列,这串骰子序列产生观测结果的可能性最大。 (2) 不是求一组骰子序列,而是求每次掷出的骰子分别是每种骰子的概率。 2、 还是

2017-10-23 21:31:52 1554

原创 数组或列表切分

arr2=np.array([(1.3,9,2.0),(7,6,1)])#通过元组创建数组 1、arr2.shape()#规格 result:(2,3) 2、arr2.ndim#秩 result:2 3、arr2.szie#元素的总数 result:6 4、type(arr2)#对象的类型 result :type ‘numpy.nda

2017-10-22 17:17:53 725

原创 独热编码(One-Hot Encoding)

通常需要处理的数值都是稀疏而又散乱地分布在空间中,然而,我们并不需要存储这些大数值,这时可以用独热编码。例如:我们需要处理4维向量空间,当给一个特征向量的第n个特征进行编码时,编码器会遍历每个特征向量的第n个特征,然后进行非重复计数。若第n个特征的最大值为K,则就把这个特征转换为只有一个值为1而其他值都是0的K+1维向量。每个样本(5个特征)经过独热码编码后转化成26个特征(6+5+4+5+6=26

2017-10-20 09:27:43 13673 2

原创 用主题建模识别文本模式

主题建模是指识别文本数据隐藏模式的过程,其目的是发现一组文档的隐藏主题结构。# -*- coding: utf-8 -*-"""Created on Thu Oct 12 16:30:39 2017@author: Yxm"""from nltk.tokenize import RegexpTokenizerfrom nltk.stem.snowball import SnowballSte

2017-10-14 10:55:16 481

原创 使用Python进行文本分类

注:下面写明的是整体思路,后面附上综合代码1、准备数据:从文本中构建词向量(1)词表到向量的转换函数 **创建一些实验样本 loadDataSet() **创建一个包含在所有文档中出现的不重复词的列表 createVocabList(dataSet) **该函数的输入参数为词汇表及某个文档,输出的是文档向量,向量的每一个元素为1或0,分别表示词汇表中的单词在输入文档中是否出现。 又被称为

2017-10-13 21:30:21 4273

原创 函数参数

Python中的函数参数主要有3种形式:1)位置或关键字参数 def fun(a,b,c): print a,b,c *可以使用位置参数 fun(1,2,3) *可以使用关键字参数,关键字参数之间的顺序没有关系 fun(a=1,c=3,b=2) *也可以混合使用位置参数和关键字参数,但位置参数必须在关键字参数的前面 fun(1,c=3,b=2)2)任意数量的位置参数 定义时

2017-10-12 09:33:28 239

原创 偏差与方差

偏差与方差偏差—方差分解:是解释算法泛化性能的一种重要工具。泛化误差可分解为偏差、方差与噪声之和偏差:学习算法的期望预测与真是结果的偏离程度,刻画了学习算法本身的拟合能力。 方差:同样大小的训练集的变动所导致的学习性能的变化,刻画了数据扰动所造成的影响。 噪声:在当前任务上任何学习算法所能达到期望泛化误差下界,即刻画了学习问题本身的难度。给定学习任务,为了取得更好的泛化性能,则需是偏差较小,既能

2017-10-11 11:26:10 473

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除