Lanbocsdn-CSDN博客

转载 TF-IDF

TF-IDF算法分析TF-IDF是一种数值统计，用于反映一个词对于语料中某篇文章的重要性，在信息检索和文本挖掘领域，它经常用于因子加权。主要思想：如果某个词在一片文档中出现的频率高，即TF高；并且在语料库中其他文档中很少出现即IDF高，则认为这个词具有很好的类别区分能力。TF-IDF在实际中主要是将两者相乘，也即TF*IDF，TF为词频（Term Frequency），表示词t在文档d中出现的频率

2017-11-24 10:55:06 1156

原创 Python包的安装

1、使用pip当Python2和Python3同时存在于Windows上时，它们对应的pip都叫做pip.exe，所以不能直接使用pip install命令来安装软件包，而是要使用启动器py.exe来指定pip的版本，命令如下： py -2 -m pip instal xxxx -2表示使用Python2，-m pip表示运行pip模块，也就是运行pip命令。如果为Python3安装软件，那么命

2017-11-17 18:03:46 1351

转载 Kaggle过程

Kaggle网站的比赛（Competition）可以分为两大类：面向初学者 1、Getting Started：让初学者体会机器学习比赛 2、Playground：有趣的比赛，主要看创意，而非解决问题面向竞争者 1、Recruitment：赞助商为招聘数据科学家而设立的比赛 2、Featured：为解决商业问题设立的有奖金的比赛 3、Research：解决学界前沿问题设立的比赛一般来

2017-11-17 15:10:38 576

原创 EDA To Prediction(DieTanic)

Contents of the NotebookPart1：探索性数据分析（EDA） 1）分析特征 2）发现多个特征之间的关系Part2：特征工程和数据清洗 1）加入少数特征 2）移除冗余特征 3）把特征转换为适合建模的格式Part3：预测建模 1）运行基础算法 2）交叉验证 3）集成学习 4）重要特征抽取详细介绍 Part1：探索性数据分析（EDA） 1）对train.csv

2017-11-13 17:07:58 543

原创生成器&迭代器

生成器通过列表生成式，我们可以直接创建一个列表。但是，受到内存限制，列表容量肯定是有限的。而且，创建一个包含100万个元素的列表，不仅占用很大的存储空间，如果我们仅仅需要访问前面几个元素，那后面绝大多数元素占用的空间都白白浪费了。所以，如果列表元素可以按照某种算法推算出来，那我们是否可以在循环的过程中不断推算出后续的元素呢？这样就不必创建完整的list，从而节省大量的空间。在Python中，这种一边

2017-11-08 21:29:57 636

原创决策树

构建决策树通常包括3个步骤：特征选择决策树生成决策树剪枝决策树的一般流程收集数据：可以使用任何方法准备数据：树构造算法只适用于标称型数据，因此数值型数据必须离散化分析数据：可以使用任何方法，构造树完成之后，我们应该检查图形是否符合预期训练算法：构造树的数据结构测试算法：使用经验树计算错误率使用算法：可适用于任何监督学习算法，而使用决策树可以更好地理解数据的内在含义Python实

2017-11-02 21:31:40 644

原创集成学习（ensemble learning）之RandomForest

Bagging算法原理 Bagging基于自主采样法（bootstrap sampling）。给定包含N个样本的训练数据集D，自助采样法是这样进行的：先从D中醉鸡取出一个样本放入采样集Ds中，再把该样本放回D中（有放回的重复独立采样）。经过N次随机采样操作，得到包含N个样本的采样集Ds。Bagging首先采用M轮自助采样法，获得M个包含N个训练样本的采样集。然后，基于这些采样集训练出一个基学

2017-11-01 14:40:58 1191

原创集成学习（ensemble learning）之AdaBoost

什么是集成学习？它就是多算法融合，它的思想相当简单直接，以至于用一句俗语就可以完美概括：三个臭皮匠，顶个诸葛亮。实际操作中，集成算法把大大小小的多种算法融合在一起，共同协作来解决一个问题。这些算法可以使不同的算法，也可以是相同的算法。集成学习是通过构建并结合多个学习器来完成学习任务的。工作流程： 1、先产生一组“个体学习器”。在分类问题中，个体学习器也称为基类分类器。 2、再使用某

2017-10-31 11:01:51 1162

原创降维算法（PCA）

降维方法1、主成分分析（PCA）在PCA中，数据从原来的坐标系转换到新的坐标系，新坐标系的选择是由数据本身决定的。第一个新坐标轴选择的是原始数据中方差最大的方向，第二个新坐标轴选择和第一个坐标轴正交且具有最大方差的方向。该过程一直重复，重复次数为原始数据中特征的数目。我们会发现，大部分方差都包含在最前面的几个新坐标轴中。因此，我们可以忽略余下的坐标轴，即对数据进行降维处理。2、因子分析（Fact

2017-10-30 11:30:47 14887 2

原创机器学习概念理解

要进行机器学习，先要有数据。假定我们收集了一批关于西瓜的数据。例如（色泽=青绿；根蒂=蜷缩；敲声=浊响），（色泽=乌黑；根蒂=稍蜷；敲声=沉闷），（色泽=浅白；根蒂=硬挺；敲声=清脆），……，每对括号是一条记录。这组记录的集合称为一个“数据集”（data set），其中每条记录是关于一个事件或对象（这里是一个西瓜）的描述，称为一个“示例”（instance）或“样本”（sample）。反映事件或对象

2017-10-29 21:21:37 772

原创 PageRank

PageRank除了考虑到入链数量的影响，还考虑了网页质量因素，两者结合获得了更好的网页重要性评价标准。对于某个互联网网页A来说，该网页PageRank的计算基于以下两个基本假设：数量假设：如果一个页面节点接收到的其他网页指向的入链数量越多，那么这个页面越重要。质量假设：指向页面A的入链质量不同，质量高的页面会通过链向其他页面传递更多的权重。PageRank算法原理 1）在初始阶段：网

2017-10-26 17:58:02 476

原创贝叶斯分类器

原理：通过某对象的先验概率，利用贝叶斯公式计算出其后验概率，即该对象属于某一类的概率，选择具有最大后验概率的类作为该对象所属的类。贝叶斯公式：案例：挑战者B不知道原垄断者A是属于高阻挠成本类型还是低阻挠成本类型，但B知道，如果A属于高阻挠成本类型，那么B进入市场时A进行阻挠的概率为20%（此时A为了保持垄断带来的高利润，不计成本地拼命阻挠）；如果A属于低阻挠成本类型，那B进入市场时，A

2017-10-25 11:24:18 581

原创线性模型（linear model）

注：arg 是变元（即自变量argument）的英文缩写。arg min 就是使后面这个式子达到最小值时的变量的取值arg max 就是使后面这个式子达到最大值时的变量的取值形式：**f(**x)=w.x+b 参数解释： x：列向量，n维表示样本的n种特征 w：为每个特征对应的权重生成的权重向量案例：以房价与房屋面积的例子引出线性回归问题，首先定义一些符号： m：训练数据的

2017-10-24 17:21:04 11109

原创 HMM与CRF

HMM（隐马尔科夫模型） 1、知道骰子有几种（隐含状态数量），每种骰子是什么（转换概率），根据掷骰子掷出的结果（可见状态链），我想知道每次掷出来的是哪种骰子（隐含状态链）。在语音识别领域叫做解码问题。（1）求最大似然路径状态，通俗来说，就是我求一串骰子序列，这串骰子序列产生观测结果的可能性最大。（2）不是求一组骰子序列，而是求每次掷出的骰子分别是每种骰子的概率。 2、还是

2017-10-23 21:31:52 1554

原创数组或列表切分

arr2=np.array([(1.3,9,2.0),(7,6,1)])#通过元组创建数组 1、arr2.shape()#规格 result：（2,3） 2、arr2.ndim#秩 result：2 3、arr2.szie#元素的总数 result：6 4、type(arr2)#对象的类型 result ：type ‘numpy.nda

2017-10-22 17:17:53 725

原创独热编码（One-Hot Encoding）

通常需要处理的数值都是稀疏而又散乱地分布在空间中，然而，我们并不需要存储这些大数值，这时可以用独热编码。例如：我们需要处理4维向量空间，当给一个特征向量的第n个特征进行编码时，编码器会遍历每个特征向量的第n个特征，然后进行非重复计数。若第n个特征的最大值为K，则就把这个特征转换为只有一个值为1而其他值都是0的K+1维向量。每个样本（5个特征）经过独热码编码后转化成26个特征（6+5+4+5+6=26

2017-10-20 09:27:43 13673 2

原创用主题建模识别文本模式

主题建模是指识别文本数据隐藏模式的过程，其目的是发现一组文档的隐藏主题结构。# -*- coding: utf-8 -*-"""Created on Thu Oct 12 16:30:39 2017@author: Yxm"""from nltk.tokenize import RegexpTokenizerfrom nltk.stem.snowball import SnowballSte

2017-10-14 10:55:16 481

原创使用Python进行文本分类

注：下面写明的是整体思路，后面附上综合代码1、准备数据：从文本中构建词向量（1）词表到向量的转换函数 **创建一些实验样本 loadDataSet() **创建一个包含在所有文档中出现的不重复词的列表 createVocabList(dataSet) **该函数的输入参数为词汇表及某个文档，输出的是文档向量，向量的每一个元素为1或0，分别表示词汇表中的单词在输入文档中是否出现。又被称为

2017-10-13 21:30:21 4273

原创函数参数

Python中的函数参数主要有3种形式：1）位置或关键字参数 def fun(a,b,c): print a,b,c *可以使用位置参数 fun(1,2,3) *可以使用关键字参数，关键字参数之间的顺序没有关系 fun(a=1,c=3,b=2) *也可以混合使用位置参数和关键字参数，但位置参数必须在关键字参数的前面 fun(1,c=3,b=2)2)任意数量的位置参数定义时

2017-10-12 09:33:28 239

原创偏差与方差

偏差与方差偏差—方差分解：是解释算法泛化性能的一种重要工具。泛化误差可分解为偏差、方差与噪声之和偏差：学习算法的期望预测与真是结果的偏离程度，刻画了学习算法本身的拟合能力。方差：同样大小的训练集的变动所导致的学习性能的变化，刻画了数据扰动所造成的影响。噪声：在当前任务上任何学习算法所能达到期望泛化误差下界，即刻画了学习问题本身的难度。给定学习任务，为了取得更好的泛化性能，则需是偏差较小，既能

2017-10-11 11:26:10 473

LanboCSDN的博客