Paulzhao6518-CSDN博客

转载 count(1)、count(*)与count(列名)的执行区别

执行效果：1. count(1) and count(*)当表的数据量大些时，对表作分析之后，使用count(1)还要比使用count(*)用时多了！从执行计划来看，count(1)和count(*)的效果是一样的。但是在表做过分析之后，count(1)会比count(*)的用时少些（1w以内数据量），不过差不了多少。如果count(1)是聚索引,id,那肯定是count...

2018-12-11 10:17:51 4793

原创 Python（Pandas）中map, applymap and apply的区别（记住作用对象：dataframe中的列，每一个元素，series每一个值）

1.apply()当想让方程作用在一维的向量上时，可以使用apply来完成，如下所示In [116]: frame = DataFrame(np.random.randn(4, 3), columns=list('bde'), index=['Utah', 'Ohio', 'Texas', 'Oregon'])In [117]: frameOut[117]: ...

2018-11-15 17:40:26 1428

原创 merge 函数参数精析

merge 函数参数”’ merge: 合并数据集，通过left， right确定连接字段，默认是两个数据集相同的字段参数说明 left 参与合并的左侧DataFrame right 参与合并的右侧DataFrame how 连接方式：‘inner’（默认）；还有，‘outer’、‘left’、‘right’ on 用于连接的列名，必须同时存在于左右两个DataFrame对象中...

2018-11-15 17:32:14 4880

原创 python中的*args和**kwargs

先来看一个例子： 1 >>> def foo(*args, **kwargs): 2 print 'args =', args 3 print 'kwargs = ', kwargs 4 print '-----------------------' 5 6 7 >>> if __name__ == '__m...

2018-11-14 11:14:43 289

原创进程线程、同步异步、阻塞非阻塞、并发并行

1 进程和线程进程（Process）：是Windows系统中的一个基本概念，它包含着一个运行程序所需要的资源。一个正在运行的应用程序在操作系统中被视为一个进程，进程可以包括一个或多个线程。线程是操作系统分配处理器时间的基本单元，在进程中可以有多个线程同时执行代码。进程之间是相对独立的，一个进程无法访问另一个进程的数据（除非利用分布式计算方式），一个进程运行的失败也不会影响其他进程的运行，W...

2018-10-29 22:35:09 645

原创引用计数 DEL 垃圾回收和循环引用

Python中的垃圾回收算法是采用引用计数, 当一个对象的引用计数为0时, Python的垃圾回收机制就会将对象回收复制引用计数 Python使用引用计数追踪内存中的对象，当对象的引用计数变为0，它将被垃圾回收对象首次被创建，并且被赋值给变量时，该对象的引用计数为1 每当该对象的引用被赋值给其他变量时，该对象引用计数自动加1 当对象的一个引用被...

2018-10-24 17:30:27 643

set(可变集合)与frozenset(不可变集合)的区别：set无序排序且不重复，是可变的，有add（），remove（）等方法。既然是可变的，所以它不存在哈希值。基本功能包括关系测试和消除重复元素. 集合对象还支持union(联合), intersection(交集), difference(差集)和sysmmetric difference(对称差集)等数学运算. sets 支持 x i...

2018-10-24 15:44:45 454

原创 python_bisect模块的简单使用

二分搜索时，立马要想到使用这个模块，bisect管理已排序的序列，这里的是可变的序列类型，bisect模块包含两个主要函数，bisect和insort，两个函数都利用二分查找算法来在有序序列中查找或插入元素。以下是pycharm中查看的bisect模块的结构 bisect默认作用和bisect_right相同, insort默认作用和insort_right相同在查找方面，python中...

2018-10-24 11:41:47 540

原创实现可切片的对象

ist序列的切片说明：#模式[start:end:step]""" 其中，第一个数字start表示切片开始位置，默认为0；第二个数字end表示切片截止（但不包含）位置（默认为列表长度）；第三个数字step表示切片的步长（默认为1）。当start为0时可以省略，当end为列表长度时可以省略，当step为1时可以省略，并且省略步长时可以同时省略最后...

2018-10-24 11:29:32 415

原创 pandas中DataFrame 数据合并，连接（merge,join,concat)

pandas作者Wes McKinney 在【PYTHON FOR DATA ANALYSIS】中对pandas的方方面面都有了一个权威简明的入门级的介绍，但在实际使用过程中，我发现书中的内容还只是冰山一角。谈到pandas数据的行更新、表合并等操作，一般用到的方法有concat、join、merge。但这三种方法对于很多新手来说，都不太好分清使用的场合与用途。今天就pandas官网中关于数据合并...

2018-10-22 22:26:03 179133 4

原创平均池化和最大池化区别

pooling的结果是使得特征减少，参数减少，但pooling的目的并不仅在于此。pooling目的是为了保持某种不变性（旋转、平移、伸缩等），常用的有mean-pooling，max-pooling和Stochastic-pooling三种。 mean-pooling，即对邻域内特征点只求平均。max-pooling，即对邻域内特征点取最大。根据相关理论，特征提取的...

2018-10-22 11:35:50 16752 1

原创文本分类

文本分类介绍文本分类问题是根据文本的特征将其分到预先设定好的类别中，类别可以是两类，也可以是更多的类别。文本分类是机器学习领域里监督学习的一种重要应用问题。不过需要指出的是，第一，文本分类问题中用于构建文本自动分类系统的文本类别体系是已经确定的。类别系统一旦变化，需要重新构建新的文本分类系统；第二，在文本分类问题中，并没有特别要求一篇文本只能属于某一个类别，例如，根据主题的分类中每篇文本可能会...

2018-10-05 15:59:00 1304

原创多标签分类问题

1、multilabel classification的用途多标签分类问题很常见，比如一部电影可以同时被分为动作片和犯罪片，一则新闻可以同时属于政治和法律，还有生物学中的基因功能预测问题，场景识别问题，疾病诊断等。 2. 单标签分类在传统的单标签分类中，训练集中的每一个样本只有一个相关的标签 l ，这个标签来自于一个不重合的标签集合L，...

2018-10-05 15:42:18 2268

原创使用word2vec对微博进行情感分析和分类

Word2vec可以将词语转换为高维向量空间中的向量表示，它能揭示上下文关系。首先使用word2vec，将其训练得到词向量作为特征权重，然后根据情感词典和词性的两种特征选择方法筛选出有价值的特征，最后引入SVM训练和预测，最终达到情感分类的目的。使用word2vec会得到vectors.bin词向量模型文件，对于文本聚类而言，word2vec提供了一个内部命令来获得近义词列表。我们只需要输入dis...

2018-10-03 22:49:37 2362

原创中文文本情感分类及情感分析资源大全

摘要：20世纪初以来，文本的情感分析在自然语言处理领域成为了研究的热点，吸引了众多学者越来越多的关注。对于中文文本的情感倾向性研究在这样一大环境下也得到了显著的发展。本文主要是基于机器学习方法的中文文本情感分类，主要包括：使用开源的Markup处理程序对XML文件进行分析处理、中科院计算所开源的中文分词处理程序ICTCLAS对文本进行分词处理、去除停用词等文本预处理，在基于向量空间模型VSM的文本...

2018-10-03 22:43:49 39646 16

原创语言模型评估标准

一、Evaluation1、熵 entropyl 熵（entropy）又称自信息，self-information描述一个随机变量的不确定性的数量，熵越大，不确定性越大，正确估计其值的可能性越小。越不确定的随机变量越需要大的信息量以确定其值。p(x)表示x的分布概率l 相对熵（relativeentropy）又称KL距离，Kullback-Leibler diver...

2018-10-03 22:22:29 4134

原创最大熵模型（MaxEnt）解析

给出了最大熵模型的一般形式（其中的f为特征函数，后面我们还会讲到）：而文献【5】中我们从另外一种不同的角度也得出了多元逻辑回归的一般形式：可见，尽管采用的方法不同，二者最终是殊途同归、万法归宗了。所以我们说无论是多元逻辑回归，还是最大熵模型，又或者是Softmax，它们本质上都是统一的。本文就将从最大熵原理这个角度来推导上述最大熵模型的一般形式。最大熵原理首先，关...

2018-10-03 19:55:16 9844

原创（BN）批量归一化全面解析

一、背景意义本篇博文主要讲解2015年深度学习领域非常棒的一篇文献：《Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift》，这个算法目前已经被大量的应用，最新的文献算法很多都会引用这个算法，进行网络训练，可见其强大之处非同一般啊，采用这个方法网络的训练速度快到...

2018-10-03 11:53:36 30174 9

原创 Attention Model（注意力模型）学习大全

深度学习里的Attention model其实模拟的是人脑的注意力模型，举个例子来说，当我们观赏一幅画时，虽然我们可以看到整幅画的全貌，但是在我们深入仔细地观察时，其实眼睛聚焦的就只有很小的一块，这个时候人的大脑主要关注在这一小块图案上，也就是说这个时候人脑对整幅图的关注并不是均衡的，是有一定的权重区分的。这就是深度学习里的Attention Model的核心思想。AM刚开始也确实是应用在图像...

2018-10-03 10:36:54 6694

原创循环神经网络三种经典模型

本文主要是利用图片的形式，详细地介绍了经典的RNN、RNN几个重要变体，以及Seq2Seq模型、Attention机制。希望这篇文章能够提供一个全新的视角，帮助初学者更好地入门。一、从单层网络谈起在学习RNN之前，首先要了解一下最基本的单层网络，它的结构如图：输入是x，经过变换Wx+b和激活函数f得到输出y。相信大家对这个已经非常熟悉了。二、经典的RNN结构（N vs N...

2018-10-03 10:00:04 13889 3

原创基于VSM的命名实体识别、歧义消解和指代消解

前面讲述过两篇知识图谱相关的文章，这篇文章主要讲解基于向量空间模型(Vector Space Model)的相关应用，包括命名实体识别、实体消歧和跨文本指代消解；其最终目的是想通过它应用到知识图谱构建过程中，即实体对齐和属性对齐。搜狗知立方框架图如下图所示是搜狗知立方的整体框架图。其中知识图谱建立主要包括五个部分：本体构建（实体挖掘、属性名称挖掘）、实例构...

2018-10-03 00:25:18 2164

原创对话系统分析与展望

规则模型与生成式模型在做对话系统或者问答系统的过程中，他们采用的是混合模型，包括Deep Learning以及检索系统，首先要说一说各种模型的优缺点，见下表：表1. 两种对话模型的比较表前者回复答案可控但无法处理长尾问题，后者则难以保证一致性和合理性。以下采用混合模型，即首先采用检索模型从 QA 知识库中找出候选答案集合，然后利用带注意力的 Seq2Seq 模型对候选答案进行排序...

2018-10-02 23:47:10 2418 1

原创用户画像全面精析

一、什么是用户画像用户画像是指根据用户的属性、用户偏好、生活习惯、用户行为等信息而抽象出来的标签化用户模型。通俗说就是给用户打标签，而标签是通过对用户信息分析而来的高度精炼的特征标识。通过打标签可以利用一些高度概括、容易理解的特征来描述用户，可以让人更容易理解用户，并且可以方便计算机处理。用户画像是对现实世界中用户的建模，用户画像应该包含目标，方式，组织，标准，验证这...

2018-10-02 22:56:40 1315

原创文本聚类浅析

首先我来介绍一下什么是文本聚类,最简单的来说文本聚类就是从很多文档中把一些内容相似的文档聚为一类。文本聚类主要是依据著名的聚类假设：同类的文本相似度较大，而不同类的文本相似度较小。作为一种无监督的机器学习方法，聚类由于不需要训练过程，以及不需要预先对文本手工标注类别，因此具有一定的灵活性和较高的自动化处理能力，已经成为对文本信息进行有效地组织、摘要和导航的重要手段，为越来越多的研究人...

2018-10-02 14:25:11 11788

原创同义词挖掘的一些常用方法及同义词替换程序

先谈谈同义词挖掘的一些常用方法在用户使用搜索引擎的过程中，由于地区差异、文化水平等差异，用户所输入的query很多时候和资料中的描述不一致。这种情况下，为了能够召回更多的文档向用户展示，搜索引擎需要对用户的输入做同义词、纠错、归一化等操作。在进行这些操作的过程中，同义词的挖掘是一个基础工作。下面简单介绍一下几个简单实用的算法。词典从百度词典、金山词霸的词条中抓取数据，根据原词的描述...

2018-10-02 11:36:28 10263

原创 stop word理解及超全的停用词表

停用词过滤，是文本分析中一个预处理方法。它的功能是过滤分词结果中的噪声（例如：的、是、啊等）停用词是指在信息检索中，为节省存储空间和提高搜索效率，在处理自然语言数据（或文本）之前或之后会自动过滤掉某些字或词，这些字或词即被称为Stop Words（停用词）。这些停用词都是人工输入、非自动化生成的，生成后的停用词会形成一个停用词表。但是，并没有一个明确的停用词表能够适用于所有的工具。甚至有一些工...

2018-10-02 11:05:38 8872 1

原创 HMM ,MHMM,CRF 优缺点与区别

隐马尔科夫模型（HMM）：图1. 隐马尔科夫模型隐马尔科夫模型的缺点： 1、HMM只依赖于每一个状态和它对应的观察对象：序列标注问题不仅和单个词相关，而且和观察序列的长度，单词的上下文，等等相关。 2、目标函数和预测目标函数不匹配： HMM学到的是状态和观察序列的联合分布P(Y,X)，而预...

2018-10-02 01:42:51 5675

原创几种常用的特征选择方法

特征选择(排序)对于数据科学家、机器学习从业者来说非常重要。好的特征选择能够提升模型的性能，更能帮助我们理解数据的特点、底层结构，这对进一步改善模型、算法都有着重要作用。特征选择主要有两个功能：减少特征数量、降维，使模型泛化能力更强，减少过拟合增强对特征和特征值之间的理解拿到数据集，一个特征选择方法，往往很难同时完成这两个目的。通常情况下，我们经常不管三七二十一，选择一种自己最熟悉或...

2018-10-02 00:21:20 459

原创主题模型探讨

一）简介1.主题模型是对文本中隐含主题的一种建模方法；每个主题其实是词表上单词的概率分布；2.主题模型是一种生成模型，一篇文章的每个词都是通过“以一定概率选择了某个主题，并从这个主题中以一定概率选择某个词语”这样一个过程得到的； 3.常见的主题模型有3种：（1）PLSA（Probabilistic Latent Semantic Analysis）（2）LDA（Laten...

2018-10-01 10:42:59 904

原创数据库事务的四个特性及含义

数据库事务transanction正确执行的四个基本要素。ACID原子性(Atomicity)原子性:整个事务中的所有操作，要么全部完成，要么全部不完成，不可能停滞在中间某个环节。事务在执行过程中发生错误，会被回滚（Rollback）到事务开始前的状态，就像这个事务从来没有执行过一样。一致性(Correspondence)一致性:在事务开始之前和事务结束以后，数据库的完整...

2018-09-30 21:39:19 608

原创索引的优点和缺点

一、为什么要创建索引呢（优点）？这是因为，创建索引可以大大提高系统的性能。第一，通过创建唯一性索引，可以保证数据库表中每一行数据的唯一性。第二，可以大大加快数据的检索速度，这也是创建索引的最主要的原因。第三，可以加速表和表之间的连接，特别是在实现数据的参考完整性方面特别有意义。第四，在使用分组和排序子句进行数据检索时，同样可以显著减少查询中分组和排序的时间。第五...

2018-09-30 21:33:49 324

原创如何优化sql语句

1）选择最有效率的表名顺序(只在基于规则的优化器中有效)： ORACLE的解析器按照从右到左的顺序处理FROM子句中的表名，FROM子句中写在最后的表(基础表 driving table)将被最先处理，在FROM子句中包含多个表的情况下,你必须选择记录条数最少的表作为基础表。如果有3个以上的表连接查询, 那就需要选择交叉表(intersection table)作为基础表, ...

2018-09-30 21:14:06 169

原创 drop、truncate和delete的区别

（1）DELETE语句执行删除的过程是每次从表中删除一行，并且同时将该行的删除操作作为事务记录在日志中保存以便进行进行回滚操作。 TRUNCATE TABLE 则一次性地从表中删除所有的数据并不把单独的删除操作记录记入日志保存，删除行是不能恢复的。并且在删除的过程中不会激活与表有关的删除触发器。执行速度快。（2）表和索引所占空间。当表被TRUNCATE 后，这个表和索引...

2018-09-30 21:10:56 209

原创 python 语法之装饰器decorator

装饰器 decorator或者称为包装器，是对函数的一种包装。它能使函数的功能得到扩充，而同时不用修改函数本身的代码。它能够增加函数执行前、执行后的行为，而不需对调用函数的代码做任何改变。下面用一个简单的例子介绍装饰器：1 # 函数hello，输出 hello + name 的字符串 2 def hello(name):3 return 'hello ' +...

2018-09-30 20:53:36 176

原创 LSTM和GRU的区别

先给出一些结论：GRU和LSTM的性能在很多任务上不分伯仲。 GRU 参数更少因此更容易收敛，但是数据集很大的情况下，LSTM表达性能更好。从结构上来说，GRU只有两个门（update和reset），LSTM有三个门（forget，input，output），GRU直接将hidden state 传给下一个单元，而LSTM则用memory cell 把hidden state 包装起来。...

2018-09-30 19:33:39 3741

原创 CNN、RNN、DNN区别

神经网络的来源神经网络技术起源于上世纪五、六十年代，当时叫感知机（perceptron），包含有输入层、输出层和一个隐藏层。输入的特征向量通过隐藏层变换到达输出层，由输出层得到分类结果。但早期的单层感知机存在一个严重的问题——它对稍微复杂一些的函数都无能为力（如异或操作）。直到上世纪八十年代才被Hition、Rumelhart等人发明的多层感知机克服，就是具有多层隐藏层的感知机。...

2018-09-30 18:32:40 500

原创 Django与Flask之对比

（1）FlaskFlask确实很“轻”，不愧是Micro Framework，从Django转向Flask的开发者一定会如此感慨，除非二者均为深入使用过 Flask自由、灵活，可扩展性强，第三方库的选择面广，开发时可以结合自己最喜欢用的轮子，也能结合最流行最强大的Python库入门简单，即便没有多少web开发经验，也能很快做出网站非常适用于小型网站非常适用于开发web服务的API...

2018-09-30 17:31:42 366

原创 K-means聚类最优k值的选取

最近做了一个数据挖掘的项目，挖掘过程中用到了K-means聚类方法，但是由于根据行业经验确定的聚类数过多并且并不一定是我们获取到数据的真实聚类数，所以，我们希望能从数据自身出发去确定真实的聚类数，也就是对数据而言的最佳聚类数。为此，我查阅了大量资料和博客资源，总结出主流的确定聚类数k的方法有以下两类。1.手肘法1.1 理论手肘法的核心指标是SSE(sum of the squared ...

2018-09-30 15:44:59 1304

原创 FAQ(常见问题解答)

FAQ是英文Frequently Asked Questions的缩写，中文意思就是“经常问到的问题”，或者更通俗地叫做“常见问题解答”。FAQ是当前网络上提供在线帮助的主要手段，通过事先组织好一些可能的常问问答对，发布在网页上为用户提供咨询服务。在很多网站上都可以看到FAQ，列出了一些用户常见的问题，是一种在线帮助形式。在利用一些网站的功能或者服务时往往会遇到一些看似很简单，但不经过说明可...

2018-09-30 08:59:44 43424

原创机器学习和深度学习的区别深度学习的完全取代机器学习吗

首先看看深度学习的定义：“Deep learning is a particular kind of machine learning that achieves great power and flexibility by learning to represent the world as nested hierarchy of concepts, with each concept de...

2018-09-28 21:44:58 15553

空空如也

空空如也