dengxun7056-CSDN博客

转载 Elasticsearch 多字段搜索

查询很少是对一个字段做 match 查询，通常都是一个 query 查询多个字段，比如一个 doc 有 title、content、pagetag 等文本字段，要在这些字段查询含多个 term 的 query，就要对它们的相关度评分做合理的合并。这被称为多词（multiword）、多字段（multifield）查询。如果一个 query 可以结构化，如哪些词是 title，哪些词是 ...

2018-11-11 18:18:00 360

转载 GBDT 简述

GBDT 全称Gradient Boosting Decision Tree，梯度提升决策树。梯度增强决策树的思想来源于两个地方，首先是增强算法（Boosting），然后是梯度增强（Gradient Boosting）的想法。增强算法是一种试图用弱学习器提升为强学习器的算法。这种算法中比较成熟、有代表性的是 AdaBoost 算法。增强算法的工作机制比较类似，先从初始训练集学习...

2018-10-22 23:03:00 382

转载 BM25 调参调研

1. 搜索 ES 计算文本相似度用的 BM25，参数默认，不适合电商场景，可调整 BM25 参数使其适用于电商短文本场景2. k1、b、tf、L、tfScore 的关系如下图红框内所示（注：这里的 tf 即上式中的 f(qi,D)）。3.k1 用来控制公式对词项频率 tf 的敏感程度。((k1 + 1) * tf) / (k1 + tf) 的上限是 (k1+1)，...

2018-10-11 20:25:00 641

转载样本打散后计算单特征 NDCG

单特征 NDCG能计算模型的 NDCG，也就能计算单特征的 NDCG，用于评估单特征的有效性，跟 Group AUC 用途一样单特征 NDCG 如何衡量好坏如果是 AUC，越大于或小于 0.5，特征越有效，但 NDCG 没有这个特点，NDCG 都是正的，而且，样本正负比例不同，NDCG 的值也不同，变化很大。那么在同样的样本下，就需要有个基准用来说明好坏。一个可靠的方案是把随机数...

2018-09-28 16:00:00 232

转载闪亮的日子—开智学堂数据科学基础班

闪亮的日子数据科学基础班终于结束了。这两个月不多的闲暇时间几乎全用来做作业了，耽误了好多看电影、打牌、睡觉和吃火锅的时间。报班之前我已经辞职在家待了一个多月，每天去学校图书馆刷斯坦福机器学习讲义，做笔记。当时是准备应聘互联网数据挖掘的岗位，但对该岗位所知甚少，前途未卜。后来看到开智学堂数据科学基础班二期开班，主讲人是肖凯老师，我意识到这是个学习了解数据科学行业的机会，就果断填了申...

2016-07-12 10:41:00 152

转载大作业-电影推荐系统

电影推荐系统推荐系统的文献汗牛充栋，大家对此应该都不陌生。之所以选这个题目一是简单，在一周多晚上十点以后的自由时间里，只有选简单的题目才能完成，即便如此，依然捉襟见肘；二是希望好好研究下数据，一步步推到推荐系统的设计，而不是像以前直奔算法，当然也是时间原因，这里对数据的探索也是远远不够的。本文前面探索阶段所用的数据集太大，导致多个分析运行一天也出不了结果，所以后面在推荐系统的建模中，...

2016-07-08 00:54:00 3138

转载机器学习初步练习题

1. 写一个函数，能将一个多类别变量转为多个二元虚拟变量，不能使用 sklearn 库。将一个多类别变量转为多个二元虚拟变量，是数据预处理时常用的一种方法。举个例子：以性别 Sex 为例，原本一个变量，因为其取值可以是['male','female']，而将其平展开为 Sex_male 和 Sex_female 两个变量。原本 Sex 取值为 male 的，在转换后的新变量 Se...

2016-06-29 10:00:00 297

转载机器学习初步学习笔记

注：该文是上了开智学堂数据科学入门班的课后做的笔记，主讲人是肖凯老师。机器学习初步机器学习基本概念机器学习、统计模型和数据挖掘有什么异同？机器学习和统计模型区别不是很大，机器学习和统计模型中的回归都一样，底层算法都是差不多的，只是侧重点不一样，在统计学的角度，回归主要解决的问题侧重点在于模型的解释能力，关注的是 x 和 y 之间的关系，关注的更多是系数，从机器学习的角度看，关注的...

2016-06-29 09:57:00 281

转载线性模型练习题

1. 学习理解如何用最小二乘法的矩阵公式来得到线性回归的解，并使用numpy库来实现该算法。在研究一个问题时，从某种理论或假定出发，得到一个模型。根据这个模型，我们感兴趣的某个量有其理论值，同时可以对这个量进行实际观测，而得出其观测值。由于种种原因，如模型不完全正确以及观测有误差，理论值与观测值会有差距，这差距的平方和\[J(\theta)=\sum (理论值-观测值)^{2}\]...

2016-06-21 13:31:00 800

转载线性模型学习笔记

注：该文是根据开智学堂数据科学入门班的讲课内容整理而成，主讲人是肖凯老师。线性模型主要学习用 statsmodels 模块进行线性回归、逻辑回归和时间序列分析。线性模型基本概念多个因素的定量化计算，是线性模型的最主要用途。\[y=\beta_{0}+\beta_{1}x_{1}+\beta_{2}x_{2}+\epsilon\]由上式，有两个因素 $x_{1}$ 和 \(...

2016-06-21 13:16:00 829

转载最优化练习题

给定一个函数 $f(x)=x^2+3x-10$，完成以下题目：理解方程求根中的二分法（Bisection），并使用基本的 numpy 库而非 scipy 库，来实现算法。非线性方程求根注：该部分内容参考的是「中南大学数学科学与计算机技术学院」的课件，介绍了二分法的背景和原理，不感兴趣的可略过。在科学研究和工程设计中, 经常会遇到的一大类问题是非线性方程 f(x)=0 的求根问...

2016-06-16 10:39:00 2325

转载最优化学习笔记

注：该文是上了开智学堂数据科学基础班的课后做的笔记，主讲人是肖凯老师。最优化为什么要做最优化呢？因为在生活中，人们总是希望幸福值或其它达到一个极值，比如做生意时希望成本最小，收入最大，所以在很多商业情境中，都会遇到求极值的情况。函数求根这里「函数的根」也称「方程的根」，或「函数的零点」。先把我们需要的包加载进来。import numpy as npimport scipy ...

2016-06-16 10:23:00 487

转载概率与统计分析练习题

1. 学习理解什么是极大似然估计似然函数：设样本 X 有概率函数 $f(x,\theta)$，这里 $\theta$ 为参数，在参数空间内取值。当固定 x 而把 $f(x,\theta)$ 看成 $\theta$ 的定义在参数空间内的函数时，它称为似然函数。所以，概率函数和似然函数可以说是一回事，只是看法不同，前者是固定 $\theta$ 而看成 x 在样本空间上...

2016-06-07 23:27:00 367

转载概率与统计分析学习笔记

注：该文是上了开智学堂数据科学基础班的课后做的笔记，主讲人是肖凯老师。概率与统计分析描述性分析用一个数字描述一组数字的特征。用一个数字来归纳一组数字，这个数字称为统计量或统计指标。均值、中位数：描述一组数据的集中趋势方差、标准差、四分位距：描述一组数据的离散趋势相关系数：上面两大类指标都是对一个变量或一组数据的特征描述，如果要描述两个变量或两组数据的相关性，可以使用相关系数...

2016-06-07 23:19:00 284

转载 Pandas 练习题

1. 使用 pandas 中的函数，下载上证综指过去一段时间的数据，进行数据探索。上证综指，全称是上海证券综合指数，是以上证所挂牌上市的全部股票为计算范围，以发行量为权数的加权综合股价指数。这一指数自1991年7月15日起开始实时发布，基日定为1990年12月19日，基日指数定为100点。以上证综指等为核心的上证指数体系，科学表征上海证券市场层次丰富、行业广泛、品种拓展的市场结构和变...

2016-05-30 18:08:00 729

转载 Pandas 学习笔记

注：该文是上了开智学堂数据科学基础班的课后做的笔记，主讲人是肖凯老师。数据操作数据整理和 Pandas数据整理是数据分析之前必要的工作。数据整理包括：数据的基本清洁。如气温数据后面带摄氏度标志 ℃，这时可能需要把符号 ℃ 去掉。数据的拆分合并。有些数据只需要一部分子集，或者需要合并两个不同的数据源。数据转换。如把华氏度转成摄氏度，或者把连续值转成离散值。数据构造。有时需...

2016-05-30 18:04:00 375

转载 Matplotlib 练习题

1. 绘制一个二维随机漫步的图形直接上代码：%pylab inlinensteps = 1000draws = np.random.randint(-1,2,size=(2,nsteps))walks = draws.cumsum(1)plot(walks[0,:],walks[1,:]);Populating the interactive namespace from ...

2016-05-27 11:00:00 821

转载 Matplotlib 学习笔记

注：该文是上了开智学堂数据科学基础班的课后做的笔记，主讲人是肖凯老师。数据绘图数据可视化的原则为什么要做数据可视化？为什么要做数据可视化？因为可视化后获取信息的效率高。为什么可视化后获取信息的效率就高？因为人眼是个高带宽的巨量信号输入并行处理器，具有超强的模式识别能力，对可视符号的感知速度比对数字或文本快多个数量级，而可视化就是迎合了人眼的这种特点，才使得获取信息难度大大降低...

2016-05-27 10:57:00 236

转载 Numpy 练习题

1. 使用循环和向量化两种不同的方法来计算 100 以内的质数之和。先定义个判断质数的函数。ps：纯手工打造，原生态，哈哈。def checkprime(x): if x<=1: return False; prime=True; for i in range(2 , 1+x/2): if x%i == 0: ...

2016-05-17 01:17:00 396

转载 Numpy 学习笔记

Numpy 基础Numpy 是 Python 科学计算的基础，学会如何创建、读取、更改向量数据。创建向量有许多方法，举例说明：import numpy as npprint(np.array([2,3,4])) # 可以从列表转换而来，np.array 会尝试为数组推断出一个较为合适的数据类型[2 3 4]print(np.zeros( (3,4) , dtype=np....

2016-05-17 00:32:00 375

转载使用 R 语言挖掘 QQ 群聊天记录

1、获取数据从 QQ 消息管理器中导出消息记录，保存的文本类型选择 txt 文件。这里获取的是某群从 2016-04-18 到2016-05-07 期间的聊天记录，记录样本如下所示。消息记录（此消息记录为文本格式，不支持重新导入）================================================================消息分...

2016-05-16 12:48:00 184

转载数据分析练习题

练习 1：图解中国人的生活水平变化你认为应该用什么样的数字来度量中国人的生活水平变化？先来瞎想下，哪些方面能体现人们的生活水平变化？从物质层面上说，吃饱穿暖了，吃肉喝酒不是问题了，开上车了，开上好车了，住上好房子了，超市、商场物品极大丰富，饭店、宾馆、租车店等各种服务应有尽有，遍地开花，从精神层面上说，电视节目五花八门，无所不包，电影作品层出不穷，网上论坛、博客、微博、微信大大促...

2016-05-07 23:13:00 254

转载在 Spark 中使用 IPython Notebook

本文是从 IPython Notebook 转化而来，效果没有本来那么好。主要为体验 IPython Notebook。至于题目，改成《在 IPython Notebook 中使用 Spark》也可以，没什么差别。为什么是 Spark？因为这两天在看《Spark 机器学习》这本书第 3 章，所以就顺便做个笔记。简单介绍下，IPython notebook 对数据科学家来说是个交互地呈...

2016-05-07 23:07:00 212

转载机器学习笔记—增强学习

本文介绍增强学习和自适应控制。在监督学习中，算法是要输出尽量模仿训练集中的标签 y，标签给每个输入 x 一个清楚的正确答案。与此不同，对于许多序列决策和控制问题，就很难对算法给出这种明确的监督。例如，如果要造一个四足机器人，并编程让它行走，起初我们并不知道让它行走的正确行动，所以也不知道怎么模仿学习算法给出明确的监督。在增强学习框架中，我给算法一个回报函数，告诉学习代理执行得好坏...

2016-04-27 10:46:00 193

转载机器学习笔记—独立成分分析

本文介绍独立成分分析（ICA），同 PCA 类似，我们是要找到一个新的基来表示数据，但目的就不一样了。鸡尾酒会问题：n 个人在一个 party 上同时说话，n 个麦克风放置在房间的不同位置，因为每个麦克风跟每个人的距离都不一样，所以它们记录的说话者重叠的声音也不一样。根据麦克风记录的声音，如何分离出 n 个说话者的声音呢？为形式化这个问题，我们想象有一些数据 s∈R 是从 n 个...

2016-04-26 08:53:00 153

转载机器学习笔记—主成分分析

在介绍因子分析时，我们把数据 x∈Rn 建模在 k 维子空间上，k<<n。我们假设每个点 x(i) 是这样生成的：先从 k 维高斯多元高斯分布中采样得到 z(i)，再通过计算 μ+Λz(i)将 z 映射到 n 维空间，给 μ+Λz(i)增加协方差噪声 ψ，得到 x(i)。因子分析是基于概率模型，参数估计使用了迭代式 EM 算法。本文介绍主成分分析方法，即 PCA，尝试...

2016-04-25 08:50:00 73

转载《用 Python 学微积分》笔记 3

《用 Python 学微积分》原文见参考资料 1。16、优化用一个给定边长 4 的正方形来折一个没有盖的纸盒，设纸盒的底部边长为 l，则纸盒的高为 (4-l)/2，那么纸盒的体积为：$$V(l)=l^2\frac{4-l}{2}$$怎样才能使纸盒的容积最大？也就是在 l>0,4-l>0 的限制条件下，函数 V(l) 的最大值是多少？优化问题关心的就是这样的...

2016-04-24 19:01:00 144

转载《用 Python 学微积分》笔记 2

《用 Python 学微积分》原文见参考资料 1。13、大 O 记法比较两个函数时，我们会想知道，随着输入值 x 的增长或减小，两个函数的输出值增长或减小的速度究竟谁快谁慢。通过绘制函数图，我们可以获得一些客观的感受。比较 x!、ex、x3 和 log(x) 的变化趋势。import numpy as npimport sympyimport matplo...

2016-04-23 02:19:00 188

转载《用 Python 学微积分》笔记 1

《用 Python 学微积分》原文见参考资料 1。1、多项式f(x)=x3-5x2+9def f(x): return x**3 - 5*x**2 + 9print f(3)print f(1)import numpy as npx = np.linspace(-5, 5, num = 100)y = f(x)import m...

2016-04-21 22:09:00 283

转载机器学习笔记—因子分析

如果数据 x(i)∈Rn是来自混合高斯分布，那么可用 EM 算法来拟合混合模型，但假设前提是有足够的数据，我们能发现数据中的多高斯结构，这就要训练数据集大小 m 远大于数据维度 n。如果 n>>m 呢？那就很难对数据建模，即使是一个高斯。m 个数据点只能在低维度空间，如果要把数据建模为高斯分布，用极大似然估计来估计均值和协方差：我们会发现Σ 是奇异矩阵。例如当...

2016-04-19 16:13:00 379

转载机器学习笔记—EM 算法

EM 算法所面对的问题跟之前的不一样，要复杂一些。EM 算法所用的概率模型，既含有观测变量，又含有隐变量。如果概率模型的变量都是观测变量，那么给定数据，可以直接用极大似然估计法，或贝叶斯估计法来估计模型参数，但是，当模型含有隐变量时，情况就复杂一些，相当于一个双层的概率模型，要估计出两层的模型参数，就需要换种方法求解。EM 算法是通过迭代的方法求解。监督学习是由训练数据 {(x(...

2016-04-18 19:25:00 130

转载在阿里云上搭建 Spark 实验平台

之前在自己的笔记本上运行 Python 代码，有些要运行一天多，一关机就前功尽弃，很不方便，所以才有租用阿里云服务器的想法，用了同学租的一台用了两天又觉得不够使，索性就自己租了三台，配置如下，三台一共约 320 块。CPU：1核内存：2048 MB操作系统：Ubuntu 14.04 64位带宽计费方式：按固定带宽当前使用带宽：1Mbps实例规格：ecs...

2016-04-17 22:27:00 315

转载机器学习笔记—混合高斯和 EM 算法

本文介绍密度估计的 EM(Expectation-Maximization，期望最大)。假设有 {x(1),...,x(m)}，因为是无监督学习算法，所以没有 y(i)。我们通过指定联合分布 p(x(i),z(i))=p(x(i)|z(i))p(z(i)) 来对数据建模。这里 z(i)~Multinomial(Φ)，其中Φj≥0，Φ1+Φ2+...+Φk=1，参数Φj 给定 ...

2016-04-08 16:56:00 130

转载机器学习笔记—K-均值聚类

在聚类问题中，给定训练集 {x(1),...,x(m)}，要把数据分成内聚的“簇”。这里 x(i)∈R，没有 y(i)。所以，这是一个无监督学习问题。k-均值聚类算法如下：1、随机初始化簇中心μ1,μ2,...,μk∈Rn；2、重复直至收敛：{对每个 i：对每个 j：}其中 k 是簇个数，簇中心 μj表示猜测的簇中心位置，初始化簇中心时，随机选择 ...

2016-04-08 16:18:00 105

转载机器学习笔记—感知机

在学习理论的最后，我们介绍一种不同的机器学习模型。之前介绍的都是批学习，先从训练集合中学习，再在测试集上评估。本文介绍的是在线学习，边学习边预测。给定学习算法一个序列例子 (x(1),y(1)),(x(2),y(2)),...,(x(m),y(m))，算法先遇到 x(1)，然后预测 y(1) 是什么，做了预测后，y(1) 的真实值会给算法，算法使用这个信息来执行学习。然后给算法 x(...

2016-04-08 15:34:00 96

转载机器学习笔记—正则化和模型选择

如果针对某个学习问题，从众多模型中选择一个模型，能够在偏差和方差中做一个平衡，怎么样才能自动选择呢？例如，使用多项式回归模型 h(x)=g(θ0+θ1x+θ2x2+...+θkxk)，想自动决定 k 的值，在 0~10 之间选择。再比如，要自动选择局部权重回归中的带宽参数τ，或者 L1 正则化 SVM 的参数 C，怎么做呢？设有有限个模型 M={M1,...,Md} 供选择，例如在...

2016-04-08 09:43:00 96

转载机器学习笔记—学习理论

下面三张图的模型分别是：y=θ0+θ1x，y=θ0+θ1x+θ2x2，y=θ0+θ1x+…θ5x5。第一幅图和第三幅图都有很大的泛化误差，但它们的问题是不一样的。第一幅图的问题是欠拟合，y 和 x 的关系不是线性的，但我们非要用线性模型去拟合，即使有大量的训练数据，也不能精确捕捉到数据中隐藏的结构信息，这种情况被称为模型的偏差。第三幅图的问题是过拟合，使用五阶多项式来拟合数据，就...

2016-04-06 09:24:00 65

转载 Kaggle 项目之 Digit Recognizer

train.csv 和 test.csv 包含 1~9 的手写数字的灰度图片。每幅图片都是 28 个像素的高度和宽度，共 28*28=784 个像素点，每个像素值都在 0~255 之间。train.csv 包含 785 列，因为第 1 列是手写数字的真实值，后面的 784 列都是像素值。除第一行外，有 42000 条数据。test.csv 除了不包含 label 列，其它跟 tr...

2016-04-05 23:19:00 249

转载机器学习笔记—支持向量机（3）

线性不可分的线性支持向量机的学习问题为如下的凸二次规划问题（原始问题）：这是个凸二次规划问题，所以关于 {w,b,ξ} 的解释存在的。可以证明 w 的解是唯一的，但 b 的解不唯一，存在于一个区间。设该问题的解是 w*、b*，于是得到分离超平面 w*·x+b*=0 及分类决策函数 f(x)=sign(w*·x+b*)。构建拉格朗日函数：其中 αi和 ri是拉格朗日...

2016-04-01 09:49:00 159

转载机器学习笔记—支持向量机（2）

第一次看Andrew Ng 的支持向量机讲义时，没看懂核概念，后来想可能是因为讲义从映射函数 Φ(x)到核函数 K(x,z) 跳得太快了吧。在讲线性回归时，使用房屋面积来预测价格，房屋面积是 x，我们考虑过使用 x、x2、x3 来回归得到一个三次函数。使 Φ为映射函数，此处为x 向量只有一个元素，该映射也即把训练数据集 {(x(i),y(i));i=1,...,...

2016-03-31 15:03:00 108

空空如也

空空如也