自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

原创 智能营销增益模型(Uplift Modeling)的原理与实践
原力计划

文章目录增益模型因果与推论(Causal Inference)增益模型的表示差分响应模型(Two-Model Approach)模型优缺点差分响应模型升级版(One-Model Approach)Class Transformation MethodClass Transformation的两个假...

2020-04-18 09:49:16 1844 0

原创 Error解决:hive中的数组越界异常IndexOutOfBoundsException

在spark中执行sql语句有时会出现IndexOutOfBoundsException的错误,如下: File "/opt/cloudera/parcels/SPARK2-2.3.0.cloudera2-1.cdh5.13.3.p0.316101/lib/spark2/python/l...

2019-12-12 12:03:36 644 0

转载 nohup后台运行以及重定向标准输出和标准异常

nohup 加&是后台运行并把stdout输出到文件nohup.out中。其实&是后台运行的命令。 一般都是在linux下nohup格式: nohup command_line 或者 nohup command_line & 不带&的命令是在前台运行,按下ctr+c...

2019-10-17 09:59:29 567 0

原创 机器学习中正则化项L1和L2的直观理解

正则化(Regularization) 机器学习中几乎都可以看到损失函数后面会添加一个额外项,常用的额外项一般有两种,一般英文称作ℓ1ℓ1\ell_1-norm和ℓ2ℓ2\ell_2-norm,中文称作L1正则化和L2正则化,或者L1范数和L2范数。 L1正则化和L2正则化可以看做是损失函数的...

2019-03-02 11:15:39 227691 138

原创 Logistic Regression逻辑回归的损失函数与梯度下降训练

有一篇博文提到logistic regression的简单理解(Logistic Regression逻辑回归的简单解释)。逻辑回归实际上是odds取对数后的反函数,其函数形式也成为sigmoid function,sigmoid的原义为『像S的形状』。文中最后给出了逻辑回归的表达式: h(α)=...

2019-02-24 23:14:30 2250 0

原创 点击率预测的贝叶斯平滑

概述 电商领域中经常需要计算或预测一些转化率指标,如最典型的CTR(点击率,Click-Through Rate)。这些转化率可以是模型的预测值,也可以作为模型的特征(feature)使用。以商品点击率预测为例,CTR的值等于点击量(Click)除以曝光量(Impression或Exposure...

2017-10-24 20:42:39 14403 5

原创 计算高斯混合模型的可分性和重叠度(Overlap Rate, OLR)

简介本文章实现了Haojun Sun提出的一种计算高斯混合模型(GMM)重叠率的方法(论文:Measuring the component overlapping in the Gaussian mixture model)。这篇文论提出的方法可以计算任意两个混合高斯分布之间的重叠度。关于高斯混合...

2017-05-18 15:44:36 5193 2

原创 基于Smadja算法的搭配词自动提取实践

搭配词(collocation) 广义而言,搭配词(collocation)是指两个或多个词一招语言习惯性结合在一起表示某种特殊意义的词汇。搭配词在不同的研究领域上又不同的解读,尚未有一致性的定义。大概的意思就是词语的习惯搭配了,就是学英语时老师一直拿来搪塞我们的那种『习惯搭配』。比如sit i...

2017-03-10 18:38:54 3474 0

原创 高斯混合模型(GMM)及其EM算法的理解

一个例子高斯混合模型(Gaussian Mixed Model)指的是多个高斯分布函数的线性组合,理论上GMM可以拟合出任意类型的分布,通常用于解决同一集合下的数据包含多个不同的分布的情况(或者是同一类分布但参数不一样,或者是不同类型的分布,比如正态分布和伯努利分布)。如图1,图中的点在我们看来明...

2017-03-02 18:43:36 167501 98

原创 在google map上显示Instagram的照片

之前Instagram有一个在地图上显示照片的功能,可惜后来这个功能去掉了。INS的官方说法是因为这个功能的使用率很低,因此最后舍弃了这个功能。其实我觉得这个功能还蛮好的,看到自己的照片遍布全世界很有成就感啊!实验室的同学也觉得这个去掉这个功能很可惜,大家都看不到自己去过哪里了。于是同学做了一个网...

2017-01-01 23:33:53 3296 0

原创 贝叶斯参数估计的理解及其在电商算法中的应用

极大似然估计贝叶斯估计是参数估计中的一种方法,以贝叶斯思想为基础,而贝叶斯思想在机器学习中经常用到。机器学习中常涉及贝叶斯网络,最终的问题都是转化为参数求解。贝叶斯参数估计是这些问题的基础版本。前方高能预警,本文的讲解比较理论。实际问题中我们会有很多数据,比如一篇文章中每个单词的词频等。我们得到的...

2016-12-03 13:51:54 13198 0

原创 Python多进程库multiprocessing中进程池Pool类的使用

multiprocessing模块提供process类实现新建进程,可以在Python中實現並行的效果。

2016-09-04 18:27:21 46742 7

原创 基於MySQL+PHP的羽毛球費用查询网站设计

基于MySQL+PHP的羽球费用查询网站

2016-08-26 17:20:56 1231 0

原创 Logistic Regression逻辑回归的简单解释

Logistic Regression也叫Logit Regression,在机器学习中属于参数估计的模型。逻辑回归与普通线性回归(Linear Regression)有很大的关系。在应用上,它们有所区别: 普通线性回归主要用于连续变量的预测,即,线性回归的输出yy的取值范围是整个实数区间 逻辑回...

2016-08-26 11:45:15 24108 5

原创 Spark在文本统计中的简单应用

一个Saprk应用是b运行包含了一个在用户定义的main函数中的驱动程序(driver program),然后在集群(cluster)上并行执行各种操作。driver program由SaprkContext对象定义,所以要使用Spark首先要用SparkContext创建一个driver pro...

2016-08-22 22:46:31 5402 0

原创 Multivariate Linear Regression的参数估计

多元线性回归簡介

2016-07-17 12:27:39 1400 0

原创 贝叶斯分类器用于文本分类: Multinomial Naïve Bayes

简介 贝叶斯分类器是基于贝叶斯理论的分类器,在NLP(自然语言处理)领域有着广泛的应用,如垃圾邮件检测,个人邮件排序,文本分类,色情内容检测等等。由于贝叶斯分类器是基于贝叶斯理论的,因此使用该分类器时有一个基本假设,即:数据的各特征之间是条件独立的。 假设数据集 D={d1,d2,.....

2016-06-27 22:35:16 8375 2

原创 码农改代码

之前在公司工作时从事Windows下的C++开发,IDE当然就是使用Microsoft Visual Studio,为了和VS配套,部门使用的版本控制软件是Visual SourceSafe. 工作期间参与了多个项目,改了数不清的bug,拥有绝大部分代码的存取权限。下图是2011年某个假期我取到了...

2016-03-22 01:00:39 908 0

原创 利用Networkx分析历年数学家间继承关系与数学学科发展

Mathematics Genealogy Project是一个面向网络收集数学家家谱资讯的网站。网站上资料来源于该项目自身搜集与网友提供。资料包括数学家的学生,数学家的导师,毕业年份,毕业学校,国籍,研究领域等。目前收集到的资料将近20万笔,并且还在不断增加中。我们从该网站上抓取所有(实际上并不...

2016-01-17 16:51:27 3158 0

原创 Python中使用PhantomJS抓取Javascript网页数据

有些网页不是静态加载的,而是通过javascirpt函数动态加载网页,比如下面这个网页,表格中的看涨合约和看跌合约的数据都是通过javascirpt函数从后台加载。仅仅使用beautifulsoup并不能抓到这个表格中的数据。 查找资料,发现可以使用PhantomJS来抓取这类网页的数据。但Ph...

2015-07-01 17:08:22 8835 6

原创 使用OpenExif修改jpeg图片信息

目前的手机是小米手机,使用两年多里面总共存储了将近4000张照片。拍摄时系统会记录当时拍摄的时间,这个拍摄时间会记录在jpg文件的exif数据结构中,windows系统下右键单击文件可以看到这个时间。但是不知什么原因有一些照片的拍摄时间都变成了2002年12月8日,然而照片文件的命名还是按照当时实...

2015-05-01 12:43:45 4688 2

原创 C++生成一个随机网络

这是社会网络管理与分析课程的作业。老师要求模拟随机网络的连接过程,画出小世界态变(大陆说的是质变?)的曲线。在随机网络生成过程中,最大连通分支结点数占所有结点数的比例会随着所有结点平均连接边数而变化。最开始,这种变化非常不明显,但是当所有结点平均连接边数达到1时,最大连通分支结点数占所有结点数的比...

2015-05-01 11:27:41 1745 0

原创 小世界网络——利用Networkx分析武汉公交网络

这是社会网络管理与分析的作业。老师要求每组各举一个小世界网络的例子。因为以前刚好下载过武汉公交路线的数据,因此我们组讲的是这个示例。小世界网络的定义和性质可以参考wiki百科:小世界网络如果一个网络满足: - 其平均聚集系数远大于在同一个顶点集合中构造的随机图的平均聚集系数; - 并且,其...

2015-04-30 10:21:14 5410 7

原创 武汉市公交站点区域性分析

有段时间没有骑车上下班,坐公交的时候就时常想武汉一共有多少条公交线路,一共有多少个公交站点,哪些公交站点比较好转车之类的问题。刚好那时候看了一篇分析北京地铁站区域性优劣分析的帖子,于是想武汉是不是也可以顺带做一下分析呢。武汉地铁不多,可以做公交的分析。先利用百度地图API获取武汉市的公交信息,主要...

2015-04-30 09:53:33 2109 0

提示
确定要删除当前文章?
取消 删除