自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(49)
  • 资源 (3)
  • 收藏
  • 关注

原创 NLP with python 3 处理原始文本

1、从网络和硬盘访问文本>>> from urllib import urlopen>>> url = "http://www.gutenberg.org/files/2554/2554.txt">>> raw = urlopen(url).read()>>> type(raw)>>> len(raw)288>>> raw[:100]'\n\n403 Forbi

2013-02-20 15:04:14 2198

原创 NLP with python 2 获取文本语料和词汇资源

1、获取文本语料库for fileid in gutenberg.fileids():num_chars = len(gutenberg.raw(fileid));num_words = len(gutenberg.words(fileid));num_sents = len(gutenberg.sents(fileid));num_vocab = len(set([w.low

2013-02-01 17:49:20 3528

原创 NLP with python 1 语言处理与python

1.1语言计算 文本和单词>>> from __future__ import division>>> 1/30.33333333333333331>>> import nltk>>> from nltk.book import *>>> text2.concordance("world")Displaying 25 of 93 matches:

2013-02-01 15:24:41 2614

原创 简明pyton教程学习笔记 7-10 对象+输入输出+异常+标准库+更多内容

整数是int类的对象。self = this__init__ = 构造函数 __del__=解构函数直接定义的属于类,用self定义的属于对象。所有的类成员(方法和数据)都是公共的。如果你使用的数据成员名称以 双下划线前缀 比如__privatevar,Python的名称管理体系会有效地把它作为私有变量。如果某个变量只想在类或对象中使用,就应该以单下划线前缀。而其他的名称都将作

2013-02-01 09:00:05 2099

原创 计算广告课程小结

学完了,花时间把内容梳理了一下,再次感谢刘鹏和师徒网带来了这么好的课程!

2013-01-30 17:57:52 3474 3

原创 计算广告学习笔记 6.10 广告交易市场 广告流量交易方式

广告交易市场中的问题还没有形成系统的体系,所以主要介绍概念,算法和技术还不成定论。(对比:ctr 预测已经形成相关的体系了)CPT:最传统的方式,时间趋势是市场向demand方向发展,并且越来越侧重于程序购买

2013-01-24 10:57:23 2539

原创 计算广告学习笔记 6.9 广告交易市场 需求端推荐方法

2013-01-24 10:46:17 2387

原创 计算广告学习笔记 6.8 广告交易市场 dsp重定向

用于品牌广告:当用户访问一个高品牌价值的网站看到我以前看过的一个品牌,他就会觉得嗯,以前的那个品牌确实不错。用于直接广告:类似于推荐。个性化重定向:粒度是商品。没下单,激励下单,已下单,推荐相关。和推荐不同的是,推荐是按照上下文推荐,比如说前一个页看到,而这个主要是给user打标签基于内容的方法:类似于search的问题,主要用于内容比较丰富的情况,适合对新的item非

2013-01-24 10:17:48 4004

原创 简明pyton教程学习笔记 6-10 控制流+函数+模块+数据结构+解决问题

elif从句:它事实上把两个相关联的if else-if else语句合并为一个if-elif-else语句。在while循环中使用一个else从句。for..in是另外一个循环语句,它在一序列的对象上 递归,range(1,5,2)给出[1,3],,else部分是可选的。for或while循环中 终止 ,任何对应的循环else块将不执行。===============

2013-01-22 16:39:00 2033

原创 计算广告学习笔记 6.7 广告交易市场 DSP点击价值估计

估计点击价值的三个场景:1、DSP估计点击价值,原因就不用多收了,显而易见。2、广告网络:比如说在投广告的时候,我设置一个出价,需要知道这个价格能拿到多少量。3、智能定价:广告网络方需要对不同质量的流量估计一个相对的价值,方便对广告主打折(比如说上下文的5折,搜索引擎的全价)。挑战:数据少,而且要按照广告主的类型来分割数据。

2013-01-22 11:42:57 2756

原创 计算广告学习笔记 6.6 广告交易市场 DSP流量预测

出多少钱的bid,拿到多少流量开放的问题:如何利用历史投放数据估计流量?(没有公认的合适的方法)

2013-01-22 10:52:51 3881

原创 计算广告学习笔记 6.5 广告交易市场 需求方平台

技术在SSP的作为要小于DSP的作为,因为SSP(主要是提供各种借口,让市场转起来)InviteMedia公司:主要是把一堆ADX放在一起,提供一个通用的方式给广告主,收取固定的广告费用。MediaMath公司:优化广告主的ROI。对于DSP来说value 和 ctr都要估计,所以其计算是相当复杂的。Call out 优化问题:对于adx来说,把广告请求发给所有的D

2013-01-22 09:49:30 2816

原创 计算广告学习笔记 6.4 广告交易市场 供应方平台

供应方平台(Supply Side Platform)SSP对于媒体,有四种变现模式:1、大媒体,直接GD销售,变现能力最高(按天销售)2、分类流量后,按照GD销售(按CPM销售,target)3、流量托管给广告联盟4、RTBSSP等于是同时做这4个,先按天,余下的按照动态分配方式接入其他的三种,目的是为了收益统一管理(yield managment)。

2013-01-22 09:20:00 2648

原创 中央二台 超级保姆

无意中看到了这个节目,感觉对教育小孩不错。当宝宝不听话的时候:1、警告2、警告不管用的时候就按照年龄段罚坐(罚坐前告诉bb为什么罚坐)3、罚坐时是不和bb说话,当bb开溜,立即抓回来4、当罚坐时间到后,重申罚坐的理由5、让孩子道歉6、拥抱 kiss爸爸妈妈交流的一个办法:准备一个盒子,有什么事情,就写好放在盒子里。准备一个时间段,爸爸妈妈共同打开盒子

2013-01-21 18:39:30 3264

原创 NLP with python 笔记 前言

为了加速,偷懒看中文版了我的想法是一天按照四个课时的任务完成。

2013-01-21 16:15:05 1945

原创 简明pyton教程学习笔记 1-5 介绍+安装python+最初的步骤+基本概念+运算符与表达式

NLP中用python的越来越多,学学吧,主要内容摘抄自"简明python教程":http://woodpecker.org.cn/abyteofpython_cn/chinese/index.html,这本书能满足小小的虚荣心“哇,我这么快就看了这么多章了!”有两种方式构建软件设计:一种是把软件做得很简单以至于明显找不到缺陷;另一种是把它做得很复杂以至于找不到明显的缺陷。获得人生

2013-01-21 15:45:45 2584

原创 计算广告学习笔记 6.3 广告交易市场 cookie mapping

第一个例子:DSP和adExchange 之间进行Cookie Mapping,由DSP发起,在广告主控制的网站上发起,mapping表存在DSP端,目的是为了获取DSP cookie和Adx cookie之间的对应关系。当用户浏览含有DSP代码的网页的时候,网页向DSP提出询问请求,DSP cookie服务确认该网页用户的cookie很久没有更新过了,就向该页面提出我需要同步你的co

2013-01-21 14:48:55 7552

原创 计算广告学习笔记 6.2 广告交易市场 实时竞价

两个组成部分:cookie mapping 和 ad call(一堆DSP竞价广告位)cookie mapping :主要是为了从adx到dsp的一个映射,比如说京东要做一个活动,对象是京东的忠实用户,demand将这个需求提交给某个DSP,某个DSP是接受了京东的这个服务的,就需要将adx 的cookie 和DSP的cookie进行一个对应(比如说google广告网络的cookie A对应于

2013-01-21 10:34:06 4211

原创 计算广告学习笔记 6.1 广告交易市场 广告交易市场

这个市场的图可以概括整个讲课内容各种市场方面的形态,打印出来,慢慢琢磨。这个图从技术结构上可以描述整个讲课的内容,打印出来,慢慢琢磨。这次主要介绍广告交易市场:RTBS(Real Time Bidding Supply)RTBD(Real Time Bidding Demond)Customized audience segmentation说白了,就是以前的广告都是从

2013-01-21 08:31:33 2609

原创 计算广告学习笔记 5.4 搜索广告与demand技术 广告购买平台

SEM=搜索广告的优化每次投放的应该的价格应该是变动的,不是一成不变的。也就是说,对每个选定的关键词的出价应该都是在变动的,这样才能够保证ROI的最大用技术和算法的力量帮广告主程序采买(选词和出价)。Portfolio Optimization :金融领域的一个词(投资组合理论),就是说有一堆股票,每个股票有期望的收益和期望的风险,很多股票间有相关的联系。现在有一组篮子,如何

2013-01-17 20:19:23 1845

原创 计算广告学习笔记 5.3 搜索广告与demand技术 流式计算平台

流式平台和hadoop的区别,hadoop主要是调度计算而非调度数据,正好相反。

2013-01-17 11:00:45 1124

原创 计算广告学习笔记 5.2 搜索广告与demand技术 搜索广告

扩展后的价值一般要低于扩展前的价值让每个人竞价的范围扩大,相互竞争的可能性加大,有利于整个市场的收入增加。搜索的个性话可能会导致用户的反感。显示广告主要用的是f(u)S4:数据的精准性要求比较低,追求大吞吐量Storm:精准度比较高,可能一条日志在Storm中多次处理,有磁盘交互

2013-01-17 10:00:53 737

原创 计算广告学习笔记 5.1 搜索广告与demand技术 探索与利用

探索未知的组合,利用探索的结果来提高ECPMMulti-arm Bandit(MAB):老虎机有很多扳手(广告),你该花钱扳哪个扳手才能使得获得的收益最大。arm的期望收益是动态的,也就是说比如双十一的期望和其他时候的期望会不同。解决的问题:E&E该怎么选才合理策略1:也就是说选的次数足够多的话,不会一直选非最优的arms这张主要解决的问题是:非最优的上界一般非

2013-01-17 08:54:51 906

原创 计算广告学习笔记1.9 广告的基础知识-在线广告系统结构

RTBS:别人向我要广告retrieval后就是ranking,ranking的依据是ecpmSession log generation按照用户的相关行为生成一段时间内的日志Customized audience segmentation:男女,年龄等无法满足广告主的需求,(DSP)AE:投广告的人实际操作的系统RTBD:向别人要广告

2013-01-16 21:24:34 2502

原创 计算广告学习笔记1.8 广告的基础知识-ROI 分析

eCPM:预期每次展示所内带来的价值CPM:媒体最喜欢的变现模式,放心,非常适合于品牌广告,因为无法通过点击率实现。CPC:CTR,google很容易估计;click value,广告主比较熟悉,所以CPC是比较合理的(广告网络估计CTR,广告主估计click value)。CPA:每次转化计费,难点一个在于click value广告网络不好估计,另一个在于造假(交易量)骗展示(没人买

2013-01-16 21:05:24 1206

原创 计算广告学习笔记1.7 广告的基础知识-广告搜索与推荐的区别

这里的Downstream的意思就是说,广告是点击结束,基本就结束了,优化的是点击的过程,但是对于推荐来说,推荐一个,点击这个,接着又有新的推荐,也就是说优化的话是优化整个推荐的流程。

2013-01-16 20:50:08 754

原创 计算广告学习笔记1.6 广告的基础知识-计算广告核心问题和挑战

-强化学习:探索与利用(新广告和用户的哪种组合比较好,试的过程中会损失一定的收入)-候选查询:实时索引(广告不断添加进index,不断被移除)-特征存储:No-sql技术(特征量很大)-在线学习:很短的反馈,比如说上一次的搜索内容

2013-01-11 11:28:32 857

原创 计算广告学习笔记1.5 广告的基础知识-在线广告市场

Demand = 需求方,广告主Supply = 供给方 媒体Agency代理->Ad servers 广告投放工具,受众定向情况下广告投放的引擎->Ad network(一些零散流量变现)->media buying platform(从ad network中代表demand去买流量的公司)->ad exchange 广告交易市场(代表supply方)->DSP(代表demand方的对应

2013-01-11 11:06:04 1491

原创 计算广告学习笔记1.4 广告的基础知识-在线广告的特点

Banner的点击率虽然降低了,但是点击率不是广告的唯一衡量标准。美国广告行业协会:-iab(供给方媒体的利益(供给方 = supply),把线下广告尽可能搬到线上,制定衡量标准,创意标准)-4A(传统广告代理的协会,代理费用收取的约定)国内,广告代理一般不从广告主收取代理费,一般收取媒体的返点,存在的问题,更多代理代表媒体的利益,更少代表广告主的利益(尽可能让广告主把所有的广

2013-01-11 09:24:19 722

原创 计算广告学习笔记1.3 广告的基础知识-广告与营销的区别

SEM=搜索广告 广告关注的是潜在用户,营销关注的是直接用户

2013-01-11 08:47:12 764

原创 计算广告学习笔记1.2 广告的基础知识-广告的有效性模型

曝光(exposure)-> 关注(attention)->理解(comprehension)-> 信息接受(message accptance) -> 保持(retention)->购买(purchase)(广告位的天然属性)(进入脑子)       (理解门槛)                        (是否认同,广告位认可度)         (艺术性,记忆效果)(用户敏感价格范围

2013-01-11 08:35:16 1070

原创 计算广告学习笔记1.1 广告的基础知识-广告的目的

-品牌广告(Brand Awareness):创出良好的品牌形象,目的长期的离线转化率。-效果广告(Direct Response):短期内明确用户转化行为诉求的广告。

2013-01-11 08:13:35 931

原创 计算广告学习笔记 4.7竞价广告系统-逻辑回归优化方法介绍

BFGS收敛速度很快。工程上由于特征很多,并且各个特征情况不同,工程问题经常是病态的,难以短时间内用普通的一阶梯度法找到最优解。在这种情况下,只能用二阶导的方法(Hession阵),要求Hession是正定的。BFGS就是尽量保证Hession的正定性。L-BFGS 解决BFGS在空间复杂度上存在的问题,所以在工程上对逻辑回归(最大熵)使用L-BFGS是必然的方法。AD

2013-01-10 11:23:24 1622

原创 计算广告学习笔记 4.8竞价广告系统-动态特征

静态feature:年龄=15, 广告类型= 电商广告 简单的1或者0动态feature:在某些组合维度上聚合历史行为,作为CTR预测的特征,可以看做是只知道两个维度上对CTR的估计,将估计作为逻辑回归的输入。feature上的一个方案一定对应一个模型上的解决方案,对广告工程而言,变feature比变model容易(这句话比较有意思)在组合维度方面,越精细的东西统计性一般就不高

2013-01-10 09:40:13 1151

原创 计算广告学习笔记 4.6竞价广告系统-点击率预测与逻辑回归

回归(具体到一个数值)比单纯的按照点击率排序好的,因为使用的不仅仅是CTR:1、比如说对广告网络而言,广告的排序,使用的是ECPM = CTR*bid2、对于DSP(demand service platform)而言,出价= CTR*click value动态特性一方面可以通过选取动态的特征来解决,也可以通过动态调整模型的参数来解决

2013-01-09 11:39:51 2934

原创 计算广告学习笔记 4.5竞价广告系统-zookeeper介绍

zoo keeper 在index和ad serve 里用的都很多。比如说在index或者ad serve中,很多台机器,某些机器加入,或者某些机器掉线,就需要这样的分布式管理系统通知相关的模块,哪些是可以用的。Paxos解决(一个两段式的方法,思想很有意思,在处理分布式的时候可以借鉴):在分布式的环境下,怎么分布式的去决策一些变量的值,同时使得大家得到的状态都一致。Zookeep

2013-01-09 11:10:51 742

原创 计算广告学习笔记 4.4竞价广告系统-流量预测

合约广告的主要组成部分:流量预测、CTR预测、受众定向,在三个基础上进行online Allocation。Query就是前面的DNF

2013-01-09 10:49:04 2224

原创 计算广告学习笔记 4.3竞价广告系统-广告检索

对于GD的广告商比较少,所以不需要广告检索,但在广告网络中广告商数量非常大,就需要检索了。广告的检索有两点是在普通搜索之外的,下面探讨,一个是布尔表达式检索的方式,另一个是长query的处理其中讨论的Doc就是广告,说白了也就是广告商提出的一组条件。下面是GD里面广告商做广告检索的方法每个Conjunction就是对于某条广告广告主的要求的一类人群。sizeof(Con

2013-01-09 10:15:29 980

原创 计算广告学习笔记 4.2竞价广告系统-广告网络概念

淡化广告位的概念,出售的是人群。(如果按照CPM收费的话,广告联盟不同网站的广告位千差万别,广告主无法估计该出的价格,所以不合理,只好CPC)不支持定制化的用户划分,比如说某个广告主想购买有去日本旅游的人群,就需要break down为key words,但是这样效果未必好,但是如果是获取近期访问过携程有搜索过日本的用户的话,效果应该会更好,广告网络部支持这种定制化,但是定制化是今后的趋势。

2013-01-08 10:46:16 809

原创 计算广告学习笔记 4.1竞价广告系统-位置拍卖理论

竞价广告系统(有关键词的,也有display的)属于只保质不保量的方式(可以控制每个impression的ROI,但是无法保证量,量可以交给demand方面的公司做)。u_as 为收益,研究重点为系统达到平衡时的状态。p_s为排在s位置上收钱量。对称说明排在这个位置靠上不行,排在靠下也不行(大概的直观了解就可以了)理论上VCG定价机制最优,每个广告主会按照自己的真实情况

2013-01-08 09:50:42 1129

Access mdb 转 sqlite 数据库java代码

能够完美的解决从mdb转到sqlite中文乱码的问题!

2012-07-06

libsvm官方使用说明

libsvm的官方使用说明,就几页,都是实例,数据在文档指定地方可以下载到,看完保证能上手

2010-07-25

自然语言绝对经典《统计自然语言处理基础》

自然语言的绝对经典,据说是google公司技术人员必读书籍,非常实用!

2010-07-02

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除