数据挖掘
poson
搞过图像处理感觉刚入门做搜索引擎只玩过单机版广告技术做了QueryRewrite目前做推荐算法感觉推荐算法和关键词推荐本质上是一样的爱数学爱计算机爱生活
展开
-
读取txt中的字段key,然后编号再输出
import pandas as pdsep="|"def read_key(dict_key, arr_fileld, idx=[]): if len(idx) == 0: return for index in idx: keys = arr_fileld[index].split(",") for key in keys: if key not in dict_key: di.原创 2020-06-21 14:52:50 · 398 阅读 · 0 评论 -
搜索引擎算法之关键词类目预测
在搜索算法中,关键词类目是非常重要的一个话题,是搜索排序中的一个重要模块。搜索排序可以可以简单的分成几个模块:文本相关性、质量分、转化率。文本相关性可以由粗到细分解为类目相关性、属性相关性、语义相关性几个部分。本文重点解析一下类目相关性。例如用户搜索“连衣裙”,最相关的类目是“女装-连衣裙”、“童装-连衣裙”。而其他类目中包含连衣裙就不是那么相关,例如帽子类目的商品“适合沙滩连衣裙的帽子”。所...原创 2019-04-29 13:48:29 · 3884 阅读 · 0 评论 -
开源报表工具 Metabase 使用技巧-日期筛选实例
很多公司都有大量的数据,要把这些数据做出报表无疑需要大量的时间。虽然有EChart之类的图表工具,无奈开发成本还是太高。 用BDP、Tableau 之类的软件,需要花钱买账号不说,数据安全也不好保证。因此一个开源的数据报表工具就显得非常重要。目前我们开始使用MetaBase这样的工具。 Metabase为什么好用呢?我们看中了它的几大原因。 1、可...原创 2018-06-26 19:51:17 · 13151 阅读 · 7 评论 -
中文维基百科word2vec训练及其代码
参考文章:中英文维基百科语料上的Word2Vec实验数据来自:https://dumps.wikimedia.org/zhwiki/latest/zhwiki-latest-pages-articles.xml.bz2繁体转为简体: opencc -i zhwiki.txt -o zhwiki.txt.simle -c zht2zhs.ini先把文件拆分为多个文件:split -l 3000原创 2018-01-05 13:22:30 · 861 阅读 · 0 评论 -
Sigmoid 函数和 Tanh 函数的区别
Sigmoid 函数和 Tanh 函数的区别。图形用Mac 下Grapher软件来画出:原创 2017-04-02 20:01:52 · 6279 阅读 · 0 评论 -
车品觉 : 数据十诫
车品觉 : 数据十诫数据十诫…… 当下1、好的问题、答案就在里面2、在实践中提炼数据3、让数据变成Technology,Enable更多人4、让数据跟着“人”走5、木有数据质量,神马数据都是浮云6、以假设数据都能获取去思考问题。7、大数据安全、不是监管8、利用数据拿到更有用的数据9、建立数据的数据,才有进步10、让人做人擅长的事、让机器做转载 2015-07-03 17:49:36 · 2278 阅读 · 0 评论 -
《统计学习方法》阅读笔记
这本书一共235页,写了10个算法,可见每个算法都介绍的篇幅不长,貌似每个算法该讲的都讲了。详细看了一章最大熵,发现其实都是对已有文献的翻译,其中的部分符号修改了,更加通俗易读。不过翻译的非常好,是目前国内翻译的最好的吧。 最大熵的举例来自论文《A Maximum Entropy Approach to Natural Language Processing原创 2012-04-24 09:51:12 · 3346 阅读 · 3 评论 -
推荐系统数据稀疏性问题
对于目前大规模的电子商务平台,如淘宝、ebey,其用户、商品数量都非常大。淘宝数据显示,2010年淘宝网注册用户达到3.7亿,在线商品数达到8亿,最多的时候每天6000万人访问淘宝网,平均每分钟出售4.8万件商品。假如我们要做User-Item的协同过滤算法,那么U-I矩阵大小是6000万 ×8亿。在这个数量级上面做协同过滤,即使用hadoop,计算起来也非常吃力,效果也比较差。让我们看看为什...原创 2012-05-03 09:16:54 · 30398 阅读 · 0 评论 -
Keyword Generation for Search Engine Advertising
关键词推荐的方法: (1)meta tag spider: 通过抓取各种网站的meta数据,把这些mata数据综合在一起,做关键词推荐。 这种方法适合于没有日志的初始网站。 (2)google adwords tool (共同的广告点击): 通过 query log 挖掘关键词。当搜索关键词“A”出了广告x,那么其他关键词也能够出广告x,原创 2011-04-26 08:07:00 · 916 阅读 · 0 评论 -
震惊!-- CSDN对推荐系统算法的漠视
互联网海量用户和海量信息面前,信息不再是稀缺的事物,反而出现了信息过载。当大量的信息摆在我们面前的时候,把哪些信息给我们的用户就是一个非常重要的问题了。根据用户的profile,用户最近的浏览记录,或者根据用户当前访问的网页做出推荐就是重要的问题。推荐系统对于提高网站的用户体验,提高网站PV是一个非常重要的问题。 广告对应互联网企业来说是非常重要的。当前googl原创 2012-03-15 20:00:09 · 1350 阅读 · 4 评论 -
tagging笔记
tag可以标注在users,photos,articles,bookmarks,products,blog entries等等。用term 向量可以表示metadata,每一个term或者tag都是向量中的一维。向量中所有的term集合就是词表。user 和item都用tag来表示,那么就可以计算user和item之间的相关性。可以使用BM25算法?使用tag可以对user之间做关原创 2012-04-01 08:45:54 · 843 阅读 · 0 评论 -
Query Recommendation using Query Log in Search Engines
背景:论文作者是Ricardo baeza-Yates,此人是率先研究关键词推荐的人物之一。当时还在 University of Chile 的Web Research 中心,后来去了yahoo研究院,领导在 Barcelona, Spain and Santiago的yahoo研究院。Ricardo baeza的主页:http://www.dcc.uchile.cl/~rba原创 2012-03-31 20:02:40 · 1288 阅读 · 0 评论 -
Karhunen-Loeve Transform (KLT, KL变换)
酉矩阵http://zh.wikipedia.org/wiki/%E9%85%89%E7%9F%A9%E9%98%B5 在晶体学里,酉变换叫做幺正变换,也就是将空间(可以是任意维的)中一组基矢做一个旋转操作,不改变矢量的大小和内积。而在量子力学里面,这个用处就更大了,本质上就是量子力学所说的表象变换。是连接两个表象的桥梁。 酉矩阵可以对原始向量数据做一个旋转。原创 2009-11-20 19:14:00 · 6417 阅读 · 1 评论 -
内容发现产品
目前网络的内容越来越多,用户面临的是海量的信息,而用户对信息不熟悉的情况下,要找到优质的内容是非常困难的。目前有很多互联网产品关注优质内容的组织和展示。更进一步通过推荐算法,为不同的用户推荐不同的内容。如蘑菇街、一淘发现、新浪发现、淘宝爱逛街等等。不过这种应用非常消耗流量,如果通过算法,在尽可能少的展现次数,为用户提供需要内容,可以减少一些流量的消耗。第一个问题是如何自动获取优质的内容。简单的原创 2012-03-29 19:17:29 · 970 阅读 · 0 评论 -
Random Walks on the Click Graph
这是一篇微软剑桥研究院的文章。在搜索引擎领域,有几大公司和研究院产出了大量论文。论文最多的是“yahoo ! research”,其次可能就是 mircosoft Research和google research。在国内,搜狗实验室靠近清华,因此有大量的清华学生也写了很多论文。以此对比的是,百度、qq、阿里却很少产出相应的论文。或者是他们的论文,我没有读到吧。 基于有向图原创 2012-03-29 09:40:07 · 3157 阅读 · 0 评论 -
搜索引擎算法之查询(Query)
1.Query的数据分析 Query即用户在搜索引擎输入查询条件。在通用搜索引擎中,一般是指输入的关键词。而在各类行业或者垂直搜索引擎,还可以输入类目,如优酷网站中可以选择“电影”、“电视剧”这样的类目。在电子商务网站中,各种产品品牌、型号、款式、价格等也是常见的查询条件。 要分析query中每个term的内容,分词是必不可少的工具。分词算法从最简单的最大正向、最大反向分词算法,...原创 2012-03-13 08:45:53 · 9710 阅读 · 2 评论 -
中文推荐相关论文阅读笔记
《个性化推荐服务中用户兴趣模型研究》这完全是一个空想的论文。主要是要获取用户的兴趣分类。用户兴趣包括用户浏览的网页,以及对每个网页的兴趣度。基本上就是:对网页的兴趣做聚类。用户的浏览时间和下拉框点击次数,要统计比较难。 2.《基于大规模日志分析的网络搜索引擎用户行为研究》 搜狗的搜索引擎查询日志作为基础。统计query的各种数据。query原创 2012-03-26 15:11:05 · 776 阅读 · 0 评论