大数据
文章平均质量分 83
SQZHAO
查无此人
展开
-
社会化海量数据采集爬虫框架搭建
随着BIG DATA大数据概念逐渐升温,如何搭建一个能够采集海量数据的架构体系摆在大家眼前。如何能够做到所见即所得的无阻拦式采集、如何快速把不规则页面结构化并存储、如何满足越来越多的数据采集还要在有限时间内采集。这篇文章结合我们自身项目经验谈一下。我们来看一下作为人是怎么获取网页数据的呢?1、打开浏览器,输入网址url访问页面内容。2、复制页面内容的标题、作者、内容。3、存转载 2015-08-10 17:17:04 · 691 阅读 · 0 评论 -
语义分析的一些方法(三) 图像语义分析
语义分析的一些方法(三)2015/02/04机器学习、自然语言处理、计算广告学vincentyao3 图片语义分析3.1 图片分类图片分类是一个最基本的图片语义分析方法。基于深度学习的图片分类传统的图片分类如下图所示,首先需要先手工提取图片特征,譬如SIFT, GIST,再经由VQ coding和Spatial pooling,最后送入传统的分类模型(例转载 2015-08-13 22:20:10 · 3918 阅读 · 0 评论 -
[我们是这样理解语言的-3]神经网络语言模型
[我们是这样理解语言的-3]神经网络语言模型2015/03/15机器学习、自然语言处理Jason Copper1 简介语言模型是自然语言处理领域的基础问题,其在词性标注、句法分析、机器翻译、信息检索等任务中起到了重要作用。简而言之,统计语言模型表示为:在词序列中,给定一个词wt和上下文中所有词wt−1,这个序列出现的概率,如下式,P^(wT1)=∏t=1TP^(wt转载 2015-08-13 22:14:29 · 4697 阅读 · 0 评论 -
转化率预估
[转化率预估-1]引言2014/06/27机器学习、计算广告学star最近几年,“计算广告学”的概念风生水起,让我们这些从事在线广告匹配技术的程序猿着实荣耀了一把。这在参加校园招聘时最有所体会,前几年学生经常问面试官的问题是“你们做网页搜索吗?”,这些年学生更经常问“你们做广告吗,你们做大数据挖掘吗?”。每当这个时候,我的心中就会油然而生满满的幸福感,还要装着没什么的样子回答“当然转载 2015-08-13 22:09:26 · 11978 阅读 · 0 评论 -
语义分析的一些方法(一)
语义分析的一些方法(一)2015/02/04机器学习、自然语言处理、计算广告学vincentyao语义分析,本文指运用各种机器学习方法,挖掘与学习文本、图片等的深层次概念。wikipedia上的解释:In machine learning, semantic analysis of a corpus is the task of building structures that a转载 2015-08-13 22:18:19 · 808 阅读 · 0 评论 -
[我们是这样理解语言的-3]神经网络语言模型(续)
8 Eric Huang’s Model在Bengio的神经网络结构的基础上,Eric Huang提出了引入文档的全局信息引神经网络语言模型,结构类似于Bengio的网络结构。8.1 模型结构相比Bengio的模型,Eric Huang引入了词的全局信息,在原本的网络结构中加入了子网络,形成如下图所示结构。图5 Eric Huang的网络结构图其中,转载 2015-08-13 22:15:54 · 2440 阅读 · 0 评论 -
[我们是这样理解语言的-2]统计语言模型
[我们是这样理解语言的-2]统计语言模型2015/02/28搜索技术、自然语言处理LM、n-gram、NLP、统计语言模型、自然语言处理、语言模型fandywang记得最早学习语言模型是在研究生的《统计自然语言处理》课上,由哈工大关毅老师主讲,从噪声信道模型切入,到 N-Gram 语言模型的构建、平滑、评价(KL 距离/相对熵、交叉熵、困惑度),接着以音字转换系统(即拼音输入法转载 2015-08-13 22:13:41 · 2013 阅读 · 0 评论 -
[我们是这样理解语言的-1]文本分析平台
[我们是这样理解语言的-1]文本分析平台TextMiner2014/06/19搜索技术、自然语言处理、计算广告学LDA、NLP、TextMiner、关键词抽取、文本分类、文本聚类、文本语义分析、自然语言处理fandywang互联网上充斥着大规模、多样化、非结构化的自然语言描述的文本,如何较好的理解这些文本,服务于实际业务系统,如搜索引擎、在线广告、推荐系统、问答系统等, 给我们提出转载 2015-08-13 22:11:10 · 1816 阅读 · 0 评论 -
语义分析的一些方法(二)
语义分析的一些方法(二)2015/02/04机器学习、自然语言处理、计算广告学vincentyao2 文本语义分析前面讲到一些文本基本处理方法。一个文本串,对其进行分词和重要性打分后(当然还有更多的文本处理任务),就可以开始更高层的语义分析任务。2.1 Topic Model首先介绍主题模型。说到主题模型,第一时间会想到pLSA,NMF,LDA。关于这几个目前业转载 2015-08-13 22:19:23 · 792 阅读 · 0 评论 -
Peacock:大规模主题模型及其在腾讯业务中的应用
Peacock:大规模主题模型及其在腾讯业务中的应用2015/03/02分布式计算、机器学习、自然语言处理LDA、Peacock、数据并行、模型并行xueminzhaoPeacock:大规模主题模型及其在腾讯业务中的应用作者:赵学敏 王莉峰 王流斌 孙振龙 严浩 靳志辉 王益摘要如果用户最近搜索了“红酒木瓜汤”,那么应该展示什么样的广告呢?从字面上理解,可能应该转载 2015-08-11 14:35:49 · 1675 阅读 · 0 评论 -
细数广告定向
细数广告定向2014/06/17计算广告学互联网广告、受众定向、广告定向、效果广告、精准投放、计算广告学fandywang广告收入支撑着互联网的大半壁江山,由于互联网广告的存在,用户可以享受到互联网免费提供的聊天、搜索、邮件、资讯、博客/微博、视频、音乐等一站式生活服务。相比传统广告,互联网广告使得企业(广告主)花费更少的钱获取更大的营销推广效果,不至于因“我知道我的广告费浪费了一转载 2015-08-11 14:46:17 · 1599 阅读 · 0 评论 -
广告定向之再营销
广告定向之再营销2014/08/08计算广告学再营销、定向、广告lorylin什么是再营销广告定向再营销是利用用户在互联网上的行为进行精准定向的广告策略。其中的行为可能包含浏览网页、搜索商品、查看感兴趣的商品信息、将有强烈购买意图的商品放入购物车等等,而“再”的意思则是指将用户感兴趣的商品信息以广告的形式再次展现在他面前。一个典型的再营销场景我们来看下面一个例子转载 2015-08-11 14:45:07 · 1167 阅读 · 0 评论 -
海量数据相似度计算之simhash短文本查找
原文出处: 严澜的博客(@观澜而索源) 欢迎分享原创到伯乐头条在前一篇文章 《海量数据相似度计算之simhash和海明距离》 介绍了simhash的原理,大家应该感觉到了算法的魅力。但是随着业务的增长 simhash的数据也会暴增,如果一天100w,10天就1000w了。我们如果插入一条数据就要去比较1000w次的simhash,计算量还是蛮大,普通PC 比较1000w次海明距离需转载 2015-08-10 17:20:24 · 640 阅读 · 0 评论 -
海量数据相似度计算之simhash和海明距离
原文出处: 严澜(@观澜而索源) 欢迎分享原创到伯乐头条通过 采集系统 我们采集了大量文本数据,但是文本中有很多重复数据影响我们对于结果的分析。分析前我们需要对这些数据去除重复,如何选择和设计文本的去重算法?常见的有余弦夹角算法、欧式距离、Jaccard相似度、最长公共子串、编辑距离等。这些算法对于待比较的文本数据不多时还比较好用,如果我们的爬虫每天采集的数据以千万计算,我们如何对于这转载 2015-08-10 17:19:01 · 826 阅读 · 0 评论 -
低成本服务器搭建千万级数据采集系统
原文出处: 严澜(@观澜而索源) 欢迎分享原创到伯乐头条上一篇文章《社会化海量数据采集框架搭建》提到如何搭建一个社会化采集系统架构,讲架构一般都比较虚,这一篇讲一下如何实战用低成本服务器做到日流水千万级数据的分布式采集系统。有这样一个采集系统的需求,达成指标: 需要采集30万关键词的数据 、微博必须在一个小时采集到、覆盖四大微博(新浪微博、腾讯微博、网易微博、搜狐微博)。为了节转载 2015-08-10 17:18:08 · 1688 阅读 · 0 评论 -
大数据工具/框架
MongoDB-一种非常流行的、跨平台、面向document的数据库。Elasticsearch-专为云计算设计的分布式REST风格的搜索引擎。Cassandra-一个开源的分布式数据库管理系统。最初是Facebook设计和开发的,部署在大量商用服务器上来处理大量的数据。高可用,无单点故障。Redis-开源的(BSD)内存数据结构存储、内存库、缓存、消息代理。Hazelcast-基于Java开发的转载 2016-02-03 10:03:53 · 429 阅读 · 0 评论