微博抓取
文章平均质量分 91
Towan
天下之至柔,驰骋天下之至坚。
展开
-
网络爬虫
首先明白互联网页面划分为五个部分:1.已下载网页集合2.已过期网页集合3.待下载网页集合4.可知网页集合5.不可知网页集合爬虫分为三种类型1.批量性爬虫2.增量型爬虫3.垂直型爬虫爬虫抓取的策略1.宽度优先遍历2.非完全PageRank3.OPIC(Online Page Importantance Computa原创 2013-10-12 08:55:42 · 1417 阅读 · 0 评论 -
新浪微博登录过程
下面简单介绍新浪微博的登录 过程:在登录之前我们需要先从新浪服务器获取两个变量:servertime,nonce。其中servertime中新浪的服务器时间,nonce是一 个随机生成的字符串。获取的需要通过这样一个网络接口:http://login.sina.com.cn/sso/prelogin.php?entry=miniblog&callback=sinaSSOControll原创 2013-10-21 14:58:35 · 2096 阅读 · 0 评论 -
利用java程序模拟登陆新浪微博
上篇介绍了对于新浪微博登陆机制的阐述,下面将介绍一篇很好的使用java模拟登陆新浪微博http://3352580.blog.51cto.com/3342580/1205051转载 2013-10-21 15:13:39 · 4215 阅读 · 0 评论 -
低成本服务器搭建千万级数据采集系统
有这样一个采集系统的需求,达成指标: 需要采集30万关键词的数据 、微博必须在一个小时采集到、覆盖四大微博(新浪微博、腾讯微博、网易微博、搜狐微博)。为了节约客户成本,硬件为普通服务器:E5200 双核 2.5G cpu, 4 G DDR3 1333内存,硬盘 500G SATA 7200转硬盘。数据库为mysql。在这样的条件下我们能否实现这个系统目标?当然如果有更好的硬件不是这个文章阐述的内容原创 2013-10-21 16:36:26 · 1991 阅读 · 2 评论 -
不用微博开放api直接进行爬去微博需要解决问题
1.模拟登陆。从什么节点开始的问题2.parse页面信息。原创 2013-10-21 09:45:58 · 2073 阅读 · 0 评论 -
在爬取数据时遇到的问题
现在已经能够进行模拟登陆了。1.为什么只能查看到一个公众人物的相关信息,诸如易中天、王文京、曾志勇等,却不能通过模拟登陆查看到诸如我的同事相关的信息呢?自己真的是想得太简单了原创 2013-10-28 11:20:59 · 1492 阅读 · 0 评论 -
进行微博数据抓取参考
参考1:功能是:获取新浪微博1000w用户的基本信息和每个爬取用户最近发表的50条微博,使用python编写,多进程爬取,将数据存储在了mongodb中 说明:获取新浪微博1000w用户的基本信息和每个爬取用户最近发表的50条微博地址: https://github.com/gnemoug/sina_reptile.git,代码只是针对sdk的,但是实际上对sdk进行了更改,所以移原创 2013-10-21 14:35:07 · 3227 阅读 · 2 评论 -
利用jsoup爬虫优酷、土豆等视频网站rss利用solr创建索引
1、前提:了解jsoup、solr等相关的技术、会搭建solr2、我将爬虫的网站都写在一个xml中,所以先要解析这个xml,得到其网址,然后定时去爬虫[java] view plaincopyprint?package com.tmzs.pc.jsoup; import java.io.File; import java.util.ArrayList;转载 2013-12-05 12:54:46 · 1968 阅读 · 1 评论 -
网页分析处理的极品模块Web::Scraper
我们在做各种自动化处理时,常常会希望能更加智能的得到网页中自己想要的元素,最好是象 css 和 div 中的信息来取得,就会更加方便,这个 Web::Scraper 是我用过的几个模块中最方便的,这也是大侠 miyagawa 所写.根据 ChangeLog 最早是 2007 年开发,好象 Web::Scraper 的灵感是来自己 Ruby 的 Scrapi ,它是一个使用 DSL 风格来写的 Sc原创 2013-12-20 12:37:34 · 3680 阅读 · 0 评论 -
新浪微博 2013 年 6 月的 API 变更将会带来哪些影响?
确实这一升级给开发者带来了不少的影响。 http://www.zhihu.com/question/21243305转载 2013-10-21 11:12:08 · 1624 阅读 · 0 评论 -
新浪微博登陆过程分析
一篇较新的文章(目前还能用2013.10.24)http://www.codesky.net/article/201004/98127.html原创 2013-10-24 16:52:11 · 1121 阅读 · 0 评论 -
新浪微博单点登陆分析
一篇百度文档:http://wenku.baidu.com/view/41980fc74028915f804dc2ad.html转载 2013-10-25 14:58:40 · 2273 阅读 · 0 评论 -
vba采集新浪微博数据
我们最好是使用新浪微博开放平台api进行采集,当然,想要使用api必须有app key采取如下过程:1.我们知道vba采集数据经常用到一个对象就是microsoft.xmlhttp对象,这次也是使用该对象,所以我们先用vba创建一个对象,如图所示的代码就是创建一个microsoft.xmlhttp对象2.接着,我们随便找到一个接口,比如我们就调用最新发布的微博,使用如图所示的接原创 2013-10-12 11:52:57 · 1974 阅读 · 0 评论 -
微博数据的抓取---正则表达式的构想
对于静态页面或网页结构不变的页面可以方便的使用java正则表达式进行页面数据的提取,很方便。。是否微博页面信息是否也是那样的容易提取?取决于以下两个条件1.微博页面的结构一定时间保持不变,期望复用程序,而不必去改正则表达式【外在条件】2.对与正则表达式的熟悉程度【内在条件】原创 2013-10-12 15:35:42 · 1248 阅读 · 0 评论 -
微博抓取
1.微博抓取的含义2.微博抓取的数据 微博作者、作者VIP判断、微博内容、发布时间、抓发评论数、如果是转发的微博还包括转发者及转发者说的话的详细信息3.微博抓取的工具a.ROST 新浪定时监控工具,基于新浪微博Oauth模式认证下调用新浪微博api抓取新浪微博数据,支持实时(最少5秒钟抓取更新一次)抓取数据4.微博抓取的方法a.正则表达式,自己做原创 2013-10-10 13:58:31 · 2098 阅读 · 0 评论 -
蜂鸟舆情系统
蜂鸟舆情系统采用搜索引擎技术、文本处理技术、自然语言处理和智能分析等技术,对互联网海量信息自动获取和进行多维度融合分析,从而7*24小时监控新闻、微博、论坛、博客、元搜索等舆情信息的变化,及时帮助用户掌握各种商业信息和网络舆论动向,提高企业的竞争力和掌控能力。原创 2013-10-12 14:25:12 · 3191 阅读 · 0 评论 -
关于微博数据抓取的实践
最近接到一个任务主要是想抓取微博相关微博数据。比如说抓取一个特定微博中微博数、关注数、被关注的粉丝数、个人相关信息比如居住地、学校等公开的信息,以及被关注数的粉丝、微博数、关注数及相关信息。以便收集到信息以后用来做数据挖掘。 调查了许久,发现获取数据的方法大概有三种方法:1.相关微博开发平台提供的api2.使用网络爬虫3.结合爬虫及微博开放api方法进行抓取。原创 2013-10-14 15:49:32 · 3965 阅读 · 1 评论 -
利用Heritrix构建特定站点爬虫
http://www.ibm.com/developerworks/cn/opensource/os-cn-heritrix/转载 2013-10-14 16:52:16 · 1536 阅读 · 0 评论 -
分析ssologin.js
既然我们知道了servertime跟nonce是用于加密的,不妨在文件中搜一下这两个关键字,一搜找到了好东西: 翻回去上文看看,表单中有个su和sp,都在这里了,可以看到su使用的是base64加密方式;而su就稍微复杂一点了,if中的是新浪当前版本的密码加密方式rsa2的代码,而else中的是就版本sha加密的代码,我们只需要关心if中的内容, 加密过程很简单,先是生成一个翻译 2013-10-24 20:29:45 · 2259 阅读 · 1 评论 -
微博登陆过程再次分析
微博很火啊,开发了一个微博爬虫应用有的人 会说 新浪微博 不是API吗,为什么还要取单独开发爬虫系统呢如果你用过新浪微博API,你就知道,有着诸多限制,功能少,信息少,信息不全,调用次数限制,重新授权等等 一系列的问题,最主要是返回的信息量少喝调用次数限制,还有针对IP的.我们设计这个爬虫的初衷是新浪微博的所有信息,目前是70%,为什么不是100%呢,说到底 还是资源问题了.新转载 2013-10-25 11:02:24 · 2366 阅读 · 0 评论 -
微博抓取策略及实现
微博获取的方法不同于一般的网页获取,一般网页总是给定一个初始URL,按照一定的规则例如深度优先、广度优先、大站优先、小站优先等方法进行扩展其URL地址进行爬取数据,而微博抓取的实质为在一个给定的微博URL之中,直接抓取页面,并对页面进行解析,例如获取粉丝数、微博数、关注数、发表的帖子等等数据。其抓取的方法本质上可以归结为两种:直接调用官方给定的开放api和间接进行硬性爬取。下面以新浪微博为例原创 2013-11-14 13:33:47 · 9993 阅读 · 7 评论