爬虫
文章平均质量分 78
MemRay
PhD在读,intereted in NLP、Deep Learning及其他AI问题。这里基本是个收藏夹 :D
展开
-
HttpClient 4.0.x Tips
HttpClient 4的变化确实有些大,没有系统的教程,每次碰上问题只能逐一解决~原文转自:http://www.cnblogs.com/mmjx/archive/2011/12/06/2278150.html最近用HttpClient做一个工具做代理访问服务器的WebService,由于服务器是采用NTLM验证的,再加上网上的很多资料大多是关于HttpClient转载 2013-05-02 17:19:01 · 2433 阅读 · 1 评论 -
新浪微博 爬取实现之微博登录
实验需要新浪微博关于某一主题(如“云计算”、“大数据”等)的内容数据,原本打算是直接使用新浪微博的API去抓取,被审核不过和授权机制完全击倒。所以索性直接用HttpClient模拟抓取得了。 但是碰上几个问题,这里先提一下,有时间再总结吧。 1. 微博不登陆不会完全显示结果,因此必须通过模拟登陆来解决这个问题,还好有这篇文章,不然不知道还要探索多久。转载 2013-05-02 17:27:28 · 9689 阅读 · 9 评论 -
新浪微博搜索结果数据抓取
这篇文章抓取使用的是jsoup,要求简单的情况下比起httpclient确实方便的多。有启示性但对我的需求来说不太适用,比如没有登陆。项目需要在抓取新浪微博搜索结果数据,顺手做了个工具,以实现在新浪微博搜索中自动抓取配置的关键字的搜索结果。在此分享一下。先看一下新浪微博搜索结果页面的源码:可以看到,得到的并不是普通html,都是通过js调用的。其中汉字全转载 2013-04-19 10:30:47 · 9296 阅读 · 5 评论 -
新浪模拟登陆 HttpClient 4 cookie rejected 问题
最近在写一个新浪微博爬虫,由于新浪微博的post用户名密码是用RSA加密,看了IT杂男记中的用rsa加密模拟登陆http://marspring.mobi/http-client-weibo/,似乎解决了登陆问题,成功登陆了,但是HttpClient 一直报WARN:Cookie rejected: "[version: 0][name: U_TRS2][value: 000000be转载 2013-05-16 17:03:35 · 6217 阅读 · 2 评论 -
如何防止fraud clicks(欺骗点击作弊)的分析
想要抓东西,又要绕过网站的防抓取机制,必须按照一些套路才行。记得之前师门讨论用户单位时间内访问网页的次数呈现泊松分布,因此针对性的搜了一下资料。 随着在线广告的流行,pay by per click (每次点击付钱)的模式 逐渐被大家接受。可是随之而来的问题就是fraud clicking的预防迫在眉捷,因为这将直接关系到这种广告模式能否长久生存和能否成为一种真正的网站拥有者的收入来源。下原创 2013-05-02 10:46:28 · 1711 阅读 · 0 评论 -
新浪微博Rsa2加密方式,登录
原文转自:http://blog.csdn.net/wolfphantasms/article/details/8635456前两天抓取新浪微博内容,不得不用到登陆,结果新浪还在login模块的新版本中把加密方式改成了RSA2,还好有牛人及时共享^ ^public static void login(String u, String p) { DefaultHttpCl转载 2013-05-10 15:26:45 · 14410 阅读 · 10 评论