爬虫
tcoding
这个作者很懒,什么都没留下…
展开
-
使用webmagic爬取新浪微博热榜
这里没用用新浪微博给的官方api,直接使用webmagic爬取,网页版的有反爬虫策略,爬起来困难,这里爬取的是移动版本。 经过分析微博的请求找到请求进行爬取。 这里写的爬取热榜前30页的数据。 package usable; import java.util.ArrayList; import java.util.List; import us.codecraft.webmagic.原创 2018-01-31 17:28:21 · 2313 阅读 · 0 评论 -
webmagic爬取方式
一:根据网页地址爬取并解析 适用于新闻网站爬取 二:分析网页中的get请求,对返回的数据进行解析 适用于微博、微信、贴吧 三:根据post请求爬取 查看网页源代码,找到post请求参数,伪造request进行爬取,用到的较少,分析起来相对麻烦 有的网站爬取需要注册登录,可以设定cookie进行登录,必要时可以添加代理;个别网站登录时没有验证码可以下载谷歌插件进行爬取。原创 2018-02-01 16:43:11 · 493 阅读 · 0 评论