自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 收藏
  • 关注

转载 反反爬虫策略

爬虫,反爬虫,反反爬虫之间斗争恢弘壮阔!爬虫大量爬取网站上数据会对服务器的带宽,计算能力等资源占用,同时网站所有者不大乐意自己网站数据被他人随意收集,必然会对爬虫进行限制。反爬虫最常见策略是限制IP,这篇博客主要描述如何应对限制IP和其他反爬虫策略。 一.对请求IP等进行限制的。 ...

2017-02-03 18:10:00 91

转载 [爬虫]抓取知乎百万用户信息之自建代理池

如果你觉得服务商的服务太贵,可以考虑自建一个代理池 应用场景 爬虫过于频繁的抓取网站信息会被反爬虫机制屏蔽掉,或者有些网站对我们的Ip有限制,一个IP之能操作一次,这个时候就需要设置代理了。这方面需求还是很大的,有专门的服务商提供代理,没钱的自己动手打造一个代理池吧。 所用的...

2017-02-03 18:09:00 115

转载 [爬虫]抓取知乎百万用户信息之Redis篇

Redis安装 Redis官方并没有推出windows版本,人家觉得linux已经够了,开发windows版本影响开发进度,还好微软有一个团队维持着Redis的windows版本,网上有很多介绍Redis安装的博客,大多数是敲各种命令行。这里有Redis的msi版本,只需要像安装普通软件一...

2017-02-03 18:09:00 101

转载 [爬虫]抓取知乎百万用户信息之爬虫模块

UserManage是获取用户信息的爬虫模块 public class UserManage { private string html; private string url_token; } 构造函数 用户主...

2017-02-03 18:09:00 118

转载 [爬虫]抓取知乎百万用户信息之总结篇

第一个大错误是没能及时释放非托管资源,导致程序运行长的之后抛出OutOfMemoryException. 这个小Demo主要的非托管资源一个是http请求的httpWebresopne和流,另外一个是RedisCline。导致这个问题出现不是我不知道要释放非托管资源,而是代码疏忽。这个写代码...

2017-02-03 18:09:00 107

转载 [爬虫]抓取百万知乎用户数据之爬取思路

一.如何获取到用户的信息 前往用户主页,以轮子哥为例 从中可以看到用户的详细信息,教育经历主页,主修。所在行业,公司,关注量,回答数,居住地等等。打开开发者工具栏查看网络,即可找到,一般是html或者json这个数据在Html页面里。 URL为https://www.zhihu.co...

2017-02-03 18:08:00 785

转载 [爬虫]抓取百万知乎用户设计之实体设计

一.实体的关系 实体是根据返回的Json数据来设计的 教育经历方面 用户可以有很多教育经理,USER和education是一对多的关系,一个education对应一个education 一个用户可以有多个工作,当然很多人可以从事同一份工作,每份工作对应一家公司,对应一个岗位 ...

2017-02-03 18:08:00 67

转载 [爬虫]抓取百万知乎用户信息之HttpHelper的迭代

什么是Httphelper? httpelpers是一个封装好拿来获取网络上资源的工具类。因为是用http协议,故取名httphelper。 httphelper出现的背景 使用WebClient可以很方便获取网络上的资源,例如 WebClient client...

2017-02-03 18:08:00 87

转载 微信好友分析之获取好友信息

这个Demo是利用HttpWebRequest和HttpWebResponse来爬取微信好友,讲信息存入数据库,并对信息进行分析,用图标画出来。 如何获得好友信息 首先前往https://wx.qq.com/登录自己的微信账号,打开浏览器的开发者控制台 微信给后台发送了几十个请求,...

2017-02-03 18:07:00 233

转载 微信好友分析之展示好友信息

上一篇完成对数据的采集,现在我们来对数据分析和展示 我们将用到百度的echarts,官网为http://echarts.baidu.com/ 男女比列分析 在friden类中Sex属性表示性别,1表示男性,2表示女性,还有些用户没有填写用0表示 首先构建数据库上下文对象 ...

2017-02-03 18:07:00 149

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除