2016年08月_小伟123456789

08月

原创新技能get

俗话说“万事开头难”，前几天用java模拟登陆人人、微博、QQ空间、Quora遇到了一些困难。使用httpclient来进行模拟登陆并没有让人觉得轻松。第一点是中文文档的匮乏，目前网上的资料有两个版本，第一个是httpclient 3.x，另外一个是httpclient 4.x,而这两个版本的差别还是蛮大的。两种不同版本的资料相互杂交，让人看了心烦。而英文文档就相对丰富一些了

2016-08-16 23:45:44 417

原创一个简单的爬虫——收集安居客上海租房信息

Part 1: 2016年8月13号晚开始写第三个爬虫小程序（安居客），至8月14号中午完成编写并运行成功。项目源码：https://github.com/carlblocking/xxw-for-public/tree/master/AnJuKeSpider 总体思路：这里借鉴了Web Magic的框架，但没有完全照搬。这里对于Web Magic，个人还是有一点小意见，即里

2016-08-14 15:04:59 8228 3

原创拉勾网爬虫

源代码：https://github.com/carlblocking/xxw-for-public/tree/master/LaGouSpider 前几天写了一个知乎网的爬虫并爬取了一些数据，然而新鲜感消失的很快。于是，大概2天前开始试着爬取拉勾网上的数据。在解析数据的过程中，知乎爬虫主要通过正则表达式来解析网页，而这次则通过jsoup来解析。在运行的过程中，能明显感受到二者的区别。首

2016-08-12 19:49:42 3443

原创使用jsoup选择器来查找元素

问题背景使用java爬取拉勾网上职位信息。首先，解析拉勾网职位信息网页，找出需要提取的信息并存入数据库。之前尝试的方法：使用过解析json文件，但每个json文件只有15条信息，而且同一电脑多次访问网站会遇到限制（反爬虫）。解析网页时使用正则表达式：优点：代码简介；缺点：正则表达式较为复杂，新手理解较为困难。目前解决的办法

2016-08-11 09:50:14 22207 1

原创使用jsoup选择器来查找元素

问题背景使用java爬取拉勾网上职位信息。首先，解析拉勾网职位信息网页，找出需要提取的信息并存入数据库。之前尝试的方法：使用过解析json文件，但每个json文件只有15条信息，而且同一电脑多次访问网站会遇到限制（反爬虫）。解析网页时使用正则表达式：优点：代码简介；缺点：正则表达式较为复杂，新手理解较为困难。目前解决的办法

2016-08-11 09:47:48 988