- 博客(5)
- 资源 (9)
- 问答 (1)
- 收藏
- 关注
原创 新技能get
俗话说“万事开头难”,前几天用java模拟登陆人人、微博、QQ空间、Quora遇到了一些困难。 使用httpclient来进行模拟登陆并没有让人觉得轻松。 第一点是中文文档的匮乏,目前网上的资料有两个版本,第一个是httpclient 3.x,另外一个是httpclient 4.x,而这两个版本的差别还是蛮大的。两种不同版本的资料相互杂交,让人看了心烦。而英文文档就相对丰富一些了
2016-08-16 23:45:44 417
原创 一个简单的爬虫——收集安居客上海租房信息
Part 1: 2016年8月13号晚开始写第三个爬虫小程序(安居客),至8月14号中午完成编写并运行成功。 项目源码:https://github.com/carlblocking/xxw-for-public/tree/master/AnJuKeSpider 总体思路: 这里借鉴了Web Magic的框架,但没有完全照搬。这里对于Web Magic,个人还是有一点小意见,即里
2016-08-14 15:04:59 8228 3
原创 拉勾网爬虫
源代码:https://github.com/carlblocking/xxw-for-public/tree/master/LaGouSpider 前几天写了一个知乎网的爬虫并爬取了一些数据,然而新鲜感消失的很快。于是,大概2天前开始试着爬取拉勾网上的数据。 在解析数据的过程中,知乎爬虫主要通过正则表达式来解析网页,而这次则通过jsoup来解析。在运行的过程中,能明显感受到二者的区别。 首
2016-08-12 19:49:42 3443
原创 使用jsoup选择器来查找元素
问题背景 使用java爬取拉勾网上职位信息。 首先,解析拉勾网职位信息网页,找出需要提取的信息并存入数据库。 之前尝试的方法:使用过解析json文件,但每个json文件只有15条信息,而且同一电脑多次访问网站会遇到限制(反爬虫)。 解析网页时使用正则表达式:优点:代码简介;缺点:正则表达式较为复杂,新手理解较为困难。 目前解决的办法
2016-08-11 09:50:14 22207 1
原创 使用jsoup选择器来查找元素
问题背景 使用java爬取拉勾网上职位信息。 首先,解析拉勾网职位信息网页,找出需要提取的信息并存入数据库。 之前尝试的方法:使用过解析json文件,但每个json文件只有15条信息,而且同一电脑多次访问网站会遇到限制(反爬虫)。 解析网页时使用正则表达式:优点:代码简介;缺点:正则表达式较为复杂,新手理解较为困难。 目前解决的办法
2016-08-11 09:47:48 988
C#中的string或者char类型数据如何转化为C++中的char类型数据
2014-07-29
TA创建的收藏夹 TA关注的收藏夹
TA关注的人