网络爬虫
小江_xiaojiang
这个作者很懒,什么都没留下…
展开
-
web认证机制
什么是Web认证简而言之,web认证就是一个确认对方身份的过程。Web认证最典型的方式是通过用户名和密码。Web认证有多种方式A. Http协议内建的认证方法 1. Http Basic Authentication (Http基本认证) HTTP基本认证是最简单也是曾经使用过很长时间的一种认证方式。基本认证要转载 2015-10-29 14:27:21 · 989 阅读 · 0 评论 -
Java之网络爬虫WebCollector+selenium+phantomjs(三)
经过前面两篇的学习Java之网络爬虫WebCollector+selenium+phantomjs(一)与Java之网络爬虫WebCollector+selenium+phantomjs(二)的学习后,我们来做一个小例子。我们所要做的东西为:爬取到京东列表页面,在页面上抽取出商品信息(名称、价格、评价),然后打印出抽取的商品信息。贴出代码:Goods.Java/* * Cop转载 2016-08-27 14:14:40 · 2473 阅读 · 0 评论 -
Java之网络爬虫WebCollector+selenium+phantomjs(二)
上一篇做小例子的时候,在获取页面上价格的时候发现,获取不到,查了下说是webcollector需要结合selenium与phantomjs来获取js生成的动态。下面就做个例子来学习。准备材料在上一篇已经准备完毕,我是在windows系统上进行的测试,所以phantomjs运行环境下载phantomjs-windows下载即可,下载后解压到某个文件夹即可(可以把解压路径添加到环境变量里,如果转载 2016-08-27 14:10:15 · 3363 阅读 · 1 评论 -
Java之网络爬虫WebCollector+selenium+phantomjs(一)
http://blog.csdn.net/osaymissyou0/article/details/49386637最近研究了一下爬虫技术,与大家分享一下。由于目前有很多成熟的框架(奉劝不要自己花时间再写爬虫框架了,真心没必要),俺也就从中选一个适合我目前需求或者说相对简单的框架来学习吧。先把各种网络爬虫框架地址曝光一下:基于Java的网络爬虫框架集合。这次学习转载 2016-08-27 14:07:25 · 6805 阅读 · 3 评论 -
selenium 实现爬虫
1下载selenium-server-standalone-2.41.0.jarchromedriver_win32.zip IEDriverServer_x64_2.42.0.zip 2设置环境1)解压chromedriver_win32.zip,把chromedriver.exe拷贝至C:/ selenium/chrome/2)解压IEDriverServer转载 2016-08-27 13:47:34 · 1983 阅读 · 0 评论 -
爬虫绕过“登录页面”
当我们在写爬虫的时候,往往会遇到很多反爬的问题。 比如:在登录页面设置验证码、扫描二维码登录、滑动鼠标登录、手机短信验证码登录等等。这里介绍一种个人已经实现的方法——绕过登录页面。这里的绕过不是说真的可以绕过登录,除非这个系统本来就有问题,这是这个系统天大的bug。这里说的绕过登录是指登录一次记住cookie信息,下次登录的时候就直接跳过了登录的页面。废话不多说,直接上代码:原创 2016-04-29 17:03:59 · 21952 阅读 · 4 评论 -
开源爬虫框架各有什么优缺点?
转载地址:http://www.wtoutiao.com/p/Z52cYG.html开发网络爬虫应该选择Nutch、Crawler4j、WebMagic、scrapy、WebCollector还是其他的?这里按照我的经验随便扯淡一下:上面说的爬虫,基本可以分3类:1.分布式爬虫:Nutch 2.JAVA单机爬虫:Crawler4j、WebMagic、WebCollect转载 2016-01-12 15:07:16 · 2604 阅读 · 0 评论 -
HttpClient和HtmlUnit的对比
序言 做Java编程的人其实,很多不懂SEO,也不知道如何让百度收录等等,当然,对于爬虫,网页抓取,也不是所有编程的人有考虑到,但是专门做这个人,还是需要了解一下这里面的知识的,那下面就来介绍一下一些爬虫和网页采集相关的组件和插件吧~ 大家在做爬虫、网页采集、通过网页自动写入数据时基本上都接触过这两个组件(权且称之为组件吧),网上入门资料已经很多了,我想从实转载 2015-10-30 10:21:08 · 1858 阅读 · 0 评论 -
htmlUnit使用简介(爬虫)
获取页面的TITLE、XML代码、文本import com.gargoylesoftware.htmlunit.WebClient;import com.gargoylesoftware.htmlunit.html.HtmlPage;import com.gargoylesoftware.htmlunit.BrowserVersion;import com.gargoylesoftwar转载 2015-10-30 09:55:47 · 3982 阅读 · 0 评论 -
httpclient使用详解(爬虫)
一、简介HttpClient是Apache Jakarta Common下的子项目,用来提供高效的、最新的、功能丰富的支持HTTP协议的客户端编程工具包,并且它支持HTTP协议最新的版本和建议。HttpClient已经应用在很多的项目中,比如Apache Jakarta上很著名的另外两个开源项目Cactus和HTMLUnit都使用了HttpClient。下载地址: http://h原创 2015-10-29 15:03:57 · 7294 阅读 · 0 评论 -
http协议简介
1. 基础概念篇1.1 介绍HTTP是Hyper Text Transfer Protocol(超文本传输协议)的缩写。它的发展是万维网协会(World Wide Web Consortium)和Internet工作小组IETF(Internet Engineering Task Force)合作的结果,(他们)最终发布了一系列的RFC,RFC 1945定义了HTTP/1.0版本。其中最著转载 2015-10-29 13:46:41 · 777 阅读 · 0 评论 -
图解Fiddler如何抓手机APP数据包【超详细】
转载地址:http://www.111cn.net/sj/android/90542.htmFiddler是一个http协议调试代理工具,它能够记录并检查所有你的电脑和互联网之间的http通讯,设置断点,查看所有的“进出”Fiddler的数据。 Fiddler 要比其他的网络调试器要更加简单,因为它不仅仅暴露http通讯还提供了一个用户友好的格式。1、PC端安装Fiddler转载 2016-09-06 11:41:52 · 111651 阅读 · 11 评论