网络爬虫开发常用方法
1.采用浏览器控件webbrowser
使用webbrowser控件加载网页,用MSHTML来操控整个网页,进行模拟操作数据。
优点:开发起来比较简单。
缺点:由于需要加载整个页面,缺点是速度慢、效率不高,内存占用大,难以做成多线程并发。
2.基于Http请求
使用Http协议,分析页面的Get/Post动作
优点:速度快,效率搞,内存占用小,容易做成多线程并发。
缺点:开发难度大,需要详细的分析页面的css、js、cookie等等。
3.基于浏览器内核开发
使用浏览器内核开发,推荐使用Webkit
优点:这种方式比较灵活,可以根据自己的需求添加功能
缺点:对程序员要求比较搞,需要掌握很多基础知识,以及了解浏览器内核,以及需要看大量的英文文档
备注:可以把上面的方法结合,各取优点,进行抓取。
1.采用浏览器控件webbrowser
使用webbrowser控件加载网页,用MSHTML来操控整个网页,进行模拟操作数据。
优点:开发起来比较简单。
缺点:由于需要加载整个页面,缺点是速度慢、效率不高,内存占用大,难以做成多线程并发。
2.基于Http请求
使用Http协议,分析页面的Get/Post动作
优点:速度快,效率搞,内存占用小,容易做成多线程并发。
缺点:开发难度大,需要详细的分析页面的css、js、cookie等等。
3.基于浏览器内核开发
使用浏览器内核开发,推荐使用Webkit
优点:这种方式比较灵活,可以根据自己的需求添加功能
缺点:对程序员要求比较搞,需要掌握很多基础知识,以及了解浏览器内核,以及需要看大量的英文文档
备注:可以把上面的方法结合,各取优点,进行抓取。