爬虫
Yan456jie
这个作者很懒,什么都没留下…
展开
-
船舶爬虫出现过的问题
1、最初版本,使用多线程爬取,如果网断了就得重新爬。解决方法:另建多线程存储,并做好记录文件。2、使用htmlparser爬取时,有的网页爬取过慢,无法设置超时连接。可使用java.net下的url,用流的方式获取网页信息,里面有设置超时的方法。可设置守护线程方式判断连接是否超时(未验证)。可使用future方式提交任务给excuteservice(未验证)3、网页编码不同,无法爬取网页(原创 2014-09-26 10:58:23 · 1409 阅读 · 0 评论 -
anaconda 安装pyspider出错
注释Lib\mimetypes.py里面的try: mimetype = mimetype.encode(default_encoding)except UnicodeEncodeError: continue原创 2015-11-23 20:07:36 · 1729 阅读 · 1 评论 -
python网络爬虫
class Clawer(): headers = { 'User-Agent':'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6' } def __init__(self): socket.setdefaultt原创 2015-03-09 21:00:35 · 500 阅读 · 0 评论 -
python 3 爬虫
importurllib.requesturl="http://www.oschina.net/"data=urllib.request.urlopen(url).read()print(data)'''Created on 2013-1-27@author: isaced转载 2015-03-11 19:10:12 · 734 阅读 · 0 评论 -
获取新浪微博api授权
1、申请应用,申请应用成功后有下面两个App Key:App Secret:2、获取code,参数:client_id=App Keyredirect_uri=站内地址response_type=codehttps://api.weibo.com/oauth2/authorize?client_id=XXX&redirect_uri=XXX&respon原创 2016-07-01 20:12:34 · 3399 阅读 · 0 评论 -
Python:urllib 和urllib2之间的区别
原文地址 http://www.cnblogs.com/yuxc/archive/2011/08/01/2124073.html作为一个Python菜鸟,之前一直懵懂于urllib和urllib2,以为2是1的升级版。今天看到老外写的一篇《Python: difference between urllib and urllib2》才明白其中的区别。 You转载 2016-08-04 22:17:21 · 410 阅读 · 0 评论 -
python的urllib2和urllib爬虫及区别
urllib和urllib2的区别,urllib只能根据url爬取,不能设置头信息,但可以对url进行编码;urllib2可以设置request请求头信息# -*- coding: utf-8 -*-import urllibf = urllib.urlopen('http://www.cnblogs.com/')result = f.read() #读取html页面的第一行pr原创 2016-08-07 12:25:29 · 906 阅读 · 0 评论 -
java爬虫总是超时
只要是网页可以打开的,爬虫就可以爬取,超时是因为请求头设置有误使用firefox浏览器,使用firebug分析请求信息,对于url请求,将请求头信息添加到java的程序中即可原创 2016-08-04 21:22:01 · 1488 阅读 · 0 评论 -
jsoup选择器来抓取网页中的数据
http://blog.csdn.net/getchance/article/details/40423103JSOUP是一个没有界面的浏览器,用于分析和抓取网络html数据使用他需要相关jar包,下载链接:http://pan.baidu.com/s/1sjuLGC1例子:抓取http://www.ifanr.com/网页中指定规则新闻链接和标题转载 2016-07-28 20:17:03 · 545 阅读 · 0 评论 -
httpparase + httpclient 的运用
这篇文章介绍了 HtmlParser 开源包和 HttpClient 开源包的使用,在此基础上实现了一个简易的网络爬虫 (Crawler),来说明如何使用 HtmlParser 根据需要处理 Internet 上的网页,以及如何使用 HttpClient 来简化 Get 和 Post 请求操作,构建强大的网络应用程序。HttpClient 与 HtmlParser 简介转载 2014-07-24 20:21:29 · 1795 阅读 · 0 评论 -
异步评论爬取心得
许多网站的数据是异步传输的,要找到相对应的js和ajax比较麻烦。原创 2014-11-02 14:21:53 · 722 阅读 · 0 评论 -
python下载图片
#-*- encoding:utf-8 -*-import urllibdef test(): url = "http://pic2.sc.chinaz.com/files/pic/pic9/201309/apic520.jpg" name ="D:/1.jpg" #保存文件时候注意类型要匹配,如要保存的图片为jpg,则打开的文件的名称必须是jpg格式,否则会产生无效原创 2016-08-13 09:02:41 · 567 阅读 · 0 评论