urllib
Py菜菜鸟
这个作者很懒,什么都没留下…
展开
-
URLError
异常处理: URLError import urllib.request import urllib.error try: urllib.request.urlopen("URL") except urllib.error.URLError as e: #打印异常code print(e.code) #打印异常原因 print(e.reason) ...翻译 2018-10-18 08:13:08 · 1294 阅读 · 0 评论 -
urllib简单了解
#导入库 import urllib.request #爬取网页并赋值给变量 file = urllib.request.urlopen("http://www.baidu.com") #读取网页全部内容 data = file.read() #读取网页中一行内容 dataFile = file.readline() ''' file.read()与readlines不同的时,read会把读取...翻译 2018-10-17 10:03:18 · 2138 阅读 · 1 评论 -
headers and timeout
有时我们无法爬取到网页会显示403错误,因为这些网站为了防止别人恶意的采集其信息所以进行了一些反爬虫的设置。 那么如果我们想爬取这些网页信息应该怎么办? 可以设置一些headers信息,模拟成浏览器去访问这些网站 例如我要爬取CSDN博客的内容出现403error: import urllib.request url = "http://bolg.cdsid.net/..." file ...翻译 2018-10-17 11:49:36 · 635 阅读 · 0 评论 -
HTTP协议请求实战-GET请求
GET请求: GET请求会通过URL网址传递消息,可以直接在URL中写上要传递的信息,也可以由表单进行传递。如果使用表单进行传递,这表单中的信息会自动转为URL地址中的数据,通过URL地址传递。 比如,如果需要实现用爬虫自动地在百度上查询关键词为hello的结果,可以使用一下代码: #没有中文的GET import urllib.request keywd = "hello" ur...翻译 2018-10-17 12:21:51 · 899 阅读 · 0 评论 -
HTTP协议请求实战-POST请求
如何使用爬虫通过POST表单传递消息,我们要构造POST请求,实现思路: 设置好URL网站 构建表单数据,并使用urllib.parse.urlencode对数据进行编码处理 创建Request对象,参数包括URL地址和要传递的数据 使用add_header()添加头信息,模拟浏览器进行爬取 使用urllib.request.urlopen()打开对应的Request,完成信息的传递 ...翻译 2018-10-17 12:48:34 · 956 阅读 · 0 评论 -
Debuglog
思路: 分别用urllib.request.HTTPHander()和urllib.request.HTTPSHander()将debuglevel设置为1 使用urllib.request.build_opener()创建自定义的opener对象,并使用1.中作为参数 用urllib.request.install_opener()创建全局默认的opener对象,在使用urlopen()时...翻译 2018-10-17 13:16:47 · 2853 阅读 · 0 评论