python怎么检查urllib_Python 爬虫入门(一)urllib的基本使用

前言:

urllib包含四个模块:

urllib.request可以用来发送request和获取request的结果

urllib.error包含了urllib.request产生的异常

urllib.parse用来解析和处理URL

urllib.robotparse用来解析页面的robots.txt文件

1. urllib.request的基本使用方法属性

1.1. 使用urllib.request.urlopen()来爬取网页

In [1]: import urllib.request

In [2]: r=urllib.request.urlopen('http://blog.fishc.com/3597.html')

In [3]: r.read().decode('utf-8')

Out[3]: '\n

\n\n论一只爬虫的自我修养2:实战 – 零基础入门学习Python054 | 鱼C工作室\n\n\n

# True

# False

以上简单介绍urllib的简单用法,下面给出一个实战例子,交互式有道翻译请求:

import urllib.request

import urllib.parse

import json

url = 'http://fanyi.youdao.com/translate?smartresult=dict&smartresult=rule&smartresult=ugc&sessionFrom=https://www.google.com.hk/'

data=dict()

data['type']='AUTO'

data['i']=input("Plz input what you want to translate: ")

data['doctype']='json'

data['xmlVersion']='1.8'

data['keyfrom']='fanyi.web'

data['ue']='UTF-8'

data['action']='FY_BY_CLICKBUTTON'

data['typoResult']='true'

data=urllib.parse.urlencode(data).encode('utf-8')

# 必须对data进行转码

response=urllib.request.urlopen(url,data)

html=response.read().decode('utf-8')

target=json.loads(html)

print('翻译结果:',target['translateResult'][0][0]['tgt'])

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值