2016.12.27
在学习Python之前就闻Python在爬虫方面有着很好作用。下面来说说什么是爬虫?
网络爬虫是一种程序,主要用于搜索引擎,它将一个网站的所有内容与链接进行阅读,并建立相关的全文索引到数据库中,然后跳到另一个网站,样子像一只大蜘蛛。
1.JSON是什么?
JSON指的是JavaScript对象表示法(JavaScript Object Notation)
JSON是存储和交换文本信息的语法,类似XML
JJSON比xml更小,更快,更易理解。
JSON是轻量级的文本数据交换格式
JJSON独立于语言。
JSON具有自我描述性,更易理解。
2.两种常见的HTTP方法是:GET和POST
什么是HTTP?
超文本传输协议(HTTP)的设计目的是保证客户端与服务器之间的通信,HTTP的工作方式是客户端与服务器之间的请求-应答协议。
GET-从指定的资源请求数据
POST-向指定的资源提交要被处理的数据。
下面是一段关于Python的代码,结果是能够翻译你输入的类容。
import urllib.request
import urllib.parse
import json
content = input("请输入需要翻译的内容:")
url = "http://fanyi.youdao.com/translate?smartresult=dict&smartresult=rule&smartresult=ugc&sessionFrom=http://www.youdao.com/"
data = {}
data['type'] = 'AUTO'
data['i'] = content
data['doctype'] = 'json'
data['xmlVersion'] = '1.6'
data['keyfrom'] = 'fanyi.web'
data['ue'] = 'UTF-8'
data['typoResult'] = 'true'
data = urllib.parse.urlencode(data).encode('utf-8')
response = urllib.request.urlopen(url, data)
html = response.read().decode('utf-8')
target = json.loads(html)
print("翻译结果:%s" % (target['translateResult'][0][0]['tgt']))
获取状态码的两种方式:
第一种是用urllib模块。下面是咧示代码:
import request.urllib
status=request.urllib.urlopen("http://www.jb51.net").get_code
print status
第二种是用requests模块,下面是列示代码:
import requests
code=requests.get("http://www.jb51.net").status_code
print(code)