首先说 为什么要做这个东西,日常中主要有两个方向。
1.有api接口。比如我们通过url提交返回一个json串,来获取我们想要东西:例
http:12345/我要提交的数据:abcd
提交之后,web后端把abcd写入数据库,同时给你返回一个成功的状态
2.爬虫页面
这个其实包括了第一个,前者也算是跑去页面,只不过前者在网页上只会显示一个json虫,后者则是一个花花绿绿比较常见的web页面。
主要用到的工具 curl(linux),urllib包(python)curl
curl是linux内置的url工具,比较方便urlib
这个东西用起来有时候挺糟心的,主要就是python2,3上urllib的改版搞得很多函数找不到,你再3上写的函数,到了2就用不了,还是就是python3的unicode码和python2的byte关系。
先上一个2.3通用的吧 six包该方法要借用requests,python2默认没有
同时这个方法有一个很大的问题,当json字符串比较长的时候,包含其他乱七八糟的东西,在json()这一步的时候会报错,暂时没有找到解决方案。
import requests
from six.moves.urllib.parse import urlencode
# 请求示例 url
url = "http://api01.idataapi.cn:8000/nlp/segment/bitspaceman?apikey={您的apikey}"
headers = {
"Accept-Encoding": "gzip",
"Connection": "close"
}
# body 参数填这里
post_param = {}
if __name__ == "__main__":
r = requests.post(url, data=urlencode(post_param), headers=headers)
json_obj = r.json()
print(json_obj)
再 上一个python3专属的
2.x版本有两个,urllib和urllib2,在3.x版本整合到了一起。
import urllib
import urllib.request
test_data = {'ServiceCode':'aaaa','b':'bbbbb'}
test_data_urlencode = urllib.parse.urlencode(test_data).encode(encoding='UTF8')
requrl = "http://news-at.zhihu.com/api/2/news/latest"
req = urllib.request.Request(url = requrl, )# data =test_data_urlencode
print(req)
res_data = urllib.request.urlopen(req)
res = res_data.read()
print(res.decode('utf-8'))
注意python3与2的字节编码问题,所以要encode和decode。
再上一个python2.x版本的
from __future__ import print_function
import urllib
import urllib2
test_data = {'ServiceCode':'aaaa','b':'bbbbb'}
test_data_urlencode = urllib.urlencode(test_data)
requrl = "http://news-at.zhihu.com/api/2/news/latest"
req = urllib2.Request(url = requrl,data =test_data_urlencode)
print(req)
res_data = urllib2.urlopen(req)
res = res_data.read()
print(res)
这里就不实验了,因为我本地3台机器都是python3环境。有2环境都是服务器,服务器是禁止访问外网。
最后说爬虫,python有爬虫工程scarpy,但有的时候我们只是想爬单个比较简单页面,这时候urllib就比较方便【Python3~爬虫工具】使用urllib库-不积跬步无以至千里-51CTO博客blog.51cto.com