在爬取动态网页的时候经常要处理批量的数据,常常用到四种函数
#json.dumps(python_data) 将 Python 对象编码成 JSON 字符串
#json.loads(json_data) 将已编码的 JSON 字符串解码为 Python 对象
#json.dump() 用于将Python数据写入到json文件
#json.load() 读取json文件的数据转化到Python数据
常用的爬取动态页面数据的函数是.loads
import json
jsonData = '{"a":1,"b":2,"c":3,"d":4,"e":5}';
text = json.loads(jsonData)
print(text)
#{u'a': 1, u'c': 3, u'b': 2, u'e': 5, u'd': 4}
https://blog.csdn.net/daerzei/article/details/100598901参考
实际结果是用不上,因为返回的不是json文件,是由一个一个对象组成的数据串。
(1)
tart_url=" http://proxylist.fatezero.org/proxy.list"
html=getHtmlData(start_url)
a=re.findall(r'\{[^\}]+\}',html)
匹配{}之间的内容。
正则表达式爬取的仍然是字符,因此还需要转换成字符串
(2)
for i in range(len(a)):
text=json.loads(a[i])
everyIp=text.get('host')
try:
telnetlib.Telnet(everyIp,port='80',timeout=20)
print('success')
SipList.append(everyIp)
except:
print('连接失败')