从收到任务到完成任务大概用了两天半,期间出现好多问题,如:
1.爬到的信息格式不正确,不是字典形式;
2.爬出来的缺少信息;
3.爬出来的信息无法用中文显示;
4.爬出来的信息无法写进文件
.......
废话不多说,还是直接上代码吧.....不懂的自行百度~~~
# -*- coding:utf-8 -*-
import re
import urllib2
import json
import time
import sys
reload(sys)
sys.setdefaultencoding('utf8')
def get_dict():
data = []
f = open('xa35.json', 'a+')
for k in range(0, 4):
if k == 0:
url1 = 'http://comment.news.163.