python单线程网络爬虫

源程序:以http://jp.tingroom.com/yuedu/yd300p/网为例
#-*-coding:utf8-*-
import requests
import re
import sys
reload(sys)
sys.setdefaultencoding("gb18030")
type = sys.getfilesystemencoding()


html = requests.get('http://jp.tingroom.com/yuedu/yd300p/')
html.encoding = 'utf-8'
print html.text.encode("gb18030")


title = re.findall('color:#666666;">(.*?)</span>',html.text,re.S)
for each in title:
    print each


chinese = re.findall('color: #039;">(.*?)</a>',html.text,re.S)
for each in chinese:
    print each
 
 
编程中遇到的问题及解决方案:
问题1:字符编码格式不匹配
D:\Python27\python.exe D:/pycharm/class2/test.py
Traceback (most recent call last):
  File "D:/pycharm/class2/test.py", line 12, in <module>
    print html.text
UnicodeEncodeError: 'gbk' codec can't encode character u'\xa9' in position 28478: illegal multibyte sequence


Process finished with exit code 1
 
 
解决方案:将输出字文字的编码设为gb18030即可,代码:
print html.text.encode("gb18030")
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值