网络爬虫,python和数据分析学习--part3

# -- coding: utf-8 --
“””
Created on Tue Oct 10 10:59:56 2017
本段程序为科大王澎老师《网络爬虫,python和数据分析》中P15,针对spyder3做了微调
主要任务:解决了中文乱码问题
@author:
“””
import re
import urllib.request
import pymysql
from bs4 import BeautifulSoup
import time #延时用,如果不延时,可以不加
aaa = 3640
url1=’http://bbs.ustc.edu.cn/cgi/bbstdoc?board=PieBridge&start=
while aaa>0:
time.sleep(1)#延时,为的是环节被爬网站的压力
aaa=aaa-20#网站link有规律,每页递减20,利用该规律设置每次赋入的URL,爬完所有贴
aaa1=str(aaa)
url1=url1+aaa1
fp=urllib.request.urlopen(url1)
try:
s=fp.read().decode(‘gb2312’,’ignore’)#把gb2312改为网页编码
#下面修改网页内容s的编码设置
s=re.sub(‘charset=gb2312’,’charset=gb2312=utf-8’,s,re.I)
s=s.encode(‘utf-8’,’ignore’)
except:
s=fp.read()
soup=BeautifulSoup(s)
polist=soup.findAll(‘span’)
print (polist[0].contents[0])

图片

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值