大家好,给大家分享一下python 爬虫抓取网页数据导出excel,很多人还不知道这一点。下面详细解释一下。现在让我们来看看!
自学Python的时候,在网上看见一篇比较简单的爬虫小项目,于是自己便也想跟着别人的代码来学一下.
看着这位博主的代码敲的以下代码,基本上都一致.
第一部分:根据URL进行数据的爬取
# -*-coding:utf-8-*-
import urllib2
import sys
from bs4 import BeautifulSoup
# 写入Excel表需要使用的库
from openpyxl import Workbook
reload(sys)
sys.setdefaultencoding('utf-8') # 设置系统默认编码
print sys.version # 打印当前版本信息
sys.setdefaultencoding('utf-8')
# 为了方便翻页将网址代码分成两部分
urlstart = 'http://my.yingjiesheng.com/index.php/personal/xjhinfo.htm/?page='
urlend = '&cid=&city=21&word=&province=0&schoolid=&sdate=&hyid=0'
setSQLData = []
# 爬取数据 总页数64,为了练习,就取20页
for i in range(1, 11):
url = urlstart + str(i) + urlend
print '正在打印:' + url;
request = urllib2.urlopen(url)
html = request.read()
bs = Bea