尝试爬取,目前只提取了一部分数据。在数据存储上还是有问题,还未体现Python的间接性质。如果你有好的建议请留言或私信,谢谢。
下面的程序仅做参考,如果有时间再优化吧。
# -- coding: utf-8 -*-
"""
Created on Fri Oct 30 13:18:23 2020
@author: YuDi
"""
import requests
from lxml import etree
import xlwt
headers = {
'User-Agent':'Mozilla/5.0'}
url = "http://q.10jqka.com.cn/"
response = requests.get(url,headers=headers)
content = response.content.decode('GBK')
html = etree.HTML(content)
result = []
res = html.xpath('//div[@id="maincont"]')
for re in res:
names = re.xpath('.//table/tbody/tr/td/a/text()')
nums = re.xpath('.//tbody/tr/td/text()')
#上面已经完成数据的提取
#下面就是数据的存储了,
workbook = xlwt.Workbook()
sheet = workbook.add_sheet