一、表格创建
import xlwt
class mang(object):
def __init__(self):
self.workBook=None
self.sheet=None
self.record=1
def get_excel(self):
self.workBook=xlwt.Workbook(encoding='utf-8')
self.sheet=self.workBook.add_sheet('电影排行榜')
self.sheet.write(0,0,'排名')
self.sheet.write(0,1,'影片')
self.sheet.write(self.record,0,rank)
self.sheet.write(self.record,1,name)
self.record+=1
self.workBook.save('豆瓣top250.xls')
二、json格式保存
用codecs提供的open方法来指定打开的文件的语言编码,它会在读 取的时候自动转换为内部unicode
import codecs,json
json.dumps用于将Python对象编码成json字符串
def --init__(self)
self.file=codecs.open(filename='hongxiu.json',mode='w+',encoding='utf-8')
取出图片的下载链接
def get_media_requests(self, item, info):
设置文件路径以及文件名字
def file_path(self, request, response=None, info=None):
三、 PhantomJS
from selenium import webdriver
# 使用webkit无界面浏览器
# 如果路径为exe启动程序的路径 那么该路径需要加一个r
driver=webdriver.PhantomJS(executable_path=r'D:/python/phantomjs-2.1.1-windows/phantomjs-2.1.1-windows/bin/phantomjs.exe')
# 获取指定网页的数据
driver.get('http://news.sohu.com/scroll/')
print(driver.find_element_by_class_name('title').text)