0开始学py爬虫(学习笔记)(第4部分)(多线程练习)

使用多协程和队列,爬取时光网电视剧TOP100的数据(剧名、导演、主演和简介),并用xlsx模块将数据存储下来。时光网TOP100链接:http://www.mtime.com/top/tv/top100/#提示:#1.分析数据存在哪里(打开“检查”工具,刷新页面,查看第0个请求,看【response】)#2.观察网址规律(多翻几页,看看网址会有什么变化)#3.获取、解析和提取数据(...
摘要由CSDN通过智能技术生成

使用多协程和队列,爬取时光网电视剧TOP100的数据(剧名、导演、主演和简介),并用xlsx模块将数据存储下来。

时光网TOP100链接:http://www.mtime.com/top/tv/top100/


#提示:
#1.分析数据存在哪里(打开“检查”工具,刷新页面,查看第0个请求,看【response】)
#2.观察网址规律(多翻几页,看看网址会有什么变化)
#3.获取、解析和提取数据(需涉及知识点:queue、gevent、request、BeautifulSoup、find和find_all)
#4.存储数据(csv本身的编码格式是utf-8,可以往open()里传入参数encoding='utf-8'。这样能避免由编码问题引起的报错。)
#注:在练习的【文件】中,你能找到自己创建的csv文件。将其下载到本地电脑后,请用记事本打开,因为用Excel打开可能会因编码问题出现乱码。

#导包
#请求top100
#1.剧名:mov_con下的px14 c_fff.text 2.导演:mov_con下的 第一个p c_fff.text 3.演员:mov_con下的 第二个p 下的a c_fff.text 数组 4.mov_con下的 mt3.text
#循环上述请求步骤10次,方可请求100条
#拿到了上一步数据,放到一个列表,循环放入csv,关闭

#导入selnuim库,等待渲染完成再爬,数据都在js里,等待插入完成再爬取
from gevent import monkey
monkey.patch_all()
import gevent,requests,openpyxl,time
from gevent.queue import Queue
from bs4 import BeautifulSoup
from selenium import webdriver #从selenium库中调用webdriver模块
driver = webdriver.Chrome() # 设置引擎为Chrome,真实地打开一个Chrome浏览器

work=Queue()#创建队列
csv_list=[]#用来插入xlsx表格的列表

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值