webspider
文章平均质量分 66
Ch_zhenhua
这个作者很懒,什么都没留下…
展开
-
python-关于爬虫爬取豆瓣电影网址
import jsonimport requests# 爬取豆瓣电影网址class Douban(object): def __init__(self): self.url = 'https://movie.douban.com/j/search_subjects?type=movie&tag=%E6%AC%A7%E7%BE%8E&sort=reco...原创 2018-08-24 10:31:27 · 764 阅读 · 0 评论 -
python-关于爬虫爬取36kr数据
import jsonimport requestsimport reclass Kr36(object): def __init__(self): # 利用首页 self.url = 'https://36kr.com/' self.headers = { 'User-Agent': 'Mozilla/5....原创 2018-08-24 10:35:05 · 1456 阅读 · 0 评论 -
python-关于爬虫爬取贴吧图片
#利用xpath解析列表数据from lxml import etreeimport requestsimport os# 需求:爬取百度贴吧图片,翻页,下载图片保存到本地# 流程:# 1、构建url和headers# 2、发送请求、获取响应# 3、解析列表数据,使用xpath,提取贴吧的列表页面的数据,返回detail_list,next_url# //li[@class="...原创 2018-08-24 21:57:38 · 574 阅读 · 0 评论 -
python-关于爬虫爬取斗鱼直播
# 利用selenium爬取斗鱼直播的标题,类型,用户,和图片链接(相对request较慢)import jsonimport timefrom selenium import webdriverclass Douyu(object): def __init__(self): self.url = 'https://www.douyu.com/director...原创 2018-08-29 11:04:11 · 1400 阅读 · 0 评论 -
python-关于爬虫简单的自定义框架
自定义爬虫框架首先明白一张图"三个内置对象:(request,response,item)五大核心模块(爬虫模块,调度器模块,下载器模块,管道模块,引擎模块)两个中间件(爬虫中间件,下载器中间件)引擎中主要的逻辑关系:示例代码:(未定义中间件) ...原创 2018-09-05 22:02:22 · 717 阅读 · 0 评论