python爬取内容重复输出_使用scrapy爬取新浪电影库，只能爬取到前两页内容，后边全是重复页面...

最新推荐文章于 2021-02-27 11:40:37 发布

weixin_39917437

最新推荐文章于 2021-02-27 11:40:37 发布

阅读量172

点赞数

文章标签： python爬取内容重复输出

import scrapy

from sina.items import MovieItem

from scrapy_splash import SplashRequest

import time

import re

class SinaspiderSpider(scrapy.Spider):

name = 'sinaspider'

allowed_domains = ['ent.sina.com.cn']

start_urls = ['http://ent.sina.com.cn/ku/movie_search_index.d.html?page=1&cTime=1546971817&pre=next']

def start_requests(self):

for url in self.start_urls:

yield SplashRequest(url,args={'images': 0, 'timeout': 3})

def parse(self, response):

'''

1。获取文章列表页中的文章url并交给scrapy下载后并进行解析

2。获取下一页的url并交给scrapy，下载完成后交给parse

'''

for sel in response.css('ul.tv-list li'):

director = sel.css('.item-intro.left p:nth-child(3)::text').extract_first()

yield {'director': director}

href = response.css('.next-t.nextPage::attr(href)').extract_first()

if href:

t = str(int(time.time()*1000))

temp = re.match('.*page=(\d+).*', href)

p = int(temp.group(1))+1

url = 'http://ent.sina.com.cn/ku/movie_search_index.d.html?page='+str(p)+'&cTime='+t+'&pre=next'

yield SplashRequest(url, args={'images': 0, 'timeout': 3})

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_39917437

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

python中scrapy可以爬取多少数据_如何使用Scrapy爬取网站数据

weixin_36255718的博客

01-29

342

编者按：斯克里普斯研究所数据科学家Michael Galarnyk介绍了如何使用Scrapy爬取网站数据。我刚开始在业界工作时，首先意识到的一件事情是，有时候需要自己收集、整理、清洗数据。在这篇教程中，我们将从一个众筹网站FundRazr收集数据。和许多网站一样，这个网站有自己的结构、形式，还有众多有用的数据，但却没有一个结构化的API，所以获取数据并不容易。在这篇教程中，我们将爬取网站数据，将其...

【无标题】为什么只能爬取第一页，打开第二页可以爬第二页

weixin_44740146的博客

05-01

323

import requests from bs4 import BeautifulSoup import re import pandas as pd import time def ask_html(url,headers): response = requests.get(url,headers=headers).text response.encode('GBK') return response def bs_html(html): soup = Beaut.

参与评论您还未登录，请先登录后发表或查看评论

python爬取内容重复输出_python3爬虫重复返回第一页

weixin_39781143的博客

11-24

437

预爬取“i春秋”课程栏目内 16页中的所有课程名称。网页采取的是POST。简单地用requests模块写出了文件，然而返回结果全是i春秋的第一页的课程名称。请问是我代码问题还是i春秋的防爬机制比较强？希望大佬们能给点指导，代码我就贴下面了。import requestsimport jsonurl_begining = 'https://www.ichunqiu.com/courses/ajaxC...

网络爬虫之Scrapy实战二：爬取多个网页

05-10

1万+

在上一篇scrapy介绍中，我们抓取了单一的网页。这一章介绍了如何自动抓取多个网页。这里还是以一个小说的页面为例子进行讲解

Python利用Scrapy框架爬取豆瓣电影示例

09-18

Python通过Scrapy框架可以高效地进行网络爬虫开发，本篇内容将详细介绍如何使用Scrapy框架爬取豆瓣电影信息，并分享具体操作步骤、实现技巧及注意事项。首先，要安装Scrapy框架，可以通过Python的包管理工具pip...

python爬取京东手机数据_用scrapy爬取京东的数据

weixin_39526185的博客

11-21

1210

本文目的是使用scrapy爬取京东上所有的手机数据,并将数据保存到MongoDB中。一、项目介绍主要目标1、使用scrapy爬取京东上所有的手机数据2、将爬取的数据存储到MongoDB环境win7、python2、pycharm技术1、数据采集：scrapy2、数据存储：MongoDB难点分析和其他的电商网站相比，京东的搜索类爬取主要有以下几个难点：1、搜索一个商品时，一开始显示的商品数量为30个...

15_Scrapy跨页面爬取GitHub仓库数据.zip

最新发布

08-23

【标题】"15_Scrapy跨页面爬取GitHub仓库数据.zip" 提示我们这是一个使用Scrapy框架进行Python爬虫实战的项目，目标是抓取GitHub上的仓库信息。Scrapy是一个强大的、开源的爬虫框架，它允许开发者高效地编写爬虫程序...

python爬取论坛付费内容_【scrapy爬虫实战】Discuz 论坛版块全部帖子信息爬取

weixin_39983993的博客

11-24

1507

Discuz 论坛模块全部帖子和评论爬取Discuz 是一款由PHP编写的开源论坛image.png要爬取的页面地址:创建工程scrapy startproject discuzC:\Users\PeiJingbo\Desktop\discuz>scrapy startproject discuzNew Scrapy project 'discuz', using template directo...

python 20、爬虫 08-1_Scrapy中数据持久化存储、多级子页面爬取_Day08_am.mp4

03-09

python 20、爬虫 08-1_Scrapy中数据持久化存储、多级子页面爬取_Day08_am.mp4

scrapy爬取页面不完全的解决办法

吟游诗人——吟唱生命的不朽

12-25

5176

最近在使用scrapy来制作爬虫以爬取一些网站上的信息，但是却出现了一个很奇怪的问题，即在网页中打开待爬取的URL，并在网页源代码中定位了某些待爬取的元素，但是当使用scrapy爬取数据时，却发现报错了，而错误竟然是所爬取到的网页中并没有我在浏览器中看到的元素，即对于同一个URL，爬取到的页面和我在浏览器中打开所看到的页面不一样！在反复确认CSS类选择器没写错，爬虫所爬取的URL没有被重定向到另...

Scrapy入门-翻页爬取及抓取链接页内容

千金散尽还复来

02-27

3235

爬取目标在前文《scrapy入门-环境安装及demo运行》中，我们了解了如何利用Scrapy框架进行单一网页的数据抓取。然而，很多场景下，想要抓取的数据比较多，会分好几页展示。一种常见的形式是，网站有一个索引页，索引页中包含许多列表项，同时有分页系统。点击索引页中的列表项，跳转到列表项对应的详情页中。本文中，我们将以自如租房网页的抓取为例，介绍如何实现翻页爬取1-50页的租房列表爬取和每个房源链接详情页内容数据的爬取。 CrawlSpider Scrapy提供了一个CrawlSpider

scrapy爬取数据时出现所有数据都重复问题

qq_43231261的博客

02-19

3656

目标爬取这个网站的http://www.wdzb.org.cn/forum.php?mod=forumdisplay&fid=99&typeid=34&typeid=34&filter=typeid&page=1（中国老龄网的新闻资讯板块），从新闻列表获取新闻详情页的链接，爬取详情页的内容。 spider.py # -*- coding: utf-8 -*...

python爬取内容重复输出_Python从零开始写爬虫-6 重复抓取,代理以及总结

weixin_40002238的博客

11-22

417

在前面一节中,我们终于获得了自己的离线小说, 但是也存在一些问题.每次都重新抓取在实际中,很难保证一次抓取就抓取到自己全部需要的网页,所以我们需要避免重复抓取.这里一般有两种策略.确定我还有多少没有下载确定我下载了多少第一种方法, 获取一次目录之后,将需要下载的章节本地保存, 然后每下载一个文件就将这条记录删除.第二种方法, 每次运行都重新获取目录, 然后确定吧本地那些已经下载了, 取交集我们这里...

记录scrapy爬虫犯的部分数据重复错误

cp's blog

01-07

987

scrapy 爬虫在爬取列表页时，发现有部分数据是重复的，找啊找啊发现，在写for 循环时将item放到了for循环外面，代码如下： def parse_list(self, response): item = DataItem() if response.status != 200: print(response.status) else: datas = json.loads(response.tex

python爬取内容重复输出_python - scrapy 如何高效的避免采集到重复数据?

weixin_39567013的博客

11-24

809

问题目前有一只爬虫,爬取的文章数量不是很大,但是以后会慢慢累加上去.不过现在要做的一个是,在爬取的时候,需要先判断这个url有没有存在数据库,如果存在就不插入了.我目前想到的思路是,每次采集的时候,都做一下判断: ( 查询一下就数据库 )但是这样感觉很低效.而且如果数据库里面有上百万的数据,每次都做一次判断那岂不是很慢!!?有高效的方式吗?解决方案1. scrapy对request的URL去重y...

面试妥了！2020 爬虫面试题目合集