python爬虫爬天猫视频_使用selenium爬取天猫数据.py

最新推荐文章于 2024-07-12 16:14:01 发布

白街山人

最新推荐文章于 2024-07-12 16:14:01 发布

阅读量240

点赞数

文章标签： python爬虫爬天猫视频

本文链接：https://blog.csdn.net/weixin_26913055/article/details/114447523

版权

from selenium import webdriver

from selenium.common.exceptions import TimeoutException

from selenium.webdriver.common.by import By

from selenium.webdriver.support import expected_conditions as EC

from selenium.webdriver.support.wait import WebDriverWait

from urllib.parse import quote

from pyquery import PyQuery as pq

broser=webdriver.Chrome()

wait=WebDriverWait(broser,10)

try:

a=input('请输入你要查找的商品：')

url='https://list.tmall.com/search_product.htm?q='+quote(a)

broser.get(url)

html=broser.page_source

doc=pq(html)

items=doc('.product-iWrap').items()

for i in items:

#print('i是:',i)

pro={

'店铺名':i.find('.productShop-name').text(),

'成交量':i.find('.productStatus').text(),

#'图片地址:':i.find('.productImg-wrap img').attr('src'),

'图片地址':i.attr('src'),

'内容':i.find('.productTitle a').text(),

'价格:':i.find('.productPrice').text()

}

print(pro)

except TimeoutException:

print('出错了')

finally:

broser.close()

一键复制

编辑

Web IDE

原始数据

按行查看

历史

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

白街山人

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

php爬取天猫和淘宝商品数据

10-18

主要为大家详细介绍了php爬取天猫和淘宝商品数据的方法，具有一定的参考价值，感兴趣的小伙伴们可以参考一下

python爬取天猫_Python爬取天猫商品数据

weixin_40001805的博客

12-05

666

使用教程点击这里下载下载chrome浏览器查看chrome浏览器的版本号，点击这里下载对应版本号的chromedriver驱动pip安装下列包pip install seleniumpip install pyquery点击这里登录微博，并通过微博绑定淘宝账号密码在main中填写chromedriver的绝对路径在main中填写微博账号密码#改成你的chromedriver的完整路径地址chrom...

参与评论您还未登录，请先登录后发表或查看评论

【Python爬虫教程】天猫商品数据爬取（演示视频+源码分享+代码解析）

最新发布

m0_62283350的博客

07-12

1613

Python爬虫教程：天猫商品数据爬取（演示视频+源码分享+代码解析）

爬取天猫top100

DragonASDASD的博客

05-18

383

# encoding:utf-8 import requests import re import json from multiprocessing import Pool # 多线程模块 # 获取网页源代码 def get_one_page(url): # 添加头信息 headers = {'User-Agent': 'Mozilla/5.0 (Windows ...

教你一键采集天猫商品主图视频的方法及步骤

m77672471的博客

02-24

1786

多个天猫商品的主图视频要怎么一键采集保存到电脑上呢？看看大家是如何用“视频下载高手”软件来省时间采集的，现在跟小编一起看下操作步骤吧。已下载的商品主图视频展示准备所需要的软件 1、在百度网页上下载软件 2、在第1客服网站中下载软件实例操作步骤 1、双击打开视频下载高手软件，再点击视频素材下载。 2、勾选自动粘贴网址。 3、打开天猫商城挑选想要的商品类型。 4、打开商品选中网址并点击复制链接，接着复制其他商品链接。 5、打开软件可以看到刚才复制的链接已自动粘贴到软件中。 6、单击浏览设置

xiaohongshuSpider_python爬虫_python小红书_python

09-11

标题中的“xiaohongshuSpider_python爬虫_python小红书_python”表明这是一个关于使用Python编写的小红书数据爬虫项目。小红书是一个流行的社交媒体平台，用户分享购物心得、生活方式以及旅行经验等内容，因此爬取其...

selenium爬取京东商品信息.py

07-27

使用selenium爬取京东商城的商品信息，代码与文章中同步，使用时输入想要搜索的商品信息，想要对爬取的结果进行更改或者其他操作时，使用数组对products数组进行提取。

selenium爬取京东商品信息.py.zip

04-08

【标题】"selenium爬取京东商品信息.py.zip" 提供了一个使用Python的Selenium库来抓取京东网站商品信息的实例。Selenium是一个强大的Web自动化测试工具，它允许我们模拟真实用户对网页的交互，这在网页爬虫中特别...

爬取百度翻译.py_数据挖掘；python_百度翻译爬取_

09-30

总的来说，"爬取百度翻译.py"项目涵盖了Python爬虫技术的多个方面，包括网络请求、网页解析、数据处理以及可能的数据挖掘应用。这个项目不仅可以帮助我们理解网络爬虫的工作原理，还能够提供实际的翻译数据，为后续...

天猫（淘宝）数据爬取源码（可直接使用）.zip

07-08

本资源包含一个名为"天猫（淘宝）数据爬取源码（可直接使用）.zip"的压缩包，其中包含了用于爬取天猫和淘宝平台商品数据的Python源代码。主要涉及的知识点包括网络爬虫技术、Python编程语言以及数据存储。 1. **...

tamll_spider:天猫商城数据爬取，python简单无框架源码附带数据库

03-22

tamll_spider:天猫商城数据爬取，python简单无框架源码附带数据库

selenium+python爬取天猫商品.zip

06-03

所上传的资源是selenium+python爬取天猫商品，内含源代码+mysql数据库脚本+详细部署视频，另外还对过程中可能出现的问题进行了汇总，对于正在学习这方面的你是一个很好的选择，希望对你有所帮助。

tp5 利用QueryList + PhantomJS实现抓取淘宝京东天猫商品数据

12-20

tp5 利用QueryList + PhantomJS实现抓取淘宝京东天猫商品数据商品图片,商品详情,规格,参数,价格都能完美获取

Python 天猫评论爬取（正则）

天上掉下两毛钱

02-19

1604

通过分析Ajax请求可以看到天猫评论的地址规律变化：http://rate.tmall.com/list_detail_rate.htm?itemId=560016036932&sellerId=2103295383&currentPage=1其中itemId是商品id，sellerid是卖家id，currentPage是页面号那么拿到一个商品的URL后，通过分析源代码可以筛选出 ...

selenium爬取bilibili热门视频排行榜

s243471087的博客

04-28

1284

爬取内容为：排名，标题，播放量，弹幕量，作者名结果如下： 1 【梗百科43】梗百科完结？从不正眼看人的社会小猪！？真讲究！吃素的狮子 15.8万 3362 2 【纯黑】《战神4》最高难度无伤攻略解说第二期纯黑爺 35.5万 8324 注： if name == ‘main‘和def init (self), 这两个代码部分无法显示双下划线.需要在nam...

天猫商城自动化python脚本（仅供初学者学习使用）

热门推荐

Eason_LYC安全白帽子的成长博客

02-13

1万+

从前年开始，天猫和京东就推出各类抢购活动，最有代表性的就是53°飞天茅台的抢购，那个抢到后真金白银能赚到钱。本文介绍的脚本仅是实现淘宝从购物车自动全选、结算、下单直到付款的自动化脚本工具，是一个非常初级简单的脚本。抢到这个茅台不太可能，但是一般的商品自动化没问题。但是对于初学者能非常好的get到思路，并能直接看到效果。

python爬虫，使用srapy框架以及selenium爬取当当网（http://search.dangdang.com/）搜索框中输入python后的图书数据，请帮我写出具体代码

06-10

好的，这是一个比较常见的需求，需要用到 Scrapy 框架和 Selenium 库。首先，需要在 Scrapy 中创建一个 Spider，并设置起始 URL 为当当网的搜索页面（http://search.dangdang.com/?key=python&act=input）。然后，需要在 Spider 中使用 Selenium 库模拟用户在搜索框中输入关键词，并点击搜索按钮，以便加载出搜索结果页面。接下来，我们需要在 Scrapy 的 Item 中定义图书的相关属性，例如书名、作者、出版社、价格等。然后，在 Spider 中通过 XPath 或 CSS Selector 解析搜索结果页面，提取出每本图书的相关信息，同时使用 Scrapy 的 Item Pipeline 将数据保存到本地或者数据库中。最后，我们可以使用 Scrapy 的自带命令启动 Spider，开始爬取数据。当然，具体实现还需要考虑很多细节问题，例如如何处理页面的异步加载、如何使用代理IP等等。下面是使用 Scrapy 框架和 Selenium 库爬取当当网搜索结果的具体代码：首先，在终端中使用以下命令创建一个新的 Scrapy 项目： ```bash scrapy startproject dangdang cd dangdang ``` 然后，在项目根目录下创建一个名为 `spiders` 的文件夹，用于存放 Spider。接下来，在 `spiders` 文件夹下创建一个名为 `dangdang_spider.py` 的文件，用于编写 Spider 的代码。首先，在文件头部导入必要的库： ```python import scrapy from selenium import webdriver from scrapy.selector import Selector from dangdang.items import DangdangItem from selenium.webdriver.common.by import By from selenium.webdriver.support.ui import WebDriverWait from selenium.webdriver.support import expected_conditions as EC ``` 其中，`scrapy` 用于创建 Spider，`webdriver` 用于模拟用户操作，`Selector` 用于解析 HTML 页面，`DangdangItem` 用于定义数据结构。然后，在 `DangdangSpider` 类中定义必要的属性和方法： ```python class DangdangSpider(scrapy.Spider): name = 'dangdang' allowed_domains = ['dangdang.com'] start_urls = ['http://search.dangdang.com/?key=python&act=input'] def __init__(self): self.driver = webdriver.Chrome() def parse(self, response): self.driver.get(response.url) wait = WebDriverWait(self.driver, 10) wait.until(EC.presence_of_element_located((By.CSS_SELECTOR, ".m-list .line1 .pic"))) sel = Selector(text=self.driver.page_source) items = [] for book in sel.css(".m-list .line1"): item = DangdangItem() item["name"] = book.css(".name a::attr(title)").extract_first() item["author"] = book.css(".search_book_author span:nth-child(1)::text").extract_first() item["publisher"] = book.css(".search_book_author span:nth-child(3)::text").extract_first() item["price"] = book.css(".price .search_now_price::text").extract_first() items.append(item) return items def closed(self, reason): self.driver.quit() ``` 其中，`name` 属性为 Spider 的名字，`allowed_domains` 属性为允许爬取的域名，`start_urls` 属性为起始 URL。在构造函数中，我们创建了一个 Chrome 浏览器实例，用于模拟用户操作。在 `parse` 方法中，我们通过 `driver.get` 方法打开搜索页面，然后使用 `WebDriverWait` 等待页面加载完成，使用 `Selector` 解析页面内容，并提取出每本图书的相关信息，存储到 `DangdangItem` 中，并返回列表。最后，在 `closed` 方法中，我们关闭 Chrome 浏览器实例，释放资源。接下来，在项目根目录下创建一个名为 `items.py` 的文件，用于定义数据结构： ```python import scrapy class DangdangItem(scrapy.Item): name = scrapy.Field() author = scrapy.Field() publisher = scrapy.Field() price = scrapy.Field() ``` 在 `DangdangItem` 类中，我们定义了图书的四个属性，分别对应书名、作者、出版社、价格。最后，在终端中使用以下命令启动 Spider： ```bash scrapy crawl dangdang ``` 这样就可以开始爬取当当网搜索结果的数据了。当然，为了使 Selenium 正常运行，我们还需要在系统中安装 Chrome 浏览器和 ChromeDriver，并将 ChromeDriver 的路径加入系统环境变量中。