淘宝爬虫1

淘宝爬虫

爬取淘宝上的数据:销量啊、价格啊、以及好评等等。
这里以selenuim为例,来介绍一下淘宝商品的爬取过程。
在此之前,需要确保selenuim和浏览器驱动chromedriver已经安装好。

淘宝页面分析

查找内容输入的标签
内容的输入需要自定,所需需要先找出输入框,便于输入查找操作。同理查找出搜索按钮所在标签。后面需要爬取多页的数据,这里通过解析比较不同页面的url链接,来构建新的网链接来完成翻页的功能(构建新的url可能会引发网站的反爬措施)。页面终止需要知道总页数。实现功能如下:


```python
def search():
    driver.find_element_by_id('q').send_keys('python')
    driver.find_element_by_class_name('btn-search').click()
    # 为了避免报错,可以在这异常设置
    time.sleep(10)
    while 1:
        start = time.process_time()
        try:
            token=driver.find_element_by_xpath('//div[@id="mainsrp-pager"]/div/div/div/div[1]').text
            print('已定位到元素,元素为'+token)
            end=time.process_time()
            break
        except:
            print('还未定义到元素')
    print('定位耗时时间'+str(end-start))
    token=int(re.compile('\d+').search(token).group(0))
    return token

点击搜索之后,页面不会直接弹出商品列表,弹出的是一个登陆页面,这时需要自己进行扫码登陆。(这种方法比较笨,爬取 到一半左右可能会出现滑块检测,可以选择火狐的浏览器进行解决。)

 模拟鼠标的滑动,处理部分图片不显示问题,采用JS的鼠标滑动的功能来实现。

```python
def drop_down():
    for x in range(1,11,2):
        time.sleep(0.5)
        j=x/10
        js='document.documentElement.scrollTop = document.documentElement.scrollHeight * %f' 
  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
引用\[1\]:不同的网站对于爬虫的态度是不同的,有的站点可能欢迎“善意”的爬虫爬取自己站点的信息,甚至刻意优化自己的网页,以方便爬虫获取网站信息;有的站点可能不喜欢任何爬虫的爬取;有的可能只允许部分爬虫爬取自己的网页,但是会拒绝其他的爬虫爬取网页。为了应对爬虫的爬取,各大网站会设置反爬虫机制,通过一定的技术手段,限制爬虫爬取自己网站的信息。\[1\]引用\[2\]:爬虫本身在法律上是不被禁止的,但是编写爬虫程序时需要注意两点:一是合理设置爬虫爬取的速度,避免干扰被访问网页的正常运营;二是注意不要爬取受法律保护的信息,尤其是他人的隐私数据等。\[2\]引用\[3\]:爬虫是通过编写程序模拟浏览器访问Web网页,并提取所需数据的技术。编写爬虫程序通常包括模拟浏览器访问和数据提取两个部分。爬虫可以快速筛选互联网上的指定数据信息,具有很高的应用价值。\[3\] 根据以上引用内容,编写Python爬虫需要注意以下几点: 1. 尊重网站的反爬虫机制,遵守网站的爬虫规则。可能设置了反爬虫机制,需要通过一定的技术手段来限制爬虫的访问。因此,在编写爬虫程序时,需要注意避免干扰网站的正常运营。 2. 合法合规地爬取数据。在编写爬虫程序时,需要遵守法律法规,不要爬取受法律保护的信息,尤其是他人的隐私数据等。确保所爬取的数据是公开的、合法的,并且在使用这些数据时要遵守相关法律法规。 3. 尊重网站的爬虫规则。可能在其网站的主页面下创建了robots.txt文件,规定了哪些爬虫可以爬取哪些网页,或者不可以爬取哪些网页。在编写爬虫时,需要遵守robots协议,避免违反网站的规定。 4. 注意爬虫的速度和频率。合理设置爬虫的爬取速度,避免对网站造成过大的访问压力,以免干扰其正常运营。可以使用sleep()函数来增加爬虫爬取网页的时间间隔,避免过于频繁地访问网站。 总之,编写Python爬虫需要遵守网站的反爬虫机制,合法合规地爬取数据,并注意爬虫的速度和频率,以确保爬虫程序的合法性和稳定性。 #### 引用[.reference_title] - *1* *2* *3* [Python爬虫详解](https://blog.csdn.net/weixin_40228200/article/details/128389551)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^insertT0,239^v3^insert_chatgpt"}} ] [.reference_item] [ .reference_list ]
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值