![](https://img-blog.csdnimg.cn/20201014180756930.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫实战练习
记录平时的一些爬虫实战练习
热爱学习的小盐巴
这个作者很懒,什么都没留下…
展开
-
【小盐巴学习笔记】—用Python批量爬取优质ip代理
前言一、爬虫分析1.分析网址2.分析数据二、完整代码总结 前言 有时候爬的次数太多时ip容易被禁,所以需要ip代理的帮助。 今天爬的思路是:到云代理获取大量ip代理,逐个检测,将超时不可用的代理排除,留下优质的ip代理。 一、爬虫分析 首先看看今天要爬取的网址 http://www.ip3366.net/free/ 1.分析网址 首先判断网址是动态网址还是静态网址,静态网址就是直接能通过翻页从网址里找到页码,以下是每页的网址: http://www.ip3366.net/free/?stype.原创 2020-12-17 09:33:37 · 512 阅读 · 1 评论 -
【小盐巴学习笔记】—用Python爬取bilibili弹幕并生成词云图
前言一、爬虫分析1.分析网址二、完整代码总结 前言 选了个西游记的片段,爬完发现一群啊啊怪 一、爬虫分析 首先看看今天要爬取的表情包网址(弹幕太多了,就选择了12月1日的弹幕,一次似乎只能爬1000条) https://www.bilibili.com/video/BV1Sa411A7UV?from=search&seid=14924726153743360390 1.分析网址 首先点击F12,根据1234步骤依次点击network->XHR->查看历史弹幕->点击.原创 2020-12-04 09:44:03 · 687 阅读 · 2 评论 -
【小盐巴学习笔记】—用Python批量爬取京东商品评论
【小盐巴学习笔记】—用Python批量爬取京东商品评论一、爬虫分析1.分析网址2.分析数据二、完整代码总结 一、爬虫分析 首先看看今天要爬取的京东商品评论网址 https://item.jd.com/100006262957.html#comment 1.分析网址 首先判断网址是动态网址还是静态网址,静态网址是随着翻页,上方网址会随之变化。如图,当前已经翻页,网页依旧不变,所以今天爬的是动态网址,即局部刷新。 2.分析数据 打开F12,根据123步骤依次点击network->JS->翻原创 2020-12-03 10:39:39 · 567 阅读 · 0 评论 -
【小盐巴学习笔记】—用Python爬取微博热搜
【小盐巴学习笔记】—用Python爬取微博热搜前言一、爬虫分析1.分析数据二、完整代码总结 前言 今天爬取的方式还是正则,但写法略有不同,代码量更少 一、爬虫分析 首先看看今天要爬取微博热搜网址,如此短小精悍 https://s.weibo.com/top/summary 1.分析数据 进入后鼠标右键查看源码,看能不能直接看到数据 呀可以直接看到,省事,直接正则一套带走 二、完整代码 import requests import re import csv # 网址 url='https原创 2020-11-24 11:01:41 · 461 阅读 · 2 评论 -
【小盐巴学习笔记】—用Python爬取百度表情包
【小盐巴学习笔记】—用Python爬取城市名 目录 前言 第一次先整点简单的!! 涨涨信心 一、爬虫分析 首先看看今天要爬取的网址 https://www.aqistudy.cn/historydata/原创 2020-11-20 10:47:36 · 453 阅读 · 0 评论