![](https://img-blog.csdnimg.cn/20201014180756926.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
python爬虫
文章平均质量分 90
翎子生。
五年Python开发,分享一些基础的Python知识。
展开
-
终于,我用Python爬虫批量保存了P站的靓图
今天我决定爬虫下 P站的图片,我们首先打开网站研究下。不好意思,手抖打错了,应该是下面这个网站。众所周知,插图网站 pixiv 别名叫 P站,所以今天我用爬虫批量保存二次元P站的靓图。P站主要分为四个模块,插画、动图、漫画、小说,小说和漫画都是日文,看不懂,所以今天的目标就是插画和动图了。很多人学习python,不知道从何学起。很多人学习python,掌握了基本语法过后,不知道在哪里寻找案例上手。很多已经做案例的人,却不知道如何去学习更加高深的知识。那么针对这三类.原创 2021-01-19 17:45:35 · 932 阅读 · 0 评论 -
Python爬虫:设置Cookie解决网站拦截并爬取蚂蚁短租
我们在编写Python爬虫时,有时会遇到网站拒绝访问等反爬手段,比如这么我们想爬取蚂蚁短租数据,它则会提示“当前访问疑似黑客攻击,已被网站管理员设置为拦截”提示,如下图所示。此时我们需要采用设置Cookie来进行爬取,下面我们进行详细介绍。非常感谢我的学生承峰提供的思想,后浪推前浪啊!一. 网站分析与爬虫拦截当我们打开蚂蚁短租搜索贵阳市,反馈如下图所示结果。我们可以看到短租房信息呈现一定规律分布,如下图所示,这也是我们要爬取的信息。通过浏览器审查元素,我们可以看到需要爬取..原创 2020-12-18 09:49:03 · 455 阅读 · 0 评论 -
如何 Import 自定义的 Python 模块?
【导语】:实际工作中,经常要用的功能能不能像导入python模块一样,通过import导入呢?答案当然是可以的,本文教你如何做,大家一起来学习吧!背景在实际的工作过程中,经常会用到一个功能,如果每次编写代码的时候都进行重新编写或者打开已经编写好的函数进行复制粘贴,这样就显得很麻烦,有没有什么方法可以像导入python模块的那样,直接把要用的函数以模块名+方法的形式调用呢?答案当然是可以的,比如做数据分析时候经常要使用的功能是:实现某一路径下的所有xlsx的合并,文件如下直接给出合并.原创 2020-12-07 09:18:09 · 178 阅读 · 0 评论 -
爬虫实战 | 手把手用Python教你采集&可视化知乎问题的回答(内附代码)
问题链接https://www.zhihu.com/question/432119474/answer/1597194524爬虫设计流程探寻网址规律 尝试对某一网页访问 解析感兴趣的数据 存储到csv 整理汇总代码1. 探寻网址规律按F12键打开开发者工具, 选中network面板,点击查看全部6217个回答 准备观察开发者工具中的监测到的网址 对每个网址经过下图456操作 点击preview 查看content与当前页面的回答是否一致 最终发现...原创 2020-12-05 10:26:52 · 673 阅读 · 0 评论 -
用Python爬取英雄联盟(lol)全部皮肤
首先,我们打开英雄联盟官网主页,网址为:https://lol.qq.com/main.shtml,然后向下拉,可以看到英雄列表,如图所示:接着随意选一个英雄点击进入看一下,如图所示:再点击鼠标右键,接着选择检查,看一下皮肤的 URL,如图所示:通过观察,可以发现英雄皮肤 URL 组成方式为:https://game.gtimg.cn/images/lol/act/img/skin/big + 英雄id + 皮肤id.jpg。我们先看皮肤id,也就是看皮肤的个数,选择开发者工具的原创 2020-11-30 10:01:43 · 3206 阅读 · 1 评论 -
当你通过 Python 请求网站得到一堆无厘头的 JS 时...
今天给你分享一下篇反反爬的实例。一个思路,也许给你带来些许启发..也许你会遇到这样的情况:打开某个网站,可以看到页面是正常显示的,但是当你通过 Python 去请求的时候,你会得到一堆无厘头的 JS..像这样的操作,应该怎么玩呢?接下来由我给大家演示一下。很多人学习python,不知道从何学起。很多人学习python,掌握了基本语法过后,不知道在哪里寻找案例上手。很多已经做案例的人,却不知道如何去学习更加高深的知识。那么针对这三类人,我给大家提供一个好的学习平台,免费原创 2020-11-17 09:17:38 · 179 阅读 · 0 评论 -
python超简单爬虫,一点点代码就可以爬取整个页面。
一个很简单的爬虫脚本,把代码里面的url地址改成想爬的地址就可以爬其他网站,不过要注意的事,因为代码很简单,有反爬的网站爬出来的信息可能不是想要的东西import urllib.request # 导入包def getHtml(url): # 获取html的内容 html = urllib.request.urlopen(url).read() # bytes 如果不用read()html会是一个↓ return html原创 2020-10-28 14:05:56 · 552 阅读 · 0 评论 -
简单易懂!推荐给自学python的小项目实战!
最近有挺多朋友都在自学Python,学着在网上采集一些数据,以前都是用火车头采集的,感觉很不灵活,于是他们就花了一些时间学下python,来找我推荐一些类似的小项目练练手,我就写了几个小项目,给他们。一个是抖音去水印另外一个是爬取B站上的视频弹幕,用结巴分词,再用词云生成一张图片请忽略变量命名 变量命名随便取的1.抖音去水印import requestsimport reimport json def download_page(url, pc=True): if原创 2020-10-28 13:35:15 · 338 阅读 · 0 评论 -
女朋友说A罩杯最流行,我用python爬了几十万的购买数据来证明她是在狡辩!
和女朋友看了《大赢家》,里面出来了柳岩,就和女朋友讨论了一下罩杯的问题。女朋友说A罩杯是最流行的!优秀的人所有都是A!我和她友好地讨论了许久!我觉得她就是在狡辩!绝对是在狡辩!所有我有必要来用python爬取一下中国女性的罩杯数据!声明:我是为了证明女朋友是在狡辩!绝不是被赶出来了!!代码如下(评论里有些照片倒是不错,改点代码就能下载了哦):import requestsimport reimport timefrom lxml import etree de原创 2020-10-28 11:37:52 · 323 阅读 · 0 评论 -
python爬虫,短短25行代码批量下载豆瓣妹子图片
python爬虫学习教程,短短25行代码批量下载豆瓣妹子图片、非常简短,代码不是很多非常适合新手练习!代码展示:#!/usr/bin/env pythonimport urllib.requestfrom bs4 import BeautifulSoupdef crawl(url):headers = {'User-Agent':'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.6) Gecko/20091201 Fir原创 2020-10-27 10:33:03 · 1095 阅读 · 1 评论 -
Python爬取素材网站的音频文件
这篇文章主要介绍了基于Python爬取素材网站音频文件,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下,另外我建立了一个Python学习圈子群:1156465813,在这里可以一起交流Python。基本环境配置 python 3.6 pycharm requests parsel 相关模块pip安装即可目标网页请求网页import requestsurl = 'https://www...原创 2020-10-23 10:44:05 · 908 阅读 · 0 评论 -
用Python获取动态图表数据!
相信很多人都看到了用python写动态条形图的文章了吧?既然有了Python这个制作动态条形图工具,缺的那便是数据了。先看一下B站2019年「数据可视化」版块的情况,第一个视频超2百万的播放量,4万+的弹幕。用什么来衡量手游的热门程度呢,答案便是百度指数。同样我使用的也是百度指数,百度指数是以百度海量网民行为数据为基础的数据分享平台。所以本期就来聊一聊可视化视频的数据获取,主要是「百度指数」和「微博指数」。本来想加上「微信指数」的,发现电脑的抓包软件出了问题,所以就没有加上。原创 2020-10-22 11:14:20 · 2023 阅读 · 4 评论 -
Python爬虫教程-Python爬取股票数据过程详解
这篇文章主要介绍了基于Python爬取股票数据过程详解,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下基本环境配置python 3.6 pycharm requests csv time相关模块pip安装即可目标网页分析网页一切的一切都在图里找到数据了,直接请求网页,解析数据,保存数据请求网页import requestsurl = 'https://xueqiu.com/service/v5/st原创 2020-10-22 10:01:26 · 12287 阅读 · 2 评论 -
Python爬虫实战-爬取百度贴吧帖子
本篇目标1.对百度贴吧的任意帖子进行抓取2.指定是否只抓取楼主发帖内容3.将抓取到的内容分析并保存到文件如果觉得一步步看麻烦的话可以拉到最下面有完整源码可以直接使用1.URL格式的确定首先,我们先观察一下百度贴吧的任意一个帖子。比如:http://tieba.baidu.com/p/3138733512?see_lz=1&pn=1,这是一个关于NBA50大的盘点,分析一下这个地址。 http:// 代表资源传输使用http协议 tieba.baidu.com 是原创 2020-10-21 11:39:13 · 8903 阅读 · 5 评论 -
7个适合Python新手入门实战项目!
ython入门实战项目有哪些适合新手?目前市面上有很多适合新手的Python入门练手项目,Python入门需要理论与实践相结合,前面夯实基础知识,后面通过实战项目帮助你更好的运用这些Python知识。1、爬取网站美图爬取图片是常见的爬虫入门项目,不复杂却能很好地熟悉Python语法、掌握爬虫思路。当然有两个点要注意:不要侵犯版权,要注意营养。2、爬取微博数据爬虫功能之一就是整合数据,能弄到更全面的信息,做好大数据的分析,在这个数据说话的年代,影响是决定性的。3...原创 2020-10-19 13:21:42 · 3425 阅读 · 0 评论 -
用python爬取下载b站视频
B站之所以火,是因为趣味与知识并存。正如一句“你在B站看番,我在B站学习”,B站还是有一些质量比较好的学习视频。当你在B站上看到喜欢的视频想保存下来时,怎么办呢?转入正题,本篇推文主要介绍如何将B站上把喜欢的视频下载下来,帮助更多需要学习的小伙伴,详细步骤如下: 网页分析 视频下载方法 成果展示 微信视频号的加入,再度引燃了短视频领域,今天我们爬取B站的每天播放量最多的小视频,其他类型的视频可以参考这个方法。视频下载方法上一部分已对网页进行了分析,现...原创 2020-10-19 13:19:22 · 1274 阅读 · 1 评论 -
当你学会了Python爬虫,网上的图片素材就免费了
前言本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理。加入作者的python学习圈子:1156465813 即可免费获取,资料全在群文件里。资料可以领取包括不限于Python实战演练、PDF电子文档、面试集锦、学习资料等一、项目背景在素材网想找到合适图片需要一页一页往下翻,现在学会python就可以用程序把所有图片保存下来,慢慢挑选合适的图片。二、项目目标1、根据给定的网址获取网页源代码。2、利用正则..原创 2020-10-17 10:18:48 · 1660 阅读 · 1 评论