python爬虫
文章平均质量分 68
eye_water
这个作者很懒,什么都没留下…
展开
-
python一个关于贴吧的小爬虫(一)
本次爬取的贴吧为omg战队吧,因为本人也是一位omg战队的粉丝。这次的爬虫是想用来分析在贴吧第一页的帖子是不是每分钟都有人回复。 首先我们要分析一下omg战队吧的网页源码,如下<div class="threadlist_author pull_right"> <span class="tb_icon_author_rely j_replyer" title="最后回复人: 管原创 2017-08-15 22:40:28 · 385 阅读 · 0 评论 -
通过爬虫来理解Cookie和Session
文章目录前言登录的流程Set_cookieCookie利用爬虫进行模拟登录退出前言Cookie和Session的概念我也接触过很多次,但一直没有机会实践一下,正巧最近想用爬虫模拟登录教务系统,就想到了利用Http的请求头来进行登录操作登录的流程这样做有什么好处?最大的好处就是用户只需要输入一次账号密码,之后再访问网页时,只需要再Headers信息利用Cookie包含Session_id...原创 2019-04-28 22:43:34 · 568 阅读 · 0 评论 -
模拟手机端来爬取数据
本文以识货进行举例文章目录充分利用谷歌浏览器找到我们想要的API数据观察请求头观察参数结果充分利用谷歌浏览器谷歌浏览器可以模仿手机进行对网页的访问点击上面的图标就可以选择模仿手机对网页的访问,还可以选择具体的型号找到我们想要的API数据我搜索了名为Nike Odyssey React的鞋在网络的请求中可以看到名为getSupplier的请求中包含了我们想要的数据观察请求头...原创 2019-04-26 22:12:16 · 4252 阅读 · 0 评论 -
Python爬虫开发与项目实战——基础爬虫分析
最近在看《Python爬虫开发与项目实战》,看到第六章基础爬虫时,发现把实现爬虫各个功能分别封装为一个类能增强爬虫的可读性,不过理解代码时碰到了许多坑,因此分享一下读书笔记。书籍第六章的代码代码中的注释给的已经足够了,但是只是针对单个文件,对于整体爬虫项目,理解起来难免还会有点模糊这一章爬取的是百度百科,给出一个url通过该页面的链接爬取其它的url,看起来就像这样: 给出一个Root_Url,看原创 2017-12-27 22:36:01 · 14120 阅读 · 0 评论 -
简单的分布式爬虫(下载小说)
最初下载小说的爬虫只有二十几行代码,虽然二十几行代码就可以完成这项工作,但是如果把爬虫的各个功能封装成不同的类,这样便于以后复用也便于阅读。 拓展之后,把刚开始下载小说的代码拓展成一个基础爬虫,但是这还不够,便就有了这篇关于分布式爬虫的文章,同样也是下载小说,不过这次分离地更明确。这篇文章实现的是主从模式的分布式爬虫主从模式的分布式爬虫主要分为两部分:控制节点爬虫节点控制节点用来分发任务以及原创 2017-12-30 11:45:02 · 882 阅读 · 0 评论 -
判断使用的代理IP是否有用
IP地址查询网站要想判断所使用的代理IP是否有用,只需要通过代理IP访问IP地址查询网站抓取地址以及归属地信息并与不使用代理IP时的地址信息以及归属地信息进行比较即可。这是未使用代理IP时得到的IP信息下面使用代理IP去网站上找一些免费代理IP接下来利用requests库的Proxies功能使用代理IPfrom bs4 import BeautifulSoupimport requestsurl原创 2017-12-21 15:14:12 · 24055 阅读 · 0 评论 -
爬取携程网机票价格并提供搜索功能
要爬取的数据是最近一段时间的飞机航班的最低价,并提供搜索功能。 利用谷歌浏览器的检查来获取最近一段时间飞机航班最低价json数据的url。 打开之后: 注意这里我们并不能用json模块将数据转换为json格式。如果转换为json格式会造成: 不能获取价格,日期是变化的,因此如果要用text.get('Prices').get('date')获取价格是不可能的。那么只能用正则表达式原创 2017-10-26 21:48:27 · 7587 阅读 · 4 评论 -
用爬虫爬取京东物品的商品评价标签
要爬取的商品评价标签在物品页面上的显示:原创 2017-10-24 22:14:11 · 2557 阅读 · 0 评论 -
爬虫用Cookie登录网页
最近在爬取豆瓣的数据时发现了一些问题。因为要做一个爬虫,爬取用户读过的书以及对书的评分。但是在进行网页的分析时却出现了点问题。 当浏览器打开用户读书记录的链接时是没有任何问题的,但是用requests库来进行网页爬取时却出现了问题。 以https://book.douban.com/people/…/collect这个链接为例,获取这个链接的html源码,一般都是这样写:import reque原创 2017-11-08 22:33:47 · 8856 阅读 · 12 评论 -
用Selenium登录到廖老师的python教程
前面有一篇文章介绍了如何爬取廖老师python教程的url,并实现了查询url功能。 最近一段时间看了Selenium官方文档,小小地升级了一下上述爬虫。 准备:廖老师的python教程的urlSelenium模块章节名Selenium模块提供了click功能,我们要做的就是定位到所要查询的章节的a标签。如何定位呢?可以用一个简单粗暴的方法find_element_by_link_tex原创 2017-09-14 11:12:59 · 555 阅读 · 0 评论 -
python一个下载小说的简易爬虫
最近再看python核心编程(第二版),看到关于文件的操作时闲着无聊,便写了一个下载小说的简易爬虫。小说名字为《雪中悍刀行》基本上就是我最喜欢的一部小说了。(感觉写书后面的关于文件的题没意思,便写了一个)小说网址 首先要用到一个库是BeautifulSoup库,两个模块分别是urllib模块和os模块。 思路如下:首先我们要获得所有小说的url<div id="list">原创 2017-07-13 19:20:05 · 3452 阅读 · 0 评论 -
用爬虫来爬取csdn大神的文章的url
上一篇文章中爬虫来获取廖老师python教程的url并加入搜索url功能,这一篇文章会爬取csdn大神july的所有博客的url,并实现搜索功能就像下面这样请输入你要查询的知识点:MachineMachine L & Deep Learninghttp://blog.csdn.net/v_JULY_v/article/category/1061301Kaggle—So Easy!百行代码实现排原创 2017-08-19 23:34:33 · 2450 阅读 · 2 评论 -
用爬虫来爬取廖老师的python教程的url
输入汉字,能够查询到知识点的url,就像下面这样请输入你要查询的知识点:函数h s调用函数: https://www.liaoxuefeng.com/wiki/0014316089557264a6b348958f449949df42a6d3a2e542c000/0014316784721058975e02b46cc45cb836bb0827607738d000定义函数: https:/原创 2017-08-18 17:41:41 · 1946 阅读 · 0 评论 -
python一个关于贴吧的小爬虫(三)
上一篇文章中 写了一个小爬虫来判断omg战队吧是不是每分钟都有人回复,这一次用类来封装一下上一篇的小爬虫from bs4 import BeautifulSoupimport urllib.requestimport timeclass tieba(object): def gethtml(self, url): response = urllib.request.url原创 2017-08-17 17:36:24 · 256 阅读 · 0 评论 -
python一个关于贴吧的小爬虫(二)
上一篇文章中 用爬虫来获取omg战队吧首页的所有帖子的最后回复时间时间是否为一分钟,这一次用爬虫来爬取omg战队吧是否每分钟都有人回复帖子。 贴吧的回复机制(个人理解如下):如果有人回复一片帖子,那么这篇帖子就会更新到首页的置顶帖下面的第一个帖子的位置,因此只需要爬取贴吧首页的第一个帖子的最后回复时间并算出时间间隔即可。(并不管它是哪一篇帖子)from bs4 import Beautifu原创 2017-08-16 22:29:53 · 287 阅读 · 2 评论 -
多进程下载小说的爬虫
之前写过一篇文章来下载小说,不过速度堪忧,因为大量的时间都浪费在了文件的写入上,那么有没有办法优化呢?文章目录优化面临的问题解决办法图示队列的建立为不同的进程分配不同的队列进程的任务爬虫的自我修养完整代码如何理解多进程优化面临的问题文章是有序的文件的读写(一般来说当前文件正在读写时是不允许其它程序来访问该文件)解决办法文章是有序的可以使用队列来进行FIFO操作,这样能确保有序...原创 2019-08-09 14:35:35 · 442 阅读 · 2 评论