爬虫
Mr.10
这个作者很懒,什么都没留下…
展开
-
Scrapy shell 如何添加 User_Agent?
让scrapy shell 不再返回302原创 2018-08-10 04:53:26 · 3938 阅读 · 0 评论 -
Python爬虫scrapy系列(一)Bilibili分布式爬虫
一、背景:爬取Bilibili用户信息及其发布过的视频信息,并进行数据清洗、分析、可视化二、爬虫思路:利用一个粉丝多的大v用户作为爆点,爬取用户信息、视频信息三、数据去重问题:利用用户粉丝的思路去爬取用户,必然会导致用户数据重复问题,我们可以巧妙地利用mongodb的存储机制,利用唯一的一个字段标识,可以既增量存储而又不重复的问题,这里我们利用用户id和视频id作为标识,数据不重复的存储...原创 2018-10-14 18:17:32 · 1470 阅读 · 0 评论 -
爬虫小知识(三):正则表达式匹配中文
目前我用过的正则表达式匹配中文的方法有两种:1.re.compile(’[\u4E00-\u9FA5]’)实例:>>> text = """【傅首尔打董婧】《奇葩说》辩手<a href="https://m.weibo.cn/p/searchall?containerid=231522type%3D1%26q%3D%23%E8%91%A3%E5%A9%A7%23%2...原创 2018-09-21 02:35:13 · 3658 阅读 · 0 评论 -
Python爬虫快跑系列(二)async 爬取饿了么商家信息和对应的评论,并且利用snownpl进行评论情感分析
1.背景:最近在学协程异步python异步,想借此机会练习一下,而且网上用协程爬虫的文章好像不也不多,所以借此机会实验一番。2.站点分析:爬取的是eleme的h5页面,难度比较小,电脑端的需要登陆,而且是手机号码接收验证码的登陆,不想要用cookie登陆,所以找个办法,借助h5页面去爬取。3.需求:需求如下图,字段很多,原谅我爬虫就喜欢爬尽所有字段,其实做爬虫分析目标的字段也是蛮有趣的,...原创 2018-09-17 23:56:55 · 2233 阅读 · 0 评论 -
Python爬虫快跑系列(一)多线程生产者消费者模式爬取Agoda
1.背景:熟悉多线程,熟悉作图所用到的库的api 代码不难,直接看github源代码吧2.需求:爬取的字段好多,我就不写出来了,直接放图吧。。。 3.效果图:4.githubThread_Agoda...原创 2018-09-12 20:30:08 · 868 阅读 · 1 评论 -
爬虫小知识(二):爬虫过程中常见的状态码
原文地址:https://blog.csdn.net/u012043391/article/details/51069441转载 2018-09-06 16:08:44 · 1382 阅读 · 0 评论 -
爬虫小知识(一):Scrapy爬虫 捕获403状态码抛出CloseSpider异常
1、爬数据的时候,有时会遇到被该网站封IP等情况,response的状态码为403,那么这时候我们希望能够抛出 CloseSpider的异常。 2、但是如scrapy官网提到的,Scrapy默认的设置是过滤掉有问题的HTTP response(即response状态码不在200-300之间)。 因此403的情况会被ignore掉,也就是及时我们用response.status == 400判...转载 2018-09-05 14:05:57 · 3921 阅读 · 0 评论 -
关于Python 多线程生产者消费者模式用协程方式去实现的理解
这里利用了Python生成器的send()方法来实现生产者与消费者之间的通信,非常巧妙! 还不了解send()方法的请移步我的上一篇博文:https://blog.csdn.net/weixin_42471384/article/details/82624009 实例:def producer(c): # 生产者产生消息,之后,yield到消费者执行 c.send(None...原创 2018-09-11 14:43:57 · 477 阅读 · 0 评论 -
Python 生成器的next和send
1.什么是生成器? 在 Python 中,使用了 yield 的函数被称为生成器(generator)。 跟普通函数不同的是,生成器是一个返回迭代器的函数,只能用于迭代操作,更简单点理解生成器就是一个可以迭代的东西。2.next()与send() next()方法: 在调用生成器运行的过程中,每次遇到 yield ,函数返回当前的值,并且会暂停并保存当前所有的运行信息, 并在下一次执行...原创 2018-09-11 12:38:25 · 482 阅读 · 1 评论 -
Python 爬虫实现进度条下载,为你的程序添上点睛之笔!
还在为你的爬虫程序执行结果不能显示进度条而感到枯燥无味吗?快来试试为爬虫加上进度条吧!原创 2018-09-05 01:52:40 · 2231 阅读 · 0 评论 -
利用request库和队列动态ip抓取拉勾网的python爬虫职位,并且写入MySQL数据库
requests + Queue + 动态ip池抓取拉勾爬虫职位,并且写入数据库原创 2018-08-10 14:59:25 · 734 阅读 · 0 评论