Python
文章平均质量分 92
SilbertMonaphia
搬家啦~新博客地址 =>https://silbertmonaphia.github.io/
展开
-
python爬虫(上)--请求——关于旅游网站的酒店评论爬取(传参方法)
前言最近考试一直都没有时间写这篇总结,现在考试暂告一段落,现在抽空出来写一篇总结,总结一下python爬虫的学习进度。承接上一篇基于scrapy框架爬虫学习小结,上一篇主要是第二次作业后,“老师说会给我们时间继续完善这个作业,直到可以真的爬到微信朋友圈内容….”,其实之后前面半句是有,但是后面半句真的爬到朋友圈却没有了,老师改变了需求,我们变成了去爬一些旅游网站了。我们被分派到的任务是:研究分析携程原创 2016-07-01 22:17:24 · 25065 阅读 · 8 评论 -
高频访问IP限制 --Openresty(nginx + lua) [反爬虫之旅]
前言嗯….本人是从写爬虫开始编程的,不过后面做web写网站去了,好了,最近web要搞反爬虫了,哈哈哈,总算有机会把之以前做爬虫时候见识过的反爬一点点给现在的网站用上了~ 做爬虫的同志,有怪莫怪喽~还有求别打死 > <首先要提一下AJAX,现在普天下网页几乎都是往特定的数据接口请求数据了,除了什么首屏渲染这种服务端渲染好html以外,几乎没有什么静态网页了。我看了有一些帖子说AJAX让爬虫难做,可是我原创 2017-08-25 22:45:47 · 7329 阅读 · 1 评论 -
pyenv+virtualenv+virtualenvwrapper轻量级python环境管理
前言今晚帮一个童鞋解决需求,无意中把最近用到virtualenv,virtualenvwrapper用了起来,又知道了原来还有pyenv这么一个东西,感觉这样的python环境控制有必要再来一写,因为对比前面写到的一篇Docker+Git效率工作的docker我感觉就python开发而言,虽然docker能牢牢管住整个软件以来环境,但是现在时间一长,我倒是觉得每次都要进去docker做操作测试原创 2017-05-07 20:54:15 · 1782 阅读 · 0 评论 -
python爬虫(中)--补充
学习和制作爬虫时候用到的零零散散的一些周边知识的补充和备忘原创 2016-08-25 15:40:00 · 1096 阅读 · 0 评论 -
python爬虫(中)--提取
前言在python爬虫(上)–请求——关于旅游网站的酒店评论爬取(传参方法)和python爬虫(上)–请求——关于模拟浏览器方法中,我们都在讲爬虫如何去做页面请求的问题,这一步的目的是拿到包含所有不管有没有异步加载的数据的页面源码(静态文本),爬虫最难的环节就在这么一段发生在http请求的过程上,可是并不是拿到这么一个包含一大堆标签,一大堆样式代码,一大堆有的没的数据就万事大吉了,我们要的并不是这么一个混乱的东西,我原创 2016-08-24 15:10:58 · 4757 阅读 · 0 评论 -
python爬虫(下)--模拟登录与Captcha识别
前言之前在 python爬虫(上)–请求——关于模拟浏览器方法,中我挖了一个坑,时隔一个多月,趁着最近有点空,我想是时候填填坑了,总结总结了,不然真的就忘了验证码虽然之前挖坑的那篇已经说了一些,现在还是稍微说一说.在模拟登录中,其实让写爬虫的人疼头就是验证码,只要能破掉验证码,那么登录不是问题.验证码(Chaptcha)内容从英文字符和数字识别,到数字加减乘除,再到汉字的出现,后面还有12306的看原创 2016-10-16 21:46:30 · 14258 阅读 · 9 评论 -
python爬虫(中)--保存
前言前面python爬虫(中)–提取,讲的是提取出来的数据保存进一个extracted_data,再保存进extracted_data_,变成一个list包含list的情况,当然你只提取一项,那就没有必要这么做了,可是我的项目中要求可能要提取十几二十项,我为了后面入库方便,所以前面做了这么一个工作。到提取为止,基本爬虫差保存就完成了,什么是基本爬虫,基本爬虫=请求+提取+保存,而不考虑一些针对反反爬原创 2016-08-25 11:55:01 · 2218 阅读 · 0 评论 -
python爬虫(中)--多进程和多线程
前面我们见到了基本爬虫的请求、提取和保存,这是一个基本爬虫应该有的结构,那么这时候的这个爬虫有了能爬能存的能力,但是这种能力是很弱的,弱主要体现在三点:①爬虫本身健壮性并不高,有很多情况不一定考虑到;②爬虫爬的很慢,效率很低;③防反爬能力不强,容易被Ban掉我们在这篇博文就会就上面第二点讲讲怎么通过运用多线程和多进程来提高爬虫的工作效率.原创 2016-08-26 17:41:30 · 7439 阅读 · 1 评论 -
漫谈Python
保持更新,关于python的一些感悟和她的脾气原创 2016-08-30 10:33:27 · 1012 阅读 · 0 评论 -
python爬虫(上)--请求——关于模拟浏览器方法
前言离上一篇更新的博文应该过了挺久的了( python爬虫(上)–请求——关于旅游网站的酒店评论爬取(传参方法)),因为中间考完试紧接着就去实习的缘故,然后到新环境各种熟悉什么的,所以后面有所学到的东西就来不及汇总,终于在某个礼拜天的下午,喝着我的雀巢速溶咖啡,一边写着这篇总结。上一篇我自己也回去又看了一遍,其实上一篇的博文主要还是用的是 传参 的方法,什么叫传参的方法?就是着重点在分析交互中各种数原创 2016-08-14 16:24:42 · 60413 阅读 · 5 评论 -
基于scrapy框架爬虫学习小结
在之前完全没有接触过爬虫的我,甚至都不知道爬虫是何物,然而在数据挖掘课程第二次大作业中却要我们小组直接用scrapy框架做一个爬取朋友圈的爬虫,一接到作业的我们马上就懵逼了,别说是scrapy了,我们就连什么是爬虫,爬虫原理是什么都一无所知,突然就要爬微信朋友圈,还要两周内,开什么玩笑。但是怎么也得做,就分工着做,折腾了一段时间,总算有点收获和更加清晰的认识,现在有点小进度,就来报告一下进度~原创 2016-06-04 23:29:13 · 15945 阅读 · 2 评论