爬虫
文章平均质量分 60
wait_for_eva
longer
展开
-
访问网页
翻网页,找资源,统计或下载,就是爬虫了。逛论坛,找帖子,这是手动爬虫。写段程序完成自动化操作,就是自动化爬虫。所以,爬虫第一步,访问网页。平时我们看见的网页花里胡哨的,但是后面都是些代码而已,不过是些内容,样式,显示方式。不管它是什么,反正链接对了,资源就在里面,至于怎么辨别,怎么获取 ,以后才知道。先把网页内容拿下来再说。from urllib import requesturl = "ht...原创 2018-02-25 16:36:27 · 704 阅读 · 0 评论 -
痛定思痛
啊啊啊,我英俊的面庞啊,我让人绝望的容颜啊!!悲催的一天,依据线索,我深入的探寻了一番(我完全的相信这条线索的啊)。先是到了悬崖边上,后来死胡同被狗咬,终于找到相关人士了。但是人家说人不见了,搬走了还是什么的,你说我能信?对吧,肯定是被关起来了,我就不信了,非得进去看看。.......不说了,我的头套呢。哎,肿的头套都带不上了,看来 得换个伸缩性良好的丝袜用用了。我决定,痛定思痛,吸取教训(你拳头...原创 2018-02-25 18:24:43 · 423 阅读 · 0 评论 -
钩心斗角
痛心,我居然被坑了。不是被邪恶而压倒,而是阻碍正义执行的披着良民头套的小人。幸(shen)亏我机制。from urllib import requesturl ='https://www.baidu.com'response=request.urlopen(url)page = str(response.read(),encoding='utf-8')print(page)是吧,我就简简...原创 2018-02-25 19:13:57 · 196 阅读 · 0 评论 -
接头暗号
我先喝杯水,平复一下激动的心情。我给你说,今天差点没让人给打死。好不容易找到人了,人家第一句就是个"天王盖地虎"。开玩笑我也会啊,我就来了个"小鸡炖蘑菇"。虽说是个无情对吧,也是慢慢的基情啊,就为这,被追了半条街。把我腿都打断了(脚崴了,但是咱气势不能落下不是)。终于,多番被潜后,我也能够来上一两句了。restful感觉是有点rest的,不过我感兴趣的只是套话。强插(PUT)和强杀(DELETE)...原创 2018-02-25 19:52:36 · 871 阅读 · 0 评论 -
文档记录
今天休息了,打探好的消息全忘记了。不出门了,想想咋样记录一下我来之不易的信息。from urllib import request# 找到代理ipproxy_ip = '124.167.221.14:80'# 生成代理对象proxy = request.ProxyHandler({'http': proxy_ip})# 连接开启openeropener = request.build...原创 2018-02-25 20:58:52 · 319 阅读 · 0 评论 -
替身大法
口号是对上来了,人家要看信物怎么办。我的身份证掏出来我今后进别想混了。怎么办!怎么办?挨打呗,为了还有以后。直奔主题吧,没力气说话了。from urllib import request# 找到代理ipproxy_ip = '124.167.221.14:80'# 生成代理对象proxy = request.ProxyHandler({'http': proxy_ip})# 连接开启o...原创 2018-02-25 20:29:21 · 506 阅读 · 0 评论 -
家贼要防
睡不着啊睡不着。我自己打探消息?让替身打探消息?我可不想稀里糊涂的,自己的也就算了,让替身来动手,我咋确定他没背叛我。叛徒嘛,肯定会中出的,我得防一手。from urllib import requesthttphd = request.HTTPHandler(debuglevel=1)httpshd = request.HTTPSHandler(debuglevel=1)opener ...原创 2018-02-25 21:17:18 · 230 阅读 · 0 评论 -
不入虎穴,焉得虎子
第一个线索哪来的就不用探究了,但是一个案件必定是由大量的证据才能定案的。每当我们的线人提供了一点点的小信息,我们都要自己分析,然后进行二次的甄选。这必定是不合格的警探---我要的只是葫芦。因为想要葫芦二区种植,但是种植的又不够全面,到头来除了证明自己SB以外没有其他。要葫芦?两个办法:1. 找人买2. 找人种找人买的话拿到的就只是成品,其中的猫腻也就不好把控了。招人种,不用自己动手,但是能够清楚细...原创 2018-03-04 21:56:58 · 330 阅读 · 0 评论 -
pycharm指定编译器和安装模块
突然想写,但是不直道写什么,于是我来贴图了。指定编译器自己硬盘上指定位置就行了,这个就这样。安装包easy_install和pip都可以安装,但是装逼气氛浓厚,配置和使用问题多。对于windows的用户,那是相当的不友好。明明按照步骤来的,就是会错。不过现在不用担心了,windows嘛,干嘛要装逼呢,windows上图形界面才是王道好不好。反正我垃圾,研究没那么深,也用不着。还是刚才那里,点那个加...原创 2018-03-04 22:47:18 · 27058 阅读 · 8 评论 -
改头换面
艹,有个线索了,打听个小道消息还被认出来了。警察叔叔,我不是他们一伙的啊,我这是为了正义而献身啊。看来不能太直白:被人家认出来, ,撵走还好被打就不舒服了。被警察叔叔看见,关了禁闭进去了就不好了,无选择py但是我不py的。被熟人撞见,他们问我要资源怎么办,四川校花可是中过招的。首先,装作普通一点,套路一点。from urllib import requesturl = "https://www...原创 2018-02-25 17:28:02 · 204 阅读 · 0 评论 -
scrapy-爬取流程
什么时候到pipeline,什么 时候到spider这个就不说了,这个是框架跳转到的流程关键是访问之前要登录怎么办,数据还要注入呢所以这次我们来关注一下网页下载前的流程start_urls这是个列表,里面就是爬取的链接了我们前面爬取就只是写了一个,但是其实可以写多个链接又是怎么访问的呢parse_start_url这东西你就可以手动提取链接返回了start_requests这东西你就得好好注意了从...原创 2018-03-11 19:07:42 · 778 阅读 · 0 评论 -
scrapy-crawl
之前的深入爬取都是手工找链接的很不符合框架的定义:准备怎么做,而不是怎么去做我们想要什么样的东西?说了摘菜(sspider)和炒菜(pipeline)其他的我们都不想参和的所以是我们忽略了一个东西crawl这东西就是自动跟进链接的创建方法之前说过有这几种类型的现在来指定模板创建一个内容创建完成是这个样的上面多了个rules,下面方法名称变了但是,我保证,下面方法不会再涉及链接的提取因为这个爬虫会自...原创 2018-03-11 18:17:53 · 3416 阅读 · 0 评论 -
牛刀初试
哼,我黑猫警长想抓的老鼠,就没有放跑的。我铁杵都磨成针了,以前能砸死你,现在我也能扎死你。来吧,收获的季节,让我看到你的踪迹。from urllib import requestimport re# 找到代理ipproxy_ip = '110.73.41.52:8123'# 生成代理对象proxy = request.ProxyHandler({'http': proxy_ip})# ...原创 2018-02-28 21:59:06 · 434 阅读 · 0 评论 -
记忆芯片
正是龙泽虐我千百遍,我待萝拉如初恋。为了提升替身体验,增加福利待遇,我专门为他订购了一款记忆芯片。(这SB,前面套出的话,进门就给忘记了,活该在小黑屋里被打死)这个隐蔽的犯罪团伙,名字叫网络。分部,叫做网站。每个站点,都是一座大房子,叫做session。里面好多房间,每个房间叫做网页。想要获取传说中海贼王留下的宝藏,就必须深入里面。首先,你得知道 指定房间的坐标(网址)。不过有些组织会有门卫(登录...原创 2018-02-28 22:24:22 · 1323 阅读 · 0 评论 -
scrapy-命令
详细的我不说了,我也没本事说清楚。想知道的话,记住三点0. 都以scrapy开头1. 有两级,一级外层,二级针对项目2. 命令都可以带参数然后呢,命令行运行scrapy或者 scrapy命令就会出现了然后命令参数scrapy startproject -h这是没有工程的一级命令如果有工程的话,进入工程目录scrapy可以看到多了些命令,scrapy command -h依旧可以查看参数配置不过菜鸡...原创 2018-03-11 00:06:30 · 277 阅读 · 0 评论 -
scrapy-安装问题
pip install scrapy用的着说么?这能成功,如果你运气好(设备好)的话。那怎么装啊,我来总结一下三方库有哪些安装方式源码安装pip setup.py install安装有setuotool工具的话,这个就能用,setup.py文件就是python三方包的那个东西和 C的makefile玩意一样,这个包如果带有c文件或者库的话,都是会有啥链接,编译过程的于是有些呢,说gcc的问题,有的...原创 2018-03-11 00:30:19 · 242 阅读 · 0 评论 -
scrapy-框架结构和爬取对象
如图一般创建好工程以后目录是这样的和框架图能够对应起来的好像就只有middlerwares和pipelines其实呢,的确有些东西你也是看不到的而且,我要的是葫芦,蚜虫什么的农夫会管理,也不用我们操心真想知道,要么从cpu开始学,要么先会用了后来慢慢加深要说的话,框架全靠scrapy引擎,这个就是老大了老大手下有四员大将:1. 调度器:任务之间统筹和调度2. 下载器:负责从网络上获取资源3. 爬虫...原创 2018-03-11 14:43:15 · 278 阅读 · 0 评论 -
scrapy-spider
怎么摘菜?来看看先巧立名目(创建工程)工程目录材料清单我们就抓ip地址,端口,服务器地址,类型这四样于是items这样写是吧,只有名称不一样而已摘菜策略摘菜员摘菜嘛,先来个摘菜员有点骚的是,这个员工要你取名字(家丁嘛,华安啦9527都随意)而且他只摘指定的菜市场的菜(http://www.xicidaili.com/)不过名字就行了,菜市场三个字去掉就行了(http://),要不他听不懂的看吧,自...原创 2018-03-11 16:06:51 · 414 阅读 · 0 评论 -
scrapy-pipelines
前面是调用scapy的本地化存储我们来自己写一发打开先初始化记得关闭存储使能右边是优先级,越小优先级越高运行结果结果不对经?那是必须的,因为我爬的有点频繁,被禁了啊不过写文件那是必须成功的,这个是之前写的被禁了怎么办?这不是爬了好多代理了么,用代理中间件,找替死鬼反正封禁的不会是我了其实也不一定要file,和spider不一定用xpath一样,你可以换方式mysql啥的都可以...原创 2018-03-11 16:26:48 · 271 阅读 · 0 评论 -
scrapy-中间件
我先在settings里面加点代理为什么要在这里面加?它运行的时候就会加载啊,而且可以导入直接用自己手写多麻烦,而且还得二次加载,你是蠢呢还是蠢呢名称随便定啊,反正它只是加载,增加啥都行代理注入看见没自动注入IP_POOL一般为了能够识别呢,都需要继承一个类通过process_reqeust来调整细节代理是proxy啊,这个不用说文件写在哪?反正settings配上就行,不做要求运行可以看到,连接...原创 2018-03-11 16:48:48 · 2802 阅读 · 3 评论 -
scrapy-深入爬取
豆瓣电影250https://movie.douban.com/top250结构资源解析得到电影名称xpathresponse.xpath('//ol[@class="grid_view"]/li/div[@class="item"]/div[@class="info"]/div[@class="hd"]/a/span[@class="title"][1]/text()').extract()输出...原创 2018-03-11 17:44:02 · 556 阅读 · 0 评论 -
scrapy-splash
splash服务压入docker pull scrapinghub/splash查看docker ps -aIDdocker inspect -f '{{.Id}}' docker_name删除docker rm docker_id启动docker run -f 8050:8050 scrapinghub/splash停止docker s...原创 2018-08-15 10:07:25 · 467 阅读 · 0 评论