爬虫
skywander0
虽千万人吾往矣!
展开
-
scrapy爬取猫眼电影及详情页
本来是在学习matplotlib画图的,发现自己没有数据去画图光看命令效果好像不是特别大,就想着去猫眼爬点电影来画图。然后就想着刚好练习下以前学过的scrapy,然后悲剧就开始了。整个spider的代码如下。# -*- coding: utf-8 -*-import scrapyimport reclass MaoSpider(scrapy.Spider): name = 'mao'...原创 2019-03-15 10:50:47 · 5793 阅读 · 0 评论 -
一个简单的ip池的搭建
在爬虫的时候总是会遇到跑的太频繁而导致ip被封号的问题,所以就想着做一个简单的ip池去规避这种反爬取的手段,当然我写的ip池功能稍微简单一点,但是也能满足在爬取时遇到的封禁ip的问题。整个流程就是先用get_ip()函数从网上爬取免费的代理ip地址,当然对于这些代理的ip的能使用率是比较低的,我们用redis数据库的zset对其进行存储,zset有序集合比一般的集合多了一个分数的字段,我们可以在存...原创 2019-03-25 14:33:17 · 19361 阅读 · 2 评论 -
数据挖掘招聘关键字分析
想以后从事数据挖掘行业,但是想看看这个行业对于工作能力有什么样的要求,一般招聘的时候都需要什么有什么样的基础能力,所以就打算先爬取智联上关于数据挖掘的岗位的招聘要求及其职责,然后根据结巴分词,提取关键字,看看哪些词汇出现的频率比较高,这样就知道数据挖掘这个行业一般对于从业有什么样的要求的。当然提取出来的关键字肯定是有一些无用的信息,这个需要我们去进一步的甄别。首先是爬取智联招聘的数据挖掘岗位的招...原创 2019-04-03 13:38:44 · 6828 阅读 · 2 评论