爬取拉钩全站的职位信息

最新推荐文章于 2024-10-11 17:04:33 发布

anlanmo0960

最新推荐文章于 2024-10-11 17:04:33 发布

阅读量105

点赞数

文章标签：数据库 python git

原文链接：http://www.cnblogs.com/liuqianli/p/8418084.html

版权

爬虫学习到今天也告一段落了,利用一个项目把自己这几个月的所学的知识来做一次总结项目所需要的知识比较全面,很适合练手,

一程序目的

爬取拉钩全站的职位信息存入mysql和mongodb中

二所用到的方法

一利用selenium登录拉钩取得cookies

二利用redis保存selenium登录拉钩取得cookies信息,维护一个cookie池

三爬取西刺等免费IP网站,并用redis维护一个IP池

四利用flask把cookies和ip分别映射到网页中,用requsets得到.

五利用fack_useraget切换UA

六异步存入mysql

七同时把数存到mongodb中

八利用scrapy_redis实现分步式

用法

一生成IP池

1、启动redis

2、进入ProxyPool cd ProxyPool/proxypool

3、配置settings 注释写的很清晰

4、cd ..

5、python run.py 因为cookie池在5000端口，所这里改在7777端口

二生成cookie池

1、启动redis

2、cd CookiesPool/cookiespool

3、配置config.py

4、cd ..

5、python importer.py 并按提示输入用户名和密码,这一步的目的是为了在redis中保存用户名和密码

6、 python run.py

三启动mysql 和 mongodb

四配置好crawler的settings.py

# Obey robots.txt rules

ROBOTSTXT_OBEY = False

# Configure maximum concurrent requests performed by Scrapy (default: 16)

CONCURRENT_REQUESTS = 5

DOWNLOADER_MIDDLEWARES = {

# 'lagou.middlewares.MyCustomDownloaderMiddleware': 543,

'lagou.middlewares.RandomUaIpCookiesMiddleware': 543,

}

ITEM_PIPELINES = {

'lagou.pipelines.LagouJobMongoPipeline': 300,

'lagou.pipelines.LagouJobMysqlPipeline': 302,

'scrapy_redis.pipelines.RedisPipeline': 301

}

COOKIES_POOL_URL = "http://127.0.0.1:5000/lagou/random"

IP_POOL_URL = 'http://127.0.0.1:7777/get'

UA_TYPE = 'random'

MONGO_URI = "127.0.0.1:27017"

MONGO_DATABASE = "outback"

SCHEDULER = "scrapy_redis.scheduler.Scheduler"

DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"

REDIS_HOST = 'localhost'

REDIS_PORT = 6379

# Whether to persist or clear redis queue.

CHEDULER_FLUSH_ON_START: True

MYSQL_HOST='localhost'

MYSQL_PORT='3306'

MYSQL_DB="outback"

MYSQL_USERNAME="root"

MYSQL_PASSWORD="root"

五启动spider

其他说明

- 1 用户名和密码输入格式为 15737373737----1234556

- 2 cookies默认在127.0.0.1:5000/lagou/randam

- 3 IP默认在127.0.0.1:7777/get

-4 因为暂时没有数据分析的必要,没有对数据进行清洗

github https://github.com/573320328/lagou.git 一定记得Start哦,

如果有不清楚的的地方可以留言发信息,但一定记得start,

要找工作啊

转载于:https://www.cnblogs.com/liuqianli/p/8418084.html

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。