爬虫.py
都是实例
milk-request
本科大学生,自学python,喜爱自动化
展开
-
(二)使用selenium爬取拉钩招聘网信息并存入csv文件
网页分析url = https://www.lagou.com/jobs/list_python?拉钩网中每块信息都是动态异步的 爬取方式1.分析ajax接口(不推荐,因为拉钩网防爬手段很多)2.selenium模拟浏览器爬取这里采用selenium爬取逻辑分析:1.模拟打开列表页分析爬取列表页中所有职位url2.模拟打开所有职位url获取源代码3.解析源代码获取需要的数据4...原创 2020-05-05 00:30:01 · 1075 阅读 · 1 评论 -
(一)selenium分析爬取豆瓣电影短评并存储到mongodb中
分析并写下爬取过程1.打开豆瓣影评url=https://movie.douban.com/review/best/分析页面发现一页有十部电影,循环获取这十部电影的url2.打开其中一部电影url发现其所有短评皆在此页面的一个子url中,获取此url3.进入短评页面获取数据,并存储代码步骤实现我这里用的是定义一个类来实现首先声明__init__class DouBanSpider(o...原创 2020-05-04 01:09:25 · 1420 阅读 · 2 评论 -
一点小小的感想
从初识python到爬虫学习即将结束,也快一个月了,从一开始生硬的跟着敲代码,烦燥于编码或者是列表溢出问题,一天或者两天都解决不了,到现在熟练的边测试边写,有自己的想法与逻辑。我发现,计算机学习确实是由浅入深,由易到难,学习之初为自己能爬取某个页面而沾沾自喜,困难之时动态页面的爬取,验证码的识别,随机代理的使用,模拟登入,框架的理解与使用,真的是从入门到放弃。 在现如今计算机呈爆炸函数的发展情况,...原创 2020-05-04 00:15:19 · 163 阅读 · 0 评论