Python爬虫
文章平均质量分 62
牛犊不怕虎
这个作者很懒,什么都没留下…
展开
-
爬虫之动态网页爬取Selenium+Chromedriver
安装Selenium。 pip install selenium 下载Chromedriver(根据浏览器版本下载,相应版本https://sites.google.com/a/chromium.org/chromedriver/downloads),不需要双击安装。 测试是否安装成功(路径是chromedriver的路径,最好不含有中文名称) 能自动打开百度网页说明安装没有问题。...原创 2019-08-01 17:03:40 · 746 阅读 · 0 评论 -
爬虫爬取拉勾招聘信息(selenium+Chromedriver)
之前使用requests库爬取拉勾网站招聘信息时,老是出现访问频繁或者因检测到存在爬虫行为被禁止访问。从开始学习爬虫到工作,爬取过一些网站。拉勾算是反爬虫措施做的最变态的,没有之一。为了获取获取更加完整的数据信息,今天介绍使用selenium+chromdriver,借助工具进行爬取,以招聘python岗位为关键字。爬取思路可分为以下几个步骤:爬取第一页页面中所有职位的链接:每个职位有...原创 2019-08-06 18:23:45 · 578 阅读 · 0 评论 -
爬虫爬取BOSS直聘(selenium+Chromedriver)
今天介绍借助selenium+chromdriver工具进行爬取招聘信息,并保持到csv文件中,以招聘python岗位为关键字。爬取思路可分为以下几个步骤:爬取第一页页面中所有职位的链接:每个职位有个id。 然后根据获取的每个职位的链接,获取该职位的详细信息。 右键——检查,根据html,选取元素。见代码。 第一页职位信息爬取完成后,让浏览器跳转到第二页,继续爬取每一...原创 2019-08-12 11:35:30 · 2961 阅读 · 0 评论 -
12306抢票爬虫selenium+Chromedriver(需手动完成支付)
先看动态结果:只能到预定锁定车票,30分钟内手动付款,车票会被自动取消。 如果是暂无余票,就会一直查询余票信息,直到有余票时,自动预定,比如G7暂无余票,为了防止反爬虫,设置的刷票间隔时间长一点,这样更安全。 使用selenium+chromedriver工具,自动查询余票,和订票,如果暂时无票,程序会一直不停的查询余票情况。 首先需要输入出发城市,到达城市,和乘车日...原创 2019-08-16 18:09:40 · 1530 阅读 · 2 评论 -
python 遍历select下拉框,获取option标签中value和text的值
在写12306爬虫时,遇到选择座席信息时,需要遍历select下拉框获取其中的座席信息。 代码如下: seat_types = self.driver.find_element_by_xpath('.//select[starts-with(@id,"seatType")]') seat_ptions_list = seat_types....原创 2019-08-28 09:10:30 · 4738 阅读 · 0 评论 -
12306抢票爬虫selenium+Chromedriver(升级版)
先看代码执行结果:此爬虫是对之前版本爬虫(网络上大部分博客的版本)的修改和调整,具体具体流程如下:运行程序时,输入出发地,目的地和出发城市。 若是学生,则选择学生票,学生身份需要通过12306网站验证。 登录完成之后,自动跳转到查询车次页面,这样做是想先让购票者比较各个车次信息之后,输入想要购买的车次和座次。 根据查询信息,输入想要购买的车次以及座次信息。 程序会自动根据输入的...原创 2019-08-28 18:03:41 · 930 阅读 · 14 评论 -
Pycharm中为python程序添加依赖包
导出该python程序所依赖的第三方包的列表:pip freeze > requirements.txt 将requirements.txt拷贝到需要运行该python程序的机器上,执行pip install -r requirements.txt 即可安装程序所依赖的包。...原创 2019-09-20 11:11:22 · 1185 阅读 · 0 评论 -
Ubuntu安装Scrapy
首先需要安装依赖包如下:sudo apt-get install python3-dev build-essential python3-piplibxml2-devlibxslt1-devzlib1g-dev libffi-dev libssl-dev 安装scrapy pip install scrapy...原创 2019-09-20 14:32:58 · 881 阅读 · 0 评论 -
scrapy-redis分布式爬虫案例(房天下)
运行效果动图:简述:本案例中有一台Linux系统运行Redis服务器,两台Windows系统跑分布式爬虫。爬虫从Redis队列中得到要爬取的URL,同时redis负责队列中URL的去重以及爬虫因某些原因暂停或者终止时,下次开启爬虫自动继续上次未完成的URL继续爬取,不会重头开始爬,当爬虫爬空Redis中的URL时,就会处于等待状态,次数可以设置等待一段时间,如果队列中还是没有新增要爬取的U...原创 2019-09-29 10:19:33 · 681 阅读 · 0 评论