![](https://img-blog.csdnimg.cn/20201014180756913.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
1011
FlenceXu
我是一只小小鸟。。。菜鸟。。。正要努力地飞呀飞。飞呀飞
展开
-
python 爬虫 通过selenium实现网页拖拽
通过selenium爬取动态网页的过程难免会遇到爬取的内容在下面加载不出来,这时需要通过拖拽网页使网页加载出来再进行内容的爬取。代码如下:#导入打开网页需要的库from selenium import webdriverimport time#使用火狐浏览器打开网站browser = webdriver.Firefox()url = 'http://jd.com'browser...原创 2018-10-11 19:43:24 · 898 阅读 · 1 评论 -
python 爬虫 如何用selenium抓取网页内容
使用selenium爬取动态网页信息Python selenium自动控制浏览器对网页的数据进行抓取,其中包含按钮点击、跳转页面、搜索框的输入、页面的价值数据存储、mongodb自动id标识等等等。首先介绍一下 Python selenium —自动化测试工具,用来控制浏览器来对网页的操作,在爬虫中与BeautifulSoup结合那就是天衣无缝,除去国外的一些变态的验证网页,对于图片验证码我有...原创 2018-10-10 21:10:11 · 12419 阅读 · 2 评论 -
python 爬虫 如何通过selenium简单爬取boss直聘招聘职位信息
代码如下:from selenium import webdriverimport timefrom openpyxl import Workbook#创建存储爬取信息的空列表jobList = []workList = []hrefList = []#爬取职位信息的方法def Parse(): #打开火狐浏览器 browser = webdriver.Firefo...原创 2018-10-11 19:57:27 · 1404 阅读 · 1 评论 -
python 爬虫 如何通过scrapy框架简单爬取网站信息--以51job为例
Scrapy框架三大优点:Scrapy框架是用纯Python实现一个为了爬取网站数据、提取结构性数据而编写的应用框架,用途非常广泛。框架的力量,用户只需要定制开发几个模块就可以轻松的实现一个爬虫,用来抓取网页内容以及各种图片,非常之方便。Scrapy 可以加快我们的下载速度,不用自己去实现异步框架,并且包含了各种中间件接口,可以灵活的完成各种需求。scrapy实现流程图:scr...原创 2018-10-11 20:25:50 · 1374 阅读 · 1 评论 -
python 爬虫 如何通过scrapy简单模拟登陆豆瓣网,手动进行图形验证码的验证
1.建立scrapy爬虫程序,在terminal命令行输入’scrapy startproject douban_login’2.建立爬虫主程序,主要步骤都在这里实现,以douban_login.py命名程序代码如下:import scrapyfrom scrapy.spider import CrawlSpiderfrom urllib import requestfrom PIL ...原创 2018-10-11 20:40:32 · 533 阅读 · 1 评论