数据解析
小可爱的饲养员
这个作者很懒,什么都没留下…
展开
-
入坑爬虫(七)selenium爬取某网站招聘信息
1 什么是seleniumSelenium是一个Web的自动化测试工具,最初是为网站自动化测试而开发的,Selenium 可以直接运行在浏览器上,它支持所有主流的浏览器(包括PhantomJS这些无界面的浏览器),可以接收指令,让浏览器自动加载页面,获取需要的数据,甚至页面截屏.2 PhantomJS的介绍PhantomJS 是一个基于Webkit的“无界面”(headless)浏...原创 2018-08-09 14:08:43 · 1603 阅读 · 0 评论 -
入坑爬虫(六)某招聘网站信息采集
前面的章节中,我们说到了如何发送发送,对应的,回顾之前的爬虫流程,在发送完请求之后,能够获取响应,这个时候就需要从响应中提取数据了.1. 爬虫中数据的分类在爬虫爬取到的数据中有很多不同类型的数据,我们需要了解数据的不同类型来规律的提取和解析数据.根据响应的内容,我们可以将获得到的数据分为以下两类: - 结构化数据:json,xml等 处理方式:直接转化为pyth...原创 2018-08-05 12:02:15 · 3849 阅读 · 1 评论 -
入坑爬虫(八)数据提取之xpath
lxml是一款高性能的 Python HTML/XML 解析器,我们可以利用XPath,来快速的定位特定元素以及获取节点信息认识xml知识点: html和xml的区别xml中各个元素的的关系和属性xml的树结构<bookstore><book category="COOKING"> <title lang="en原创 2018-08-07 11:00:11 · 15969 阅读 · 2 评论