自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 收藏
  • 关注

原创 scrapy由浅入深(三) selenium模拟爬取ajax动态页面(智联招聘)

爬取智联招聘的网址:https://sou.zhaopin.com/?pageSize=60&jl=489&kw=python&kt=3        上一篇博客爬取了前程无忧的职位招聘信息,总体来说前程无忧的网站信息并不难爬取,前程无忧的网站并没有ajax,直接请求网站就能获得职位信息,但是智联招聘的页面涉及到ajax,直接get网站的url获取不到任何有用的信息,这...

2018-09-21 21:49:56 1919

原创 scrapy由浅入深(二) 爬取51job职位薪资信息

        上次的爬虫只是爬取了CSDN论坛的问题数据,相对来说比较简单,本篇文章来介绍一下爬取51job网站,获取它的职位,薪资,职位要求等信息。        代码思路:1.首先获取到种子网页的所有职位的url,以及下一页的url。2.通过抽取到的职位的url来依次请求相应职位的详细信息,包括薪资,职位要求等。3.定义解析数据的函数,通过xpath或者css选择器获取到职位薪资信息。4...

2018-09-20 23:11:49 910

原创 scrapy由浅入深(一)爬取CSDN论坛

        对scrapy框架的学习也有了一段时间,所以准备爬取一些网站的信息来检测一下scrapy的学习成果。由浅入深,从较规律的网站开始爬取,再爬取不规则的网站,以及ajax动态页面。         今天先从较简单的CSDN的python论坛爬取,之所以说这个比较简单是因为CSDN的论坛不是动态的页面,而且网站的url非常有规律可询,并不需要使用selenium模拟或者抽取下一页的网...

2018-09-20 22:40:17 810

原创 爬虫如何避免网页重复爬取

    在使用爬虫爬取网页信息的时候,如果只爬取固定的网页还好,但是如果从一个网页的源码中解析出其他的链接,爬虫爬取到其他的网页,这样就会出现一个问题,如何确定这个网页我爬取过,如何设置爬取的网页不再爬取。    本篇文章实现避免重复爬取的思路是:将爬取过的网页的链接和该网页的信息以键值对的形式保存到数据库中,当爬虫爬取一个网页之前,先从数据库中查找是否有该网页的爬取记录,如果有该网页的爬取记...

2018-09-08 17:23:28 21150

原创 通过lxml数据抽取实现一个简单爬虫(爬虫基础学习)

1.lxml    python lxml包用于解析XML和html文件,可以使用xpath和css定位元素,在爬虫中经常需要根据html标签来定位需要爬取的信息所在的位置,当然也可以使用正则表达式来匹配对应的html标签及标签中包含的内容,但是相信大部分小伙伴对正则表达式都深恶痛绝,想要写出来一个能够正确匹配到需要的信息的正则表达式实在是不容易,但是使用lxml就能够非常方便的匹配到我们想要...

2018-09-08 16:37:43 1011

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除