爬虫实战
文章平均质量分 59
baidu_252253
这个作者很懒,什么都没留下…
展开
-
Python爬虫之处理带Ajax、Js的网页(一)
现在很多网站的都大量使用JavaScript,或者使用了Ajax技术。这样在网页加载完成后,url虽然不改变但是网页的DOM元素内容却可以动态的变化。如果处理这种网页是还用requests库或者python自带的urllib库那么得到的网页内容和网页在浏览器中显示的内容是不一致的。那么我们这样就采集不到想要的结果。 为了解决这个问题,可以使用Selenium+PhantomJS。这两个组合在一...原创 2018-06-27 09:08:16 · 855 阅读 · 0 评论 -
伯乐在线
# -*- coding: utf-8 -*-import scrapyimport refrom ..items import ArticleItemclass BoleSpider(scrapy.Spider): name = 'bole' allowed_domains = ['jobbole.com'] start_urls = ['http://blog.jobbole...原创 2018-05-24 22:11:09 · 330 阅读 · 0 评论 -
云起小说
# -*- coding: utf-8 -*-import scrapyfrom ..items import BookListItem,BookDetailItemclass YunqiSpider(scrapy.Spider): name = 'yunqi' allowed_domains = ['qq.com'] start_urls = ['http://yunqi.qq...原创 2018-05-24 21:59:12 · 324 阅读 · 0 评论 -
51job
# -*- coding: utf-8 -*-import scrapy# char_tools 对字符串做处理的工具类from Tools import char_toolsfrom ..items import JobItemclass JobsSpider(scrapy.Spider): name = 'jobs' allowed_domains = ['51job.com'] ...原创 2018-04-23 10:45:26 · 382 阅读 · 0 评论 -
抽屉网
==========================(一)=========================# -*- coding: utf-8 -*-import scrapyclass ChoutiSpider(scrapy.Spider): name = 'chouti' allowed_domains = ['chouti.com'] start_urls = ['ht...原创 2018-04-23 10:43:33 · 515 阅读 · 0 评论 -
CSDN博客
# -*- coding: utf-8 -*-import scrapyimport refrom ..items import CategrayItem,ArticleItemclass CsdnSpider(scrapy.Spider): name = 'csdn' allowed_domains = ['csdn.net'] start_urls = ['http://bl...原创 2018-04-23 10:40:50 · 204 阅读 · 0 评论 -
纵横小说
# -*- coding: utf-8 -*-import scrapyfrom ..items import BookItemclass ZhSpider(scrapy.Spider): name = 'zh' allowed_domains = ['zongheng.com'] start_urls = ['http://book.zongheng.com/quanben/c...原创 2018-04-23 10:39:42 · 200 阅读 · 0 评论 -
内涵段子
# -*- coding: utf-8 -*-import scrapyimport jsonclass NeihanSpider(scrapy.Spider): name = 'neihan' allowed_domains = ['neihanshequ.com'] start_urls = ['http://neihanshequ.com/bar/1/?is_json=1&...原创 2018-04-23 10:38:51 · 427 阅读 · 0 评论 -
站长之家(素材网)
# -*- coding: utf-8 -*-import scrapyfrom ..items import JLItemclass ChainazSpider(scrapy.Spider): name = 'chainaz' allowed_domains = ['chinaz.com'] start_urls = ['http://sc.chinaz.com/'] b...原创 2018-04-23 10:33:16 · 4314 阅读 · 0 评论 -
Scrapy基础(百度网)
# -*- coding: utf-8 -*-import scrapyclass BaiduSpider(scrapy.Spider): name = 'baidu' allowed_domains = ['baidu.com'] start_urls = ['http://www.baidu.com/'] # parse 当请求发送成功之后,自动调用,并且会把返回的数据...原创 2018-04-23 10:28:17 · 154 阅读 · 0 评论 -
Ivsky
# -*- coding: utf-8 -*-import scrapy# 从items中引入ImageItem数据模型类# .当前目录 ..上级目录from ..items import ImageItemclass IvskySpider(scrapy.Spider): name = 'ivsky' allowed_domains = ['ivsky.com'] start...原创 2018-04-23 10:26:09 · 362 阅读 · 0 评论 -
Python爬虫之处理带Ajax、Js的网页(一)
现在很多网站的都大量使用JavaScript,或者使用了Ajax技术。这样在网页加载完成后,url虽然不改变但是网页的DOM元素内容却可以动态的变化。如果处理这种网页是还用requests库或者python自带的urllib库那么得到的网页内容和网页在浏览器中显示的内容是不一致的。那么我们这样就采集不到想要的结果。 为了解决这个问题,可以使用Selenium+PhantomJS。这两个组合在一...原创 2018-06-28 08:57:51 · 824 阅读 · 0 评论