自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(9)
  • 收藏
  • 关注

原创 PhantomJS+selenium模拟登陆与爬取信息

Python 2.7.15PhantomJS是一个无界面的,可脚本编程的WebKit浏览器引擎。它原生支持多种web 标准:DOM 操作,CSS选择器,JSON,Canvas 以及SVG。selenium主要是用来做自动化测试,支持多种浏览器,爬虫中主要用来解决JavaScript渲染问题,模拟浏览器进行网页加载。当我们要爬取页面有大量的JS渲染的时候,使用PhantomJS+seleniu...

2019-01-27 10:54:39 591

原创 scrapy结合xpath

scrapy结合xpath爬取爱问知识人python2.7.15xpath是个很简洁方便的东西,很清晰,熟练运用xpath可以让你更快的找到想要爬取的东西。xpath教程请移步X Path语法先来写spiderstar_url里是爱问知识人的网站的一个问题分类,爬取它的问题和答案。下面是进入这个页面response是star_url传给parse函数的网页信息,对它使用xpath...

2018-12-09 20:55:07 313

原创 使用scrapy爬取

了解scrapy框架,使用scrapy爬取酒店评论python2.7.15Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。 可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中。scrapy分为以下几个工作部件引擎(Scrapy Engine),用来处理整个系统的数据流处理,触发事务(框架核心)。调度器(Scheduler),用来接受引擎发过来的请求,放入队...

2018-12-02 17:25:28 1685

原创 动态爬取,酒店评论

使用Python爬取动态网页,获取评论python2.7.15酒店的评论都在js文件中它们连着数据库,是动态加载的,找到js文件的URL和它们的规律,爬取就成功了一半。我获取了评论中的五项,这五项中有的可能没有,因为是在字典中取值,如果没有的话会报错,说没有该键,所以在查找和写入的时候要加一个try-except,如果有就获取并写入,如果没有就赋值noneheaders字典和data字典是...

2018-11-25 18:32:52 814

原创 python动态爬取,孔夫子旧书网

python爬取孔夫子旧书网的店铺评论python2.7.15这次爬取的是动态网页,所谓动态网页就是动态网页是指网页文件里包含了程序代码,通过后台数据库与Web服务器的信息交互,由后台数据库提供实时数据更新和数据查询服务。它的数据不会直接出现在网页的源码里,它是通过js、xhr等文件动态加载的,比如一些网页里的商品信息,用户评论。这次爬取的孔夫子旧书网的店铺评论就是存放在js文件里的,想要爬...

2018-11-18 17:59:38 2260

原创 Python爬取网页所有小说

Python爬取网页所有小说python 2.7.15练习beautifulsoup的使用不了解bs的可以先看一下这个bs文档一、看URL的规律因为是要爬取网页上所有的小说,所以不仅要获取网页的URL,还要获取网页里的连接们的URL。它们一般是有规律的,如果没有的话就用正则或bs抓一个列表出来遍历。我找了一个东野圭吾作品集的网站,网址如下:然后是作品列表,点击图片或名字都可以进入这...

2018-11-11 19:21:21 8326

原创 Python爬取安居客经纪人信息

Python爬取安居客经纪人信息Python2.7.15今天我们来爬取安居客经纪人的信息。这次我们不再使用正则,我们使用beautifulsoup。不了解的可以先看一下这个文档,便于理解。https://beautifulsoup.readthedocs.io/zh_CN/v4.4.0/一、获取源码for page in range(1,8): url ="https://beij...

2018-11-04 18:43:35 1167

原创 Python爬取糗事百科段子

Python爬取糗事百科段子Python2.7.15今天我们来爬取糗事百科的段子一、获取糗事百科的网页源码首先,打开浏览器,进入糗事百科,复制它的网址。然后我们翻个页,可以看到,网址变成了这样,加上了页码。待会我们用代码翻页,就是更改这个网址最后的这个数字。欢迎使用Markdown编辑器你好! 这是你第一次使用 Markdown编辑器 所展示的欢迎页。如果你想学习如何使用Mark...

2018-11-02 21:16:34 382

原创 Python爬取百度贴吧图片

Python爬取百度贴吧图片Python2.7.15当我们需要从网页上大量下载东西时,Python是我们很好的帮手,这次我们以爬取壁纸吧的壁纸图片为例。一.获取网址首先从壁纸吧中选一个你喜欢的帖子打开,复制它的网址二.获取它的HTML源码首先,我们要引入对应模块import reimport urllibimport sysreload(sys)sys.setdefaulte...

2018-10-20 13:39:14 1008

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除