memoirs_pz-CSDN博客

原创 PhantomJS+selenium模拟登陆与爬取信息

Python 2.7.15PhantomJS是一个无界面的,可脚本编程的WebKit浏览器引擎。它原生支持多种web 标准：DOM 操作，CSS选择器，JSON，Canvas 以及SVG。selenium主要是用来做自动化测试，支持多种浏览器，爬虫中主要用来解决JavaScript渲染问题，模拟浏览器进行网页加载。当我们要爬取页面有大量的JS渲染的时候，使用PhantomJS+seleniu...

2019-01-27 10:54:39 591

原创 scrapy结合xpath

scrapy结合xpath爬取爱问知识人python2.7.15xpath是个很简洁方便的东西，很清晰，熟练运用xpath可以让你更快的找到想要爬取的东西。xpath教程请移步X Path语法先来写spiderstar_url里是爱问知识人的网站的一个问题分类，爬取它的问题和答案。下面是进入这个页面response是star_url传给parse函数的网页信息，对它使用xpath...

2018-12-09 20:55:07 313

原创使用scrapy爬取

了解scrapy框架，使用scrapy爬取酒店评论python2.7.15Scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架。可以应用在包括数据挖掘，信息处理或存储历史数据等一系列的程序中。scrapy分为以下几个工作部件引擎(Scrapy Engine)，用来处理整个系统的数据流处理，触发事务(框架核心)。调度器(Scheduler)，用来接受引擎发过来的请求，放入队...

2018-12-02 17:25:28 1685

原创动态爬取，酒店评论

使用Python爬取动态网页，获取评论python2.7.15酒店的评论都在js文件中它们连着数据库，是动态加载的，找到js文件的URL和它们的规律，爬取就成功了一半。我获取了评论中的五项，这五项中有的可能没有，因为是在字典中取值，如果没有的话会报错，说没有该键，所以在查找和写入的时候要加一个try-except，如果有就获取并写入，如果没有就赋值noneheaders字典和data字典是...

2018-11-25 18:32:52 814

原创 python动态爬取，孔夫子旧书网

python爬取孔夫子旧书网的店铺评论python2.7.15这次爬取的是动态网页，所谓动态网页就是动态网页是指网页文件里包含了程序代码，通过后台数据库与Web服务器的信息交互，由后台数据库提供实时数据更新和数据查询服务。它的数据不会直接出现在网页的源码里，它是通过js、xhr等文件动态加载的，比如一些网页里的商品信息，用户评论。这次爬取的孔夫子旧书网的店铺评论就是存放在js文件里的，想要爬...

2018-11-18 17:59:38 2260

原创 Python爬取网页所有小说

Python爬取网页所有小说python 2.7.15练习beautifulsoup的使用不了解bs的可以先看一下这个bs文档一、看URL的规律因为是要爬取网页上所有的小说，所以不仅要获取网页的URL，还要获取网页里的连接们的URL。它们一般是有规律的，如果没有的话就用正则或bs抓一个列表出来遍历。我找了一个东野圭吾作品集的网站，网址如下：然后是作品列表，点击图片或名字都可以进入这...

2018-11-11 19:21:21 8326

原创 Python爬取安居客经纪人信息

Python爬取安居客经纪人信息Python2.7.15今天我们来爬取安居客经纪人的信息。这次我们不再使用正则，我们使用beautifulsoup。不了解的可以先看一下这个文档，便于理解。https://beautifulsoup.readthedocs.io/zh_CN/v4.4.0/一、获取源码for page in range(1,8): url ="https://beij...

2018-11-04 18:43:35 1167

原创 Python爬取糗事百科段子

Python爬取糗事百科段子Python2.7.15今天我们来爬取糗事百科的段子一、获取糗事百科的网页源码首先，打开浏览器，进入糗事百科，复制它的网址。然后我们翻个页，可以看到，网址变成了这样，加上了页码。待会我们用代码翻页，就是更改这个网址最后的这个数字。欢迎使用Markdown编辑器你好！这是你第一次使用 Markdown编辑器所展示的欢迎页。如果你想学习如何使用Mark...

2018-11-02 21:16:34 382

原创 Python爬取百度贴吧图片

Python爬取百度贴吧图片Python2.7.15当我们需要从网页上大量下载东西时，Python是我们很好的帮手，这次我们以爬取壁纸吧的壁纸图片为例。一.获取网址首先从壁纸吧中选一个你喜欢的帖子打开，复制它的网址二.获取它的HTML源码首先，我们要引入对应模块import reimport urllibimport sysreload(sys)sys.setdefaulte...

2018-10-20 13:39:14 1008

memoirs_pz的博客