dabingsou-CSDN博客

原创 Python爬虫中html数据抽取方法对比分析

Python中常用的html数据抽取方法有正则、XPath和BeautifulSoup这三种。其中，最常用的XPath库是lxml。今天再介绍一个库SimplifiedDoc，一起比较一下他们的优劣。1、安装名称安装方法包大小说明正则不需安装（内置）lxmlpip install lxml4.5MB依赖c语言库BeautifulSouppip ...

2020-02-12 16:18:59 1794 1

原创一个简单好用的Python爬虫框架（*）- 使用requests下载页面

先写个例子import requestsfrom simplified_scrapy.spider import Spider, SimplifiedDocfrom simplified_scrapy.simplified_main import SimplifiedMainclass RequestsSpider(Spider): name = 'requests-spider' ...

2019-12-25 18:15:43 299

原创与BeautifulSoup一样强的SimplifiedDoc，专为html抽取而生

说到html解析，很多人都会推荐使用BeautifulSoup。BeautifulSoup确实是一款功能强大，使用比较简单的html解析器。但是这里要讲的SimplifiedDoc一样是使用简单功能强大且专为html抽取而生的。这里说的抽取和解析的意思有点不同，解析是把字符串html 解析成对象，抽取是将html中的有用数据取出来。也就是说SimplifiedDoc重点不在解析，而是抽取出用户想要...

2019-12-05 10:26:08 1193

原创一个简单好用的Python爬虫框架（*）-分布式爬虫

先贴上代码，后续加说明。主要是使用redis存储链接数据，使用mongodb存储抽取出的详情数据，也可以换用其它的方式存储。可以将代码部署在不同的服务器上，数据库配置指向相同的地址就可以了。from simplified_scrapy.spider import Spider from simplified_scrapy.simplified_main import SimplifiedMai...

2019-12-03 11:00:08 323

原创一个简单好用的Python爬虫框架（2）- 渲染下载

之前介绍了simplified-scrapy框架提供的普通下载类，这里再介绍一下，使用simplified-scrapy框架封装pyppeteer库进行渲染下载的方法。要想使用这个，需要安装pyppeteer，Python版本要求3.5+。先来一个例子def callback(html,url,data): print (url,html)req = RequestRender({#传入C...

2019-11-26 10:06:50 302

原创一个简单好用的Python爬虫框架（3）- 数据抽取-1

simplified-scrapy库提供了简单的下载类，在文件simplified_scrapy.simplified_doc中。虽然是一个轻量级的库，但是转为抽取页面数据而生，用起来简单方便。在从html中抽取出数据方面，也许比XPath、BeautifulSoup等还好用。对于爬虫，抽取页面中的链接是常有的事，我们先以上节下载图片的页面为例，抽取页面中的图片链接。页面中图片部分的html标签...

2019-11-22 16:15:21 289

原创一个简单好用的Python爬虫框架（2）- 页面下载

simplified-scrapy库提供了简单的下载类，在文件simplified_scrapy.request中，先来一个例子：from simplified_scrapy.request import reqhtml = req.get('http://www.scrapyd.cn/')print (html)上面是一个简单的下载页面数据的例子，有时候单纯传入一个url，不能返回正确...

2019-11-22 14:47:26 257

原创一个简单好用的Python爬虫框架（1）- 环境说明

准备基于Python的simplified-scrapy库介绍一下网络爬虫。这个库是一个非常简单，非常轻量，非常容易上手又非常强大的一个Python爬虫框架。这个框架真是不用不知道，一用真是好。想要运行Python，首先要安装Python环境，这是天经地义的，当然也是废话。Python安装包下载地址：https://www.python.org/downloads/如果你已经对Python有所...

2019-11-14 16:53:00 167

原创 Python抽取猫眼电影信息

Python抽取猫眼电影信息，如下面的代码所示，是不是太简单了。from simplified_scrapy.request import reqfrom simplified_scrapy.simplified_doc import SimplifiedDocdef test(html): lst=[] if(html): doc = SimplifiedD...

2019-11-12 09:01:33 422 2

原创一个最简单好用的Python爬虫框架

标题中有个“最”字，应该很多人都是不服气的，不过继续往下看，不知能不能改变您的看法。下面以采集http://www.scrapyd.cn/为例子from simplified_scrapy.core.spider import Spider class ScrapydSpider(Spider): name = 'scrapyd-spider'#定义爬虫名称 start_urls =...

2019-11-04 18:16:40 517

原创 Python抽取豆瓣电影信息

首先安装依赖pip install simplified-scrapy抽取页面地址为：https://movie.douban.com/top250抽取方法如下：#引入SimplifiedDoc类from simplified_scrapy.simplified_doc import SimplifiedDocdef test(html): #生成SimplifiedDoc对象 ...

2019-11-04 15:23:45 282

原创 Python使用simplified-scrapy下载小说的例子

首先安装依赖的包：pip install simplified-scrapyPython代码如下：import io,jsonfrom simplified_scrapy.core.spider import Spider from simplified_scrapy.core.utils import getTimeNow,printInfo,appendFileclass Tia...

2019-10-22 09:58:46 1129

原创 Python使用simplified-scrapy下载图片的例子

使用simplified-scrapy下载图片的例子首先安装依赖的包：pip install simplified-scrapy下载图片的代码比较简单，下面直接上代码#!/usr/bin/python#coding=utf-8import os,io,sysfrom simplified_scrapy.core.spider import Spider from simplifi...

2019-10-18 16:57:27 297

原创千能正则

对于抽取数据，这几乎是一个万能的正则，当然“万能”可能把话说的有点满了，所以就叫“千能正则”。就是下面这个式子：• (?<=XXX)[\s\S]*?(?=XXX)其中红色部分是不变的，变动的部分为XXX，如果我们要抽取下面这条数据中的链接<a href="http://www.github.com" target="_blank">GITHUB</a>正...

2019-08-29 15:59:20 220 2

转载 simplified-scrapy

simplified-scrapy-demosimplified scrapy demoRequirementsPython 2.7, Python 3+ pip install simplified-scrapy Works on Linux, Windows, Mac OSX, BSD运行进入项目根目录，执行下面命令python start.pyDemo文件夹de...

2019-08-23 09:46:12 493 1