自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(16)
  • 资源 (6)
  • 收藏
  • 关注

原创 Python爬虫中html数据抽取方法对比分析

Python中常用的html数据抽取方法有正则、XPath和BeautifulSoup这三种。其中,最常用的XPath库是lxml。今天再介绍一个库SimplifiedDoc,一起比较一下他们的优劣。1、安装名称安装方法包大小说明正则不需安装(内置)lxmlpip install lxml4.5MB依赖c语言库BeautifulSouppip ...

2020-02-12 16:18:59 449 1

原创 一个简单好用的Python爬虫框架(*)- 使用requests下载页面

先写个例子import requestsfrom simplified_scrapy.spider import Spider, SimplifiedDocfrom simplified_scrapy.simplified_main import SimplifiedMainclass RequestsSpider(Spider): name = 'requests-spider' ...

2019-12-25 18:15:43 226

原创 与BeautifulSoup一样强的SimplifiedDoc,专为html抽取而生

说到html解析,很多人都会推荐使用BeautifulSoup。BeautifulSoup确实是一款功能强大,使用比较简单的html解析器。但是这里要讲的SimplifiedDoc一样是使用简单功能强大且专为html抽取而生的。这里说的抽取和解析的意思有点不同,解析是把字符串html 解析成对象,抽取是将html中的有用数据取出来。也就是说SimplifiedDoc重点不在解析,而是抽取出用户想要...

2019-12-05 10:26:08 1019

原创 一个简单好用的Python爬虫框架(*)-分布式爬虫

先贴上代码,后续加说明。主要是使用redis存储链接数据,使用mongodb存储抽取出的详情数据,也可以换用其它的方式存储。可以将代码部署在不同的服务器上,数据库配置指向相同的地址就可以了。from simplified_scrapy.spider import Spider from simplified_scrapy.simplified_main import SimplifiedMai...

2019-12-03 11:00:08 234

原创 一个简单好用的Python爬虫框架(2)- 渲染下载

之前介绍了simplified-scrapy框架提供的普通下载类,这里再介绍一下,使用simplified-scrapy框架封装pyppeteer库进行渲染下载的方法。要想使用这个,需要安装pyppeteer,Python版本要求3.5+。先来一个例子def callback(html,url,data): print (url,html)req = RequestRender({#传入C...

2019-11-26 10:06:50 242

原创 一个简单好用的Python爬虫框架(3)- 数据抽取-1

simplified-scrapy库提供了简单的下载类,在文件simplified_scrapy.simplified_doc中。虽然是一个轻量级的库,但是转为抽取页面数据而生,用起来简单方便。在从html中抽取出数据方面,也许比XPath、BeautifulSoup等还好用。对于爬虫,抽取页面中的链接是常有的事,我们先以上节下载图片的页面为例,抽取页面中的图片链接。页面中图片部分的html标签...

2019-11-22 16:15:21 208

原创 一个简单好用的Python爬虫框架(2)- 页面下载

simplified-scrapy库提供了简单的下载类,在文件simplified_scrapy.request中,先来一个例子:from simplified_scrapy.request import reqhtml = req.get('http://www.scrapyd.cn/')print (html)上面是一个简单的下载页面数据的例子,有时候单纯传入一个url,不能返回正确...

2019-11-22 14:47:26 163

原创 一个简单好用的Python爬虫框架(1)- 环境说明

准备基于Python的simplified-scrapy库介绍一下网络爬虫。这个库是一个非常简单,非常轻量,非常容易上手又非常强大的一个Python爬虫框架。这个框架真是不用不知道,一用真是好。想要运行Python,首先要安装Python环境,这是天经地义的,当然也是废话。Python安装包下载地址:https://www.python.org/downloads/如果你已经对Python有所...

2019-11-14 16:53:00 104

原创 Python抽取猫眼电影信息

Python抽取猫眼电影信息,如下面的代码所示,是不是太简单了。from simplified_scrapy.request import reqfrom simplified_scrapy.simplified_doc import SimplifiedDocdef test(html): lst=[] if(html): doc = SimplifiedD...

2019-11-12 09:01:33 319 2

原创 一个最简单好用的Python爬虫框架

标题中有个“最”字,应该很多人都是不服气的,不过继续往下看,不知能不能改变您的看法。下面以采集http://www.scrapyd.cn/为例子from simplified_scrapy.core.spider import Spider class ScrapydSpider(Spider): name = 'scrapyd-spider'#定义爬虫名称 start_urls =...

2019-11-04 18:16:40 413

原创 Python抽取豆瓣电影信息

首先安装依赖pip install simplified-scrapy抽取页面地址为:https://movie.douban.com/top250抽取方法如下:#引入SimplifiedDoc类from simplified_scrapy.simplified_doc import SimplifiedDocdef test(html): #生成SimplifiedDoc对象 ...

2019-11-04 15:23:45 205

原创 Python使用simplified-scrapy下载小说的例子

首先安装依赖的包:pip install simplified-scrapyPython代码如下:import io,jsonfrom simplified_scrapy.core.spider import Spider from simplified_scrapy.core.utils import getTimeNow,printInfo,appendFileclass Tia...

2019-10-22 09:58:46 930

原创 Python使用simplified-scrapy下载图片的例子

使用simplified-scrapy下载图片的例子首先安装依赖的包:pip install simplified-scrapy下载图片的代码比较简单,下面直接上代码#!/usr/bin/python#coding=utf-8import os,io,sysfrom simplified_scrapy.core.spider import Spider from simplifi...

2019-10-18 16:57:27 229

原创 千能正则

对于抽取数据,这几乎是一个万能的正则,当然“万能”可能把话说的有点满了,所以就叫“千能正则”。就是下面这个式子:• (?<=XXX)[\s\S]*?(?=XXX)其中红色部分是不变的,变动的部分为XXX,如果我们要抽取下面这条数据中的链接<a href="http://www.github.com" target="_blank">GITHUB</a>正...

2019-08-29 15:59:20 131 2

转载 simplified-scrapy

simplified-scrapy-demosimplified scrapy demoRequirementsPython 2.7, Python 3+ pip install simplified-scrapy Works on Linux, Windows, Mac OSX, BSD运行进入项目根目录,执行下面命令python start.pyDemo文件夹de...

2019-08-23 09:46:12 390 1

原创 图片

2012-03-30 16:16:02 200

simplified-scrapy-demos.zip

使用Python爬虫框架simplified-scrapy,开发的一个简单的爬取站点http://www.scrapyd.cn/的例子源码,支持Python2和Python3。使用前需安装:simplified-scrapy,如果是Python2则还需要安装futures

2019-11-05

asp.net五篇(一)IIS返回503的问题

借助IIS返回503问题,介绍asp.net的运行环境与处理机制

2013-07-18

asp.net五篇(五)自定义控件

通过对asp.net控件的分析,介绍asp.net控件的运行环境与处理机制,给初级开发人员指明方向,让中级开发者突破瓶颈,更进一步

2013-07-18

api生成示例源码

使用C#编写的api生成示例源码,其中数据库使用的是SqlServer,也可以换成其他类型的数据库

2012-03-19

OAuth2.0源码(包括与新浪微波和QQ的连接)

使用C#开发的OAuth2.0客户端,实现了与QQ和新浪微波的连接

2012-03-19

asp.net论坛源码

使用C#开发的Asp.net简易论坛,数据库使用SqlServer,也可以换为其他数据库

2012-03-19

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除