python语言简介-Python语言介绍

原标题:Python语言介绍

d0a0cf732517447e9d70056b90c66e6e.jpeg

Python简介

Python 是一个高层次的结合了解释性、编译性、互动性和面向对象的脚本语言。

Python 的设计具有很强的可读性,相比其他语言经常使用英文关键字,其他语言的一些标点符号,它具有比其他语言更有特色语法结构。

·

Python 是一种解释型语言: 这意味着开发过程中没有了编译这个环节。类似于PHP和Perl语言。

·

·

Python 是交互式语言: 这意味着,您可以在一个Python提示符,直接互动执行写你的程序。

·

·

Python 是面向对象语言: 这意味着Python支持面向对象的风格或代码封装在对象的编程技术。

·

·

Python 是初学者的语言:Python 对初级程序员而言,是一种伟大的语言,它支持广泛的应用程序开发,从简单的文字处理到 WWW 浏览器再到游戏。

·

Python 特点

·

1.易于学习:Python有相对较少的关键字,结构简单,和一个明确定义的语法,学习起来更加简单。

·

·

2.易于阅读:Python代码定义的更清晰。

·

·

3.易于维护:Python的成功在于它的源代码是相当容易维护的。

·

·

4.一个广泛的标准库:Python的最大的优势之一是丰富的库,跨平台的,在UNIX,Windows和Macintosh兼容很好。

·

·

5.互动模式:互动模式的支持,您可以从终端输入执行代码并获得结果的语言,互动的测试和调试代码片断。

·

·

6.可移植:基于其开放源代码的特性,Python已经被移植(也就是使其工作)到许多平台。

·

·

7.可扩展:如果你需要一段运行很快的关键代码,或者是想要编写一些不愿开放的算法,你可以使用C或C++完成那部分程序,然后从你的Python程序中调用。

·

·

8.数据库:Python提供所有主要的商业数据库的接口。

·

·

9.GUI编程:Python支持GUI可以创建和移植到许多系统调用。

·

·

10.可嵌入:你可以将Python嵌入到C/C++程序,让你的程序的用户获得"脚本化"的能力。

·

·

Python数据分析过程

一:数据抽取

从外部源数据中获取数

保存为各种格式的文件、数据库等

使用Scrapy爬虫等技术

二:数据加载

从数据库、文件中提取数据,变成DataFrame对象

pandas库的文件读取方法

三:数据处理

数据准备:

对DataFrame对象(多个)进行组装、合并等操作

pandas库的操作

数据转化:

类型转化、分类(面元等)、异常值检测、过滤等

pandas库的操作

数据聚合:

分组(分类)、函数处理、合并成新的对象

pandas库的操作

四:数据可视化

将pandas的数据结构转化为图表的形式

matplotlib库

五:预测模型的创建和评估

数据挖掘的各种算法:

关联规则挖掘、回归分析、聚类、分类、时序挖掘、序列模式挖掘等

六:部署(得出结果)

从模型和评估中获得知识

知识的表示形式:规则、决策树、知识基、网络权值

本文主要介绍利用Scrapy爬虫爬取数据的过程

【爬取的是杨子晚报,这里就以此为例,创建scrapy爬虫 网址:http://www.yangtse.com/】

第一步:安装scrapy框架

安装地址:http://www.cnblogs.com/wj-1314/p/7856695.html)

第二步:创建scrapy爬虫文件

格式:scrapy startproject + 项目名称

1

scrapy startproject yangzi

第三步:进入爬虫文件

格式:cd 项目名称

cd yangzi

第四步:创建爬虫项目

格式:scrapy genspider -t basic 项目名称 网址

具体用法如下:

Usage===== scrapy genspider [options]

Generate new spider using pre-defined templates

Options=======--help, -h show this help message and exit--list, -l List available templates--edit, -e Edit spider after creating it--dump=TEMPLATE, -d TEMPLATE Dump template to standard output--template=TEMPLATE, -t TEMPLATE Uses a custom template.--force If the spider already exists, overwrite it with the template

Global Options----------------logfile=FILE log file. if omitted stderr will be used--loglevel=LEVEL, -L LEVEL

log level (default: DEBUG)--nolog disable logging completely--profile=FILE write python cProfile stats to FILE--pidfile=FILE write process ID to FILE--set=NAME=VALUE, -s NAME=VALUE set/override setting (may be repeated)--pdb enable pdb on failure

scrapy genspider -t basic yz http://www.yangtse.com/

创建好了,如下图:

解释一下文件:

·

scrapy.cfg:项目的配置文件

·

·

yangzi:该项目的python模块。之后您将在此加入代码。

·

·

yangzi/items.py:项目中的item文件。

·

·

yangzi/pipelines.py:项目中的pipelines文件。

·

·

yangzi/yz/:放置spider代码的目录。

·

第五步:进入爬虫项目中,先写items

写这个的目的就是告诉项目,你要爬去什么东西,比如标题,链接,作者等.

Item是保存爬取到的数据的容器:其使用方法和python字典类似,并且提供了额外保护机制来避免拼写错误导致的未定义字段错误。 类似在ORM中做的一样,你可以通过创建一个scrapy.Item类,并且定义类型为scrapy.Field的类属性来定义一个Item。 首先根据需要从dmoz.org获取到的数据对item进行建模。我们需要从dmoz中获取名字,url,以及网站的描述。对此,在item中定义相应的字段。

以我写的为例,我想爬取标题,链接,内容,如下:

class YangziItem(scrapy.Item): # define the fields for your item here like: #标题 title = scrapy.Field() #链接 link = scrapy.Field() #内容 text = scrapy.Field()

第六步:进入pipelines,设置相应程序

分析爬去的网站,依次爬取的东西,因为pipelines是进行后续处理的,比如把数据写入MySQL,或者写入本地文档啊等等,就在pipelies里面写。这里直接输出,不做数据库的导入处理

class YangziPipeline(object): def process_item(self, item, spider): print(item["title"]) print(item["link"]) return item

第七步:再写自己创建的爬虫

(其实,爬虫和pipelines和settings前后顺序可以颠倒,这个不重要,但是一定要先写items)

Spider是用户编写用于从单个网站(或者一些网站)爬取数据的类。 其包含了一个用于下载的初始url,如何跟进网页中的链接以及如何分析页面中的内容,提取生成item的方法。 为了创建一个Spider,您必须继承scrapy.Spider类,且定义以下三个属性:

§

name:用于区别Spider。改名字必须是唯一的,您不可以为不同的Spider设定相同的名字。

§

§

start_urls:包含了Spider在启动时进行爬取的url列表。因此,第一个被获取的页面给将是其中之一。后续的URL则从初始的URL获取到的数据中提取。

§

§

parse():是spider的一个方法。被调用时,每个初始url完成下载后生成的Response对象将会作为唯一的参数传递给该函数。该方法负责解析返回的数据(response data),提取数据(生成item)以及生成需要进一步处理的URL的Request对象。

§

进入爬虫后,先导入items

接下来需要创建一个ITEM容器,

it = YangziItem()

然后写自己的要爬去的内容,分析网页后,利用xpath写

def parse(self, response): it = YangziItem() it["title"] = response.xpath('//div[@class="box-text-title]/text()').extract() it["link"] = response.xpath('//a[@target="_blank"]/@href').extract() #it["text"] = response.xpath().extract() yield it

第八步:设置settings

在settings中配置pipelines(ctrl+f 找到pipelines,然后解除那三行的注释,大约在64-68行之间),如下图

第九步:运行爬虫文件

scrapy crawl yzscrapy crawl yz --nolog返回搜狐,查看更多

责任编辑:

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值