python语言简介-Python语言介绍

最新推荐文章于 2023-06-23 18:40:35 发布

weixin_37988176

最新推荐文章于 2023-06-23 18:40:35 发布

阅读量233

点赞数

原标题：Python语言介绍

Python简介

Python 是一个高层次的结合了解释性、编译性、互动性和面向对象的脚本语言。

Python 的设计具有很强的可读性，相比其他语言经常使用英文关键字，其他语言的一些标点符号，它具有比其他语言更有特色语法结构。

Python 是一种解释型语言：这意味着开发过程中没有了编译这个环节。类似于PHP和Perl语言。

Python 是交互式语言：这意味着，您可以在一个Python提示符，直接互动执行写你的程序。

Python 是面向对象语言: 这意味着Python支持面向对象的风格或代码封装在对象的编程技术。

Python 是初学者的语言：Python 对初级程序员而言，是一种伟大的语言，它支持广泛的应用程序开发，从简单的文字处理到 WWW 浏览器再到游戏。

Python 特点

1.易于学习：Python有相对较少的关键字，结构简单，和一个明确定义的语法，学习起来更加简单。

2.易于阅读：Python代码定义的更清晰。

3.易于维护：Python的成功在于它的源代码是相当容易维护的。

4.一个广泛的标准库：Python的最大的优势之一是丰富的库，跨平台的，在UNIX，Windows和Macintosh兼容很好。

5.互动模式：互动模式的支持，您可以从终端输入执行代码并获得结果的语言，互动的测试和调试代码片断。

6.可移植：基于其开放源代码的特性，Python已经被移植（也就是使其工作）到许多平台。

7.可扩展：如果你需要一段运行很快的关键代码，或者是想要编写一些不愿开放的算法，你可以使用C或C++完成那部分程序，然后从你的Python程序中调用。

8.数据库：Python提供所有主要的商业数据库的接口。

9.GUI编程：Python支持GUI可以创建和移植到许多系统调用。

10.可嵌入:你可以将Python嵌入到C/C++程序，让你的程序的用户获得"脚本化"的能力。

Python数据分析过程

一：数据抽取

从外部源数据中获取数

保存为各种格式的文件、数据库等

使用Scrapy爬虫等技术

二：数据加载

从数据库、文件中提取数据，变成DataFrame对象

pandas库的文件读取方法

三：数据处理

数据准备：

对DataFrame对象（多个）进行组装、合并等操作

pandas库的操作

数据转化：

类型转化、分类（面元等）、异常值检测、过滤等

pandas库的操作

数据聚合：

分组（分类）、函数处理、合并成新的对象

pandas库的操作

四：数据可视化

将pandas的数据结构转化为图表的形式

matplotlib库

五：预测模型的创建和评估

数据挖掘的各种算法：

关联规则挖掘、回归分析、聚类、分类、时序挖掘、序列模式挖掘等

六：部署（得出结果）

从模型和评估中获得知识

知识的表示形式：规则、决策树、知识基、网络权值

本文主要介绍利用Scrapy爬虫爬取数据的过程

【爬取的是杨子晚报，这里就以此为例，创建scrapy爬虫网址：http://www.yangtse.com/】

第一步：安装scrapy框架

安装地址：http://www.cnblogs.com/wj-1314/p/7856695.html）

第二步：创建scrapy爬虫文件

格式：scrapy startproject + 项目名称

scrapy startproject yangzi

第三步：进入爬虫文件

格式：cd 项目名称

cd yangzi

第四步：创建爬虫项目

格式：scrapy genspider -t basic 项目名称网址

具体用法如下：

Usage===== scrapy genspider [options]

Generate new spider using pre-defined templates

Options=======--help, -h show this help message and exit--list, -l List available templates--edit, -e Edit spider after creating it--dump=TEMPLATE, -d TEMPLATE Dump template to standard output--template=TEMPLATE, -t TEMPLATE Uses a custom template.--force If the spider already exists, overwrite it with the template

Global Options----------------logfile=FILE log file. if omitted stderr will be used--loglevel=LEVEL, -L LEVEL

log level (default: DEBUG)--nolog disable logging completely--profile=FILE write python cProfile stats to FILE--pidfile=FILE write process ID to FILE--set=NAME=VALUE, -s NAME=VALUE set/override setting (may be repeated)--pdb enable pdb on failure

scrapy genspider -t basic yz http://www.yangtse.com/

创建好了，如下图：

解释一下文件：

scrapy.cfg:项目的配置文件

yangzi:该项目的python模块。之后您将在此加入代码。

yangzi/items.py:项目中的item文件。

yangzi/pipelines.py:项目中的pipelines文件。

yangzi/yz/：放置spider代码的目录。

第五步：进入爬虫项目中，先写items

写这个的目的就是告诉项目，你要爬去什么东西，比如标题，链接，作者等.

Item是保存爬取到的数据的容器：其使用方法和python字典类似，并且提供了额外保护机制来避免拼写错误导致的未定义字段错误。类似在ORM中做的一样，你可以通过创建一个scrapy.Item类，并且定义类型为scrapy.Field的类属性来定义一个Item。首先根据需要从dmoz.org获取到的数据对item进行建模。我们需要从dmoz中获取名字，url，以及网站的描述。对此，在item中定义相应的字段。

以我写的为例，我想爬取标题，链接，内容，如下：

class YangziItem(scrapy.Item): # define the fields for your item here like: #标题 title = scrapy.Field() #链接 link = scrapy.Field() #内容 text = scrapy.Field()

第六步：进入pipelines，设置相应程序

分析爬去的网站，依次爬取的东西，因为pipelines是进行后续处理的，比如把数据写入MySQL,或者写入本地文档啊等等，就在pipelies里面写。这里直接输出，不做数据库的导入处理

class YangziPipeline(object): def process_item(self, item, spider): print(item["title"]) print(item["link"]) return item

第七步：再写自己创建的爬虫

（其实，爬虫和pipelines和settings前后顺序可以颠倒，这个不重要，但是一定要先写items）

Spider是用户编写用于从单个网站（或者一些网站）爬取数据的类。其包含了一个用于下载的初始url,如何跟进网页中的链接以及如何分析页面中的内容，提取生成item的方法。为了创建一个Spider,您必须继承scrapy.Spider类，且定义以下三个属性：

name:用于区别Spider。改名字必须是唯一的，您不可以为不同的Spider设定相同的名字。

start_urls:包含了Spider在启动时进行爬取的url列表。因此，第一个被获取的页面给将是其中之一。后续的URL则从初始的URL获取到的数据中提取。

parse():是spider的一个方法。被调用时，每个初始url完成下载后生成的Response对象将会作为唯一的参数传递给该函数。该方法负责解析返回的数据（response data）,提取数据（生成item）以及生成需要进一步处理的URL的Request对象。

进入爬虫后，先导入items

接下来需要创建一个ITEM容器，

it = YangziItem()

然后写自己的要爬去的内容，分析网页后,利用xpath写

def parse(self, response): it = YangziItem() it["title"] = response.xpath('//div[@class="box-text-title]/text()').extract() it["link"] = response.xpath('//a[@target="_blank"]/@href').extract() #it["text"] = response.xpath().extract() yield it

第八步：设置settings

在settings中配置pipelines（ctrl+f 找到pipelines，然后解除那三行的注释，大约在64-68行之间），如下图

第九步：运行爬虫文件

scrapy crawl yzscrapy crawl yz --nolog返回搜狐，查看更多

责任编辑：

weixin_37988176

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python语言简介-Python语言介绍

原标题：Python语言介绍 Python简介Python 是一个高层次的结合了解释性、编译性、互动性和面向对象的脚本语言。Python 的设计具有很强的可读性，相比其他语言经常使用英文关键字，其他语言的一些标点符号，它具有比其他语言更有特色语法结构。·Python 是一种解释型语言：这意味着开发过程中没有了编译这个环节。类似于PHP和Perl语言。··Python 是交互式语言：这意味着，您...
复制链接

扫一扫

python语言简介-Python语言介绍

“相关推荐”对你有帮助么？