自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

python核心编程

python核心编程

  • 博客(47)
  • 收藏
  • 关注

原创 Python之requests的安装

在 windows 系统下,只需要输入命令 pip install requests ,即可安装。在 linux 系统下,只需要输入命令 sudo pip install requests ,即可安装。注:关于python第三方库的安装最好少使用 easy_install,因为 easy_install 只能安装不能卸载,如果要卸载需要进入到 python 的安装目录下面的 lib 的文件夹...

2019-12-11 11:08:17 417

原创 [Python3网络爬虫开发实战] 分析Ajax爬取今日头条街拍美图

本节中,我们以今日头条为例来尝试通过分析Ajax请求来抓取网页数据的方法。这次要抓取的目标是今日头条的街拍美图,抓取完成之后,将每组图片分文件夹下载到本地并保存下来。准备工作在本节开始之前,请确保已经安装好requests库。如果没有安装,可以参考第1章。抓取分析在抓取之前,首先要分析抓取的逻辑。打开今日头条的首页http://www.toutiao.com/,如图6-15所示。...

2019-12-09 17:12:34 7780 5

原创 [Python3网络爬虫开发实战] 代理的设置

在前面我们介绍了多种请求库,如 Requests、Urllib、Selenium 等。我们接下来首先贴近实战,了解一下代理怎么使用,为后面了解代理池、ADSL 拨号代理的使用打下基础。下面我们来梳理一下这些库的代理的设置方法。获取代理在做测试之前,我们需要先获取一个可用代理,搜索引擎搜索“代理”关键字,就可以看到有许多代理服务网站,在网站上会有很多免费代理,比如西刺:http://www....

2019-12-08 22:01:41 418

原创 [Python3网络爬虫开发实战] 代理池的维护

我们在上一节了解了代理的设置方法,利用代理我们可以解决目标网站封 IP 的问题,而在网上又有大量公开的免费代理,其中有一部分可以拿来使用,或者我们也可以购买付费的代理 IP,价格也不贵。但是不论是免费的还是付费的,都不能保证它们每一个都是可用的,毕竟可能其他人也可能在用此 IP 爬取同样的目标站点而被封禁,或者代理服务器突然出故障或网络繁忙。一旦我们选用了一个不可用的代理,势必会影响我们爬虫的工作...

2019-12-08 21:52:26 490

原创 [Python3网络爬虫开发实战] 付费讯代理、阿布云代理的使用

相对免费代理来说,付费代理的稳定性相对更高一点,本节介绍一下爬虫付费代理的相关使用过程。付费代理分类在这里将付费代理分为两类:提供接口获取海量代理,按天或者按量付费,如讯代理搭建了代理隧道,直接设置固定域名代理,如阿布云本节讲解一下这两种代理的使用方法,分别以两家代表性的代理网站为例进行讲解。讯代理讯代理个人使用过代理有效率还是蛮高的,此处非广告,其官网为:http://www...

2019-12-08 21:46:45 710

原创 Python 中 typing 模块和类型注解的使用

实例引入我们知道 Python 是一种动态语言,在声明一个变量时我们不需要显式地声明它的类型,例如下面的例子:a = 2print('1 + a =', 1 + a)运行结果:1 + a = 3这里我们首先声明了一个变量 a,并将其赋值为了 2,然后将最后的结果打印出来,程序输出来了正确的结果。但在这个过程中,我们没有声明它到底是什么类型。但如果这时候我们将 a 变成一个字符串类...

2019-12-08 21:42:21 444

原创 python核心教程:利用 Python Faker 包来制作假数据

在做程序开发的时候,我们经常会用到一些测试数据,相信大多数同学是这么来造测试数据的:test1test01test02测试1测试2测试数据1这是一段测试文本这是一段很长很长很长的测试文本...中枪的请举手。不仅要自己手动敲这些测试数据,还敲的这么假。那有啥办法呢?难不成有什么东西能自动给我造点以假乱真的数据啊?你别说,还真有!在 Python 中有个神库,叫做 Faker,...

2019-12-08 21:29:16 538

原创 python教程:Appium+mitmdump 爬取京东商品

在前文中,我们曾经用 Charles 分析过京东商品的评论数据,但是可以发现其参数相当复杂,Form 表单有很多加密参数。如果我们只用 Charles 探测到这个接口链接和参数,还是无法直接构造请求的参数,构造的过程涉及一些加密算法,也就无法直接还原抓取过程。我们了解了 mitmproxy 的用法,利用它的 mitmdump 组件,可以直接对接 Python 脚本对抓取的数据包进行处理,用 Py...

2019-12-07 21:47:41 795 1

原创 Python爬虫进阶三之Scrapy框架安装配置

初级的爬虫我们利用urllib和urllib2库以及正则表达式就可以完成了,不过还有更加强大的工具,爬虫框架Scrapy,这安装过程也是煞费苦心哪,在此整理如下。Windows 平台:我的系统是 Win7,首先,你要有Python,我用的是2.7.7版本,Python3相仿,只是一些源文件不同。官网文档:http://doc.scrapy.org/en/latest/intro/instal...

2019-12-07 21:40:46 107

原创 Python爬虫入门七之正则表达式

在前面我们已经搞定了怎样获取页面的内容,不过还差一步,这么多杂乱的代码夹杂文字我们怎样把它提取出来整理呢?下面就开始介绍一个十分强大的工具,正则表达式!1.了解正则表达式正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种过滤逻辑。正则表达式是用来匹配字符串非常强大的工具,在其他编程语...

2019-12-07 21:18:55 122

原创 Python爬虫入门二之爬虫基础了解

1.什么是爬虫爬虫,即网络爬虫,大家可以理解为在网络上爬行的一直蜘蛛,互联网就比作一张大网,而爬虫便是在这张网上爬来爬去的蜘蛛咯,如果它遇到资源,那么它就会抓取下来。想抓取什么?这个由你来控制它咯。比如它在抓取一个网页,在这个网中他发现了一条道路,其实就是指向网页的超链接,那么它就可以爬到另一张网上来获取数据。这样,整个连在一起的大网对这之蜘蛛来说触手可及,分分钟爬下来不是事儿。2.浏览网页...

2019-12-07 21:09:23 132

原创 Python爬虫入门三之Urllib库的基本使用

1.分分钟扒一个网页下来怎样扒网页呢?其实就是根据URL来获取它的网页信息,虽然我们在浏览器中看到的是一幅幅优美的画面,但是其实是由浏览器解释才呈现出来的,实质它是一段HTML代码,加 JS、CSS,如果把网页比作一个人,那么HTML便是他的骨架,JS便是他的肌肉,CSS便是它的衣服。所以最重要的部分是存在于HTML中的,下面我们就写个例子来扒一个网页下来。import urllib2 r...

2019-12-07 19:19:58 94

原创 Python爬虫入门四之Urllib库的高级用法

1.设置Headers有些网站不会同意程序直接用上面的方式进行访问,如果识别有问题,那么站点根本不会响应,所以为了完全模拟浏览器的工作,我们需要设置一些Headers 的属性。首先,打开我们的浏览器,调试浏览器F12,我用的是Chrome,打开网络监听,示意如下,比如知乎,点登录之后,我们会发现登陆之后界面都变化了,出现一个新的界面,实质上这个页面包含了许许多多的内容,这些内容也不是一次性就加...

2019-12-07 18:47:28 100

原创 Python爬虫入门五之URLError异常处理

1.URLError首先解释下URLError可能产生的原因:网络无连接,即本机无法上网连接不到特定的服务器服务器不存在在代码中,我们需要用try-except语句来包围并捕获相应的异常。下面是一个例子,先感受下它的风骚import urllib2 requset = urllib2.Request('http://www.xxxxx.com')try: urllib2....

2019-12-07 18:40:53 416

原创 Python爬虫入门六之Cookie的使用

为什么要使用Cookie呢?Cookie,指某些网站为了辨别用户身份、进行session跟踪而储存在用户本地终端上的数据(通常经过加密)比如说有些网站需要登录后才能访问某个页面,在登录之前,你想抓取某个页面内容是不允许的。那么我们可以利用Urllib2库保存我们登录的Cookie,然后再抓取其他页面就达到目的了。在此之前呢,我们必须先介绍一个opener的概念。1.Opener当你获取一...

2019-12-07 18:36:51 155

原创 Python和Ruby两大语言全方位对比

最近在考虑学习一门后端语言,在Ruby和Python直接犹豫,然后自己做了一些对比,希望能帮到有同样问题的你。一、异同对比选择1、Python和ruby的相同点:都强调语法简单,都具有更一般的表达方式。python是缩进,ruby是类basic的表达。都大量减少了符号。都是动态数据类型。都是有丰富的数据结构。都具有C语言扩展能力,都具有可移植性,比perl的可移植性更好。也都可以作为嵌入...

2019-12-07 18:22:41 3506 1

原创 python核心教程:用Python如何统计文本文件中的词频?

如何用python统计一个纯文本文件中的词频?这是我每次面试的时候都会问的一个问题。对于有些经验的程序员来说,这是一个很简单的问题。但实际情况是,很多面试者都不能很好甚至不能解决这个问题。对文本做词频统计在爬虫抓取了数据后对数据做分类、去重等都有应用,算是一个数据处理的基本功能。这里我们以英文内容为例来解决这个问题,而中文还涉及到文本的编码和分词。读取文本文件python读取文本很简单:...

2019-12-07 18:15:35 8531

原创 python核心教程:python获取csv文本指定数据方法

这次给大家带来python获取csv文本指定数据方法,python获取csv文本指定数据的注意事项有哪些,下面就是实战案例,一起来看一下。csv是Comma-Separated Values的缩写,是用文本文件形式储存的表格数据,比如如下的表格:就可以存储为csv文件,文件内容是:No.,Name,Age,Score1,Apple,12,982,Ben,13,973,Celia...

2019-12-06 17:25:08 2150

原创 python核心教程:python识别验证码

这次给大家带来python识别验证码,python识别验证码的注意事项有哪些,下面就是实战案例,一起来看一下。除了传统的PIL包处理图片,然后用pytessert+OCR识别意外,还可以使用tessorflow训练来识别验证码。此篇代码大部分是转载的,只改了很少地方。代码是运行在linux环境,tessorflow没有支持windows的python 2.7。gen_captcha.py代...

2019-12-06 17:18:43 435

原创 python核心教程:Python怎么将变量按行写入txt格式里

这次给大家带来Python怎么将变量按行写入txt格式里,Python将变量按行写入txt格式的注意事项有哪些,下面就是实战案例,一起来看一下。先看一个简单的例子:将变量写入txt文本中f = open('E:/test.txt','w') f.write('hello world!') Out[3]: 12 f.close()结果如图:那么如何将变量按行写入呢?在’w’...

2019-12-06 17:10:08 930

原创 python核心教程:python怎么逐行读写txt文件

这次给大家带来python怎么逐行读写txt文件,python逐行读写txt文件的注意事项有哪些,下面就是实战案例,一起来看一下。实例如下所示:# -*-coding:utf-8-*-import osfile_obj = open("test2.txt")all_lines = file_obj.readlines()for line in all_lines: pri...

2019-12-06 17:07:06 1100

原创 python核心教程:Python怎么实现HMacMD5加密算法

这次给大家带来Python怎么实现HMacMD5加密算法,Python实现HMacMD5加密算法的注意事项有哪些,下面就是实战案例,一起来看一下。本文实例讲述了Python实现的HMacMD5加密算法。分享给大家供大家参考,具体如下:什么是 HMAC-MD5?1、比如你和对方共享了一个密钥K,现在你要发消息给对方,既要保证消息没有被篡改,又要能证明信息确实是你本人发的,那么就把原信息和使用K...

2019-12-06 17:04:22 2303

原创 python核心教程之Python调用mysql更新数据的方法

这次给大家带来Python调用mysql更新数据的方法,Python调用mysql更新数据的注意事项有哪些,下面就是实战案例,一起来看一下。本文实例讲述了Python通过调用mysql存储过程实现更新数据功能。分享给大家供大家参考,具体如下:一、需求分析由于管理费率配置错误,生成订单的还本付息表和订单表的各种金额,管理费之间的计算都有错误,需要进行数据订正。为此,为了造个轮子,以后省很多功夫...

2019-12-06 16:58:55 451

原创 python怎么批量读取txt文件为DataFrame格式

这次给大家带来python怎么批量读取txt文件为DataFrame格式,python批量读取txt文件为DataFrame格式的注意事项有哪些,下面就是实战案例,一起来看一下。我们有时候会批量处理同一个文件夹下的文件,并且希望读取到一个文件里面便于我们计算操作。比方我有下图一系列的txt文件,我该如何把它们写入一个txt文件中并且读取为DataFrame格式呢?首先我们要用到glob模块,...

2019-12-06 16:55:40 2534

原创 python核心教程:python字符串如何转为二维数组

这次给大家带来python字符串如何转为二维数组,python字符串转为二维数组的注意事项有哪些,下面就是实战案例,一起来看一下。有一道算法题题目的意思是在二维数组里找到一个峰值。要求复杂度为n。解题思路是找田字(四边和中间横竖两行)中最大值,用分治法递归下一个象限的田字。在用python定义一个二维数组时可以有list和numpy.array两种方式,看了几篇python中二维数组的建立的...

2019-12-06 16:52:34 3104

原创 python核心教程:Python怎么实现马氏距离

这次给大家带来Python怎么实现马氏距离,Python实现马氏距离算法的注意事项有哪些,下面就是实战案例,一起来看一下。本文实例讲述了Python实现的计算马氏距离算法。分享给大家供大家参考,具体如下我给写成函数调用了python实现马氏距离源代码:# encoding: utf-8from future import pisionimport sysreload(sys)...

2019-12-06 16:47:29 6787 3

原创 python核心教程之Python numpy怎么提取矩阵的指定行列

这次给大家带来Python numpy怎么提取矩阵的指定行列,Python numpy提取矩阵指定行列的注意事项有哪些,下面就是实战案例,一起来看一下。如下所示:import numpy as npa=np.arange(9).reshape(3,3)aOut[31]: array([[0, 1, 2], [3, 4, 5], [6, 7, 8]])矩阵的某一...

2019-12-06 16:45:05 3558 1

原创 python核心教程:localeCompare函数怎么使用

localeCompare()是在JavaScript的一个内置函数,可以用于比较任何两个特定的顺序元素。下面我们就来快看一下localeCompare函数的具体使用方法。我们先来看一下localeCompare函数的基本语法<!DOCTYPE html><html><head> <title></title>&lt...

2019-12-04 17:29:27 414

原创 python核心教程之min函数怎么使用

min()函数是用于返回在指定的数字中带有最低值的数字,如果任何参数不是数字且不能转换为数字,Math.min()函数将返回NaN。下面我们就来看一下min()函数的具体使用方法。我们先来看一下min函数的基本语法Math.min(value1,value2,...)Value1,Value2,……:传递到math.min()函数的值,用于查找最小值。我们下面来看具体示例代码如下参数...

2019-12-04 17:24:41 4934 1

原创 python核心教程:max函数怎么使用

max函数可以用于返回多个数字中最大的那个值,如果没有传递参数,则结果为“-Infinity”,如果至少有一个参数无法转换为数字,则结果为NaN。下面我们就来看看max函数的具体使用方法。我们先来看一下max函数的基本语法Math.max(value1,value2,...)Value1,Value2,……:传递到math.max()函数的值,用于查找最大值。下面我们来看具体的示例当...

2019-12-04 17:20:20 4157

原创 python核心教程:min函数和max函数用法

min函数和max函数用法MIN函数MIN函数是Microsoft Excel中的公式,可表示为min(x,y)=0.5*(x+y-|x-y|), 作用是返回给定参数表中的最小值。函数参数可以是数字、空白单元格、逻辑值或表示数值的文字串,如果参数中有错误值或无法转换成数值的文字时,将引起错误。语法 MIN(number1,number2, ...)【A,B】=MIN(number1,n...

2019-12-04 17:16:15 2256

原创 python核心教程:Python中Json模块和Pickle模块的使用

在对数据进行序列化和反序列化是常见的数据操作,Python提供了两个模块方便开发者实现数据的序列化操作,即 json 模块和 pickle 模块。这两个模块主要区别如下:json 是一个文本序列化格式,而 pickle 是一个二进制序列化格式;json 是我们可以直观阅读的,而 pickle 不可以;json 是可互操作的,在 Python 系统之外广泛使用,而 pickle 则是 Pyth...

2019-12-04 16:35:00 136

原创 python核心教程:python如何安装pickle

pickle是python语言的一个标准模块,安装python后已包含pickle库,不需要单独再安装。pickle模块实现了基本的数据序列化和反序列化。通过pickle模块的序列化操作我们能够将程序中运行的对象信息保存到文件中去,永久存储;通过pickle模块的反序列化操作,我们能够从文件中创建上一次程序保存的对象。在官方的介绍中,序列化操作的英文描述有好几个单词,如”serializin...

2019-12-04 16:30:16 14118 1

原创 python核心教程:Python内置的pickle库的对象序列化与反序列化

我们最近想要对爬虫拿到的下载结果进行存档,这个结果是一个Python对象(我们并不想简单的存一个HTML或json,想要让整个下载过程可以还原),于是就想到了用Python内置的pickle库(腌黄瓜库),序列化对象成bytes,需要的时候可以反序列化通过下面的代码可以简单了解pickle的用法和功能In [2]: import pickle In [3]: class A: ...

2019-12-04 16:27:43 548

原创 如何使用Pickle在Python中保存对象

默认情况下,Pickle是Python库的一部分,只要您需要在用户会话之间保持持久性,它就是一个重要的模块。作为一个模块,pickle提供了在进程之间保存Python对象的功能。无论您是为数据库、游戏、论坛或其他必须在会话之间保存信息的应用程序编程,pickle都有助于保存标识符和设置。pickle模块可以存储诸如布尔值、字符串和字节数组、列表、字典、函数等数据类型。注意:pickle的概念也...

2019-12-04 16:24:12 566

原创 Python中Json模块和Pickle模块的使用

在对数据进行序列化和反序列化是常见的数据操作,Python提供了两个模块方便开发者实现数据的序列化操作,即 json 模块和 pickle 模块。这两个模块主要区别如下:json 是一个文本序列化格式,而 pickle 是一个二进制序列化格式;json 是我们可以直观阅读的,而 pickle 不可以;json 是可互操作的,在 Python 系统之外广泛使用,而 pickle 则是 Pyth...

2019-12-04 16:22:13 208

原创 Python中回调的含义详解

回调函数的最初需求背景回调函数我能想到的最古老的场景就是系统编程会用到。编程分为两类:● 系统编程(system programming)● 应用编程(application programming)什么是系统编程:所谓系统编程,简单来说,就是编写各种各样的功能库。比如Windows里面的win32、gdi32库,win32就能调用主机硬件和系统层的功能,gdi32能用来绘制图形相关。...

2019-12-04 16:18:16 356

原创 python核心教程:从入门到精通,ython数据科学简洁教程

Python是一门通用的编程语言,在过去十年中被数据科学领域广泛使用。事实上,Python在数据科学领域是仅次于R的第二热门的编程语言。本篇文章的主要目的在于向大家展示使用Python学习数据科学有多么的容易。你可能以为自己要先成为一名高级Python程序员,然后才能进行通常与数据科学相关的复杂任务,然而事实并非如此。Python附带了很多有用的工具库,它们可以在后台为你提供强大的支持。你甚至不...

2019-12-02 19:03:55 457

原创 python核心教程:Python赶超R语言,成为数据科学、机器学习平台中最热门的语言?

近日,kdnuggets做了一个关于数据科学、机器学习语言使用情况的问卷调查,他们分析了954个回答,得出结论——Python已经打败R语言,成为分析、数据科学和机器学习平台中使用频率最高的语言。有关此次问卷更具体的情况如何?笔者将kdnuggets上发表的总结文编译整理如下:之前我们在kdnuggets上做了这样一个问卷调查,2016、2017两年,在分析、数据科学和机器学习的工作中,你用R语...

2019-12-02 18:53:22 206

原创 python核心教程: 在机器学习和数据分析领域中的对比

为了鼓励新工具的出现,机器学习和数据分析领域似乎已经成了 “开源” 的天下。Python 和 R 语言都具有健全的生态系统,其中包括了很多开源工具和资源库,从而能够帮助任何水平层级的数据科学家展示其分析工作。机器学习和数据分析之间的差异有些难以言明,但二者最主要的不同就在于,比起模型的可解释性,机器学习更加强调预测的准确性;而数据分析则更加看重模型的可解释性以及统计推断。Python ,由于更看...

2019-12-02 18:47:59 452

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除