自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(27)
  • 收藏
  • 关注

转载 Class 18 - 1 图形验证码的识别

一、图形验证码的识别先将验证码的图片保存到本。打开开发者工具,找到验证码元素。验证码元素是一张图片,src 属性是 CheckCode.aspx。打开链接 http://my.cnki.net/elibregister/CheckCode.aspx,保存并命名为 code.jpg。识别测试新建一个项目,将验证码图片放到项目根目录下,用 tess...

2019-01-18 11:46:00 291

转载 Class 17 - 2 动态渲染页面爬取 — Splash

一、Splash 的使用Splash 是一个JavaScript 渲染服务,带有 HTTP API的轻量级浏览器,同时对接了 Python 中的 Twisted 和 QT 库。利用它,同样可以实现动态渲染页面的抓取。实例引入通过 Splash 提供的 Web 页面来测试其渲染过程。例:在本机 8050 端口上运行 Splash 服务,打开 http://localho...

2019-01-04 10:12:00 287

转载 Class 17 - 1 动态渲染页面爬取 — Selenium使用

利用Selenium 可以驱动浏览器执行特定的动作,如点击、下拉等操作, 同时还可以获取浏览器当前呈现的页面的源代码 ,做到可见即可爬。基本使用示例:from selenium import webdriverfrom selenium.webdriver.common.by import Byfrom selenium.webdriver.common....

2018-12-29 14:25:00 113

转载 Class 16 - 1 Ajax 数据爬取

Ajax简介:Ajax ,全称为 Asynchronous JavaScript and XML ,即异步的 JavaScript XML 它是利用 JavaScript 在保证页面不被刷新、页面链接不改变的情况下与服务器交换数据并更新部分网页的技术。页面在后台与服务器进行了数据交互,获取到数据之后,再利用 JavaScript 改变网页,这样网页内容就会更新了。 http:/...

2018-12-26 14:38:00 104

转载 Class 15 - 2 关系型数据库存储 - MySQL存储

关系型数据库是基于关系模型的数据库,而关系模型是通过二维表来保存的,所以它的存储方式 就是行列组成的表,每一列是一个字段, 每一行是一条记录。 表可以看作某个实体的集合,而实体之 间存在联系,这就需要表与表之间的关联关系来体现, 如主键外键的关联关系。 多个表组成一个数据 库,也就是关系型数据库。关系型数据库有多种,如 SQLite、 MySQL、 Oracle、 SQL Server、...

2018-12-21 09:37:00 190

转载 Class 15 - 1 数据存储——文件存储

保存的形式可以多种多样,最简单的形式是 接保存为文本文件,如 TXT、JSON、CSV等。还可以保存到数据库中,如关系型数据库 MySQL ,非关系型数据库 MongoDB、Redis等。一、TXT文本存储基本实例:可以用 requests 将网页源代码获取下来,然后使用 pyquery 解析库解析,接下来将提取的标题、 回答者、 回答保存到文本,代码:...

2018-12-17 09:53:00 164

转载 Class 14 - 3 解析库 -- pyquery

与Beautifu Soup 一样,初始化 pyquery 的时候,也需要传入 HTML 文本来初始化一个 PyQuery 对象。初始化方式有多种,如:直接传入字符串,传入 URL ,传人文件名等。初始化字符串初始化  html = '''<div><ul><li class="item-0">first i...

2018-12-13 15:46:00 62

转载 Class 14 - 2 解析库 -- Beautiful Soup

Beautiful Soup是 Python 的一个 HTML 或 XML 的解析库,库借助网页的结构和属性等特性来解析网页解析器Beautiful Soup在解析时依赖解析器,除了支持 Python 标准库中的 HTML 解析器外,还支持一些第三方解析器(比如 lxml )。以上对比,lxml 解析器有解析 HTML 和 XML 的功能,速度’快,容错能力强,...

2018-12-10 18:29:00 122

转载 Class 14 - 1 解析库 -- XPath

对于网页的节点来说,它可以定义 id 、class 或其他属性。 而且节点之间还有层次关系,在网页 中可以通过XPath 或 css 选择器来定位一个或多个节点。所以在页面解析时,利用 XPath 或 css 选择器来提取某个节点,然后再调用相应方法获取它的正文内容或者属性,也可以提取我们想要的任意信息。XPath的使用XPath, 全称 XML Path Language,...

2018-12-06 10:58:00 95

转载 class 14 爬虫基础

Spider简介:   可以分成简单的几步:抓取页面,分析页面和存储数据(主要用到的库有requests,Selenium,aiohttp)解决JavaScrip渲染问题分析Ajax请求Selenium/ WebDriverSplashPyV8、Ghost.py解析方式直接处理Json解析正则表达式BeautifulSoup...

2018-12-04 17:29:00 639

转载 class 2-3 小项目练习

空气质量分指数计算方法(框架) 1 def cal_liner(iaqi_lo,iaqi_hi,bp_lo,bp_hi,cp): 2 """范围缩放""" 3 iaqi =(iaqi_hi - iaqi_lo)*(cp -bp_lo) /(bp_hi - bp_lo) + iaqi_lo 4 return iaqi 5 6 def...

2018-11-03 18:27:00 109

转载 class 2-2 小项目练习

一. 判断第几天闰年(四年一闰,百年不闰,四百年再闰)元组(tuple)用于表达固定数据项、函数多返回值等特点: 1.元素可以是不同类型(元组通常不同数据组成,列表通常由相同类型数据组成)   2.元组中各元素存在先后关系,可通过索引访问元组中元素(元组表示的是结构,列表表示的是顺序)集合(set):python中的集合(set)类型同数学中集合概念一致...

2018-10-21 13:38:00 138

转载 class 2-1 小项目练习

一.汇率计算其中涉及到(字符串转化数字eval,pass为占位符,切片等知识点)单步调试,点击断点处,右击选择debugUSD_VS_RMB = 6.77currency_str_value= input("请输入带单位的货币金额(退出输入Q):")i = 0while currency_str_value != 'Q': i += 1 p...

2018-10-09 23:25:00 91

转载 class 1-1 python开发环境配置

集成开发环境(IDE)——IDLE1.Python有2种运行方式(1)命令行-交互式<1.>在命令行输入 Python<2>在命令行输入ipython(2)文件式<1>启用IDLE<2>通过IDLE新建hello.py,命令行运行python hello.py或者IDLE选择Run3.在新建...

2018-10-04 11:27:00 72

转载 Class - 11 测试函数

编写函数或类时,还可为其编写测试。通过测试,可确定代码面对各种输入都能够按要求的那样工作。测试让你信心满满,深信即便有更多的人使用你的程序,它也能正确地工作。在程序中添加新代码时,你也可以对其进行测试,确认它们不会破坏程序既有的行为。程序员都会犯错,因此每个程序员都必须经常测试其代码,在用户发现问题前找出它们。本章中,将学习如何使用 Python 模块 unittest 中的工具来测试代...

2018-09-22 10:44:00 146

转载 class 10 文件和异常

掌握了编写组织有序而易于使用的程序所需的基本技能,该考虑让程序目标更明确,用途更大。本章中,将学习处理文件,让程序能够快速地分析大量的数据;我们将学习错误处理,避免程序在面对意外情形时崩溃;我们将学习异常,它们是Python创建的特殊对象,用于管理程序运行时出现的错误;我们还将学习模块json,它让我们能够保存用户数据,以免在程序停止运行后丢失。 学习处理文件和保存数据可以让我...

2018-09-18 13:49:00 157

转载 class - 9 类

面向兑现编程 是最有效的软件编写方法之一。在面向对象编程中,编写表示现实世界中的事物和情景类。并基于这些类来创建对象。编写类时,定义一大类对象都有的通用行为。基于类创建对象时,每个对象都自动具备这种通用行为,然后根据需要赋予每个对象独特的个性。使用面向对象的编程可模拟现实情境。根据类来创建对象被称为实例化,这让你能后使用类的实例。在本章中,你将编写一些类并创建其实例。你将指定可在实例...

2018-09-13 14:25:00 278

转载 Class - 8 函数

函数书带名字的代码块,用于完成具体工作。执行函数定义的特定任务,可调用函数。需要在程序中多次执行统一任务时,只需调用执行该任务函数。8.1 定义函数def greet_user(): """显示简单的问候语""" print("Hello!") greet_user()输出:Hello!示例演示最简单的函数结构,关键字def来...

2018-09-02 14:43:00 150

转载 Class - 7 用户输入和while循环

7.1 函数input()的工作原理函数input()让程序暂停运行,等待用户输入一些文本。获取用户输入后,python将其存储在一个变量中,以方便使用。例:message = input("Tell me somethhing, and i will repeat it back to you:")print(message)输出:Tell me somethh...

2018-08-18 15:20:00 117

转载 Class-6 字典

字典可存储的信息几乎不受限制,因此遍历字典中的数据将为重点。本章将学习存储字典列表。存储列表的字典和存储字典的字典。字典将为准确的为各种真实物体建模。6.1 一个简单的字典下面是一个字典,存储了有关特定外新人的信息:alien_0 = {'color':'green','points':5}print(alien_0['color'])print(alien_0[...

2018-08-09 09:38:00 130

转载 class-5 If语句

在python中,if语句让你能够检查程序的当前状态,并据此采取相应的措施.5.1 示例假设你有一个汽车列表,并想将其中每辆汽车的名称输出。对于大多数汽车,都应以首字母大写的方式输出其名称,但对于汽车名'bmw',应以全大写的方式输出。cars=['audi','bmw','subaru','toyota']for car in cars: if car ...

2018-07-27 17:29:00 178

转载 class4-操作列表

经常需要遍历整个列表中的所有元素,对每个元素执行相同的操作。例:在游戏中,可能需要将每个界面元素平移相同的距离;对于包含数字的列表,可能需要对每个元素执行相同的统计运算;在网站中,可能需要显示文章中的每个标题。需要对列表中的每个元素都执行相同的操作时,可使用python中的for循环。假设我们有一个魔术师名单,需要将其中的的每个魔术师的名字都打印出来。为此,我们可以分别获取名单中的每...

2018-07-10 22:55:00 105

转载 Class3 列表

python中用方括号([])表示列表,并用逗号来分割其中的元素。例:bicycle=['trek','cannodale','redline','specialized']print(bicycle)一.列表是有序集合,如需要访问列表任何元素,只需要将该位置或索引告诉python。例:将从上述bicycle提取第一自行车print(bicycle[0])——>输出...

2018-07-08 00:03:00 113

转载 Class2.2 变量和简单数据类型

一.数字1.>整数:在python中两个乘号表示乘方运算。例:>>> 3 ** 2>>>92.>浮点数:python称将带小数点的数字都称为浮点数3.>使用函数str()避免错误类型。例:age=23print("happy"+str(age)+"rd birthday")(注:因机器语言无法区分是字符2和...

2018-07-03 21:18:00 73

转载 Class2.1 变量和简单数据类型

一.字符串:就是一系列字符,例:name = "ada lovelace"print(name.title())1.>title() 以首字母大写的方式显示每个单词,即将每个单词的首字母都改为大写name = "Ada Lovelace"print(name.upper())print(name.lower())2.>upper()是将字符串改为全部大写,而l...

2018-07-03 17:19:00 58

转载 Class 2变量和简单数据类型1

1.在程序中可随时修改变量的值,而 Python 将始终记录变量的最新值(注:注意区分大小写)。例:message = "hello world"print(message)message = "Hello python crash course world!"print(message)2.变量名只能包括字母,数字和下划线。变量名可以字母或者下划线为开头,但不能以数字开头。...

2018-07-03 11:57:00 60

转载 Class1 HTML Label

<html> element is the root element inHTML page 1 <!DOCTYPE HTML> 2 <html lang="en"> 3 <meta charset="utf-8"> 4 <title style="red">春晓</title>...

2018-03-29 15:44:00 56

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除