自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(14)
  • 收藏
  • 关注

转载 scrapy笔记

1.安装scrapy框架 安装scrapy:通过pip install scrapy (如果无法安装,在 http://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted 下载twisted对应版本的whl文件 ) 还要安装pypiwin32 通过pip install pypiwin32安装 2创建项目和爬虫 (1)创建项目:scrapy start...

2018-09-19 14:51:00 79

转载 css选择器

css选择器: 1.根据标签的名字选择: p{ background-color:pink } 2.根据类名选择,要在类名前加一个点: .line{ background-color:pink } 3.根据id名选择 要在id前加一个#: box{ background-color:pink } 4.查找子孙元素,在子孙元素中间有一个空格: box p{ background-color...

2018-09-13 16:55:00 91

转载 BeaufitulSoup笔记

find_all的使用:在提取标签的时候,第一个参数是标签的名字,在提取标签的时候想要提取标签属性进行过滤,那么可以在这个方法中通过关键字参数的形式,将属性的名字以及对应的值传进去,或者是使用'attrs'属性,将所有的属性以及对应的值放在一个字典中传给'attrs'属性 在提取标签的时候 不想提取那么多,那么可以使用'limit'参数限制提取多少个 1.find和find_all的区别...

2018-09-13 11:56:00 1179

转载 lxml结合xpath注意事项

使用Xpath语法,应该使用Element.xpath方法,来执行xpath选择,示例代码如下: trs = html.xpath("//tr[position()>2]") xpath函数返回的永远是一个列表 2.获取某个标签的属性: href = html.xpath("//a/@href") 3.获取文本 , 通过xpath下的text()函数: address = tr...

2018-09-11 21:35:00 79

转载 Xpath语法

使用//获取整个页面中的元素,然后写标签名,然后用谓词进行提取。如: //div[@class='abc'] 注意: 1./和//的区别: /只获取子节点 , //获取子孙节点 一般//用的较多 视情况而定 2.contains:有时某个属性包含了多个值,那么可以使用contains函数如: //div[contains(@class,'job_detail')] 3.谓词中的下标是从1...

2018-09-11 13:35:00 77

转载 requests库

1.res.text 和 res.content import requests res = requests.get('http://www.baidu.com/') print(type(res.text)) print(res.text) 自动解码 有时候不准确 print(type(res.content)) print(res.content.decode('utf-8')) ...

2018-09-10 21:21:00 66

转载 urllib库

from urllib import request form urllib import parse rsp = request.urlopen('http://www.baidu.com/') 获取url的页面 print(rsp.getcode()) 获取页面的返回值 200为成功 print(rsp.read()) rsp是一个句柄 用read()显示出来 rsp.read(...

2018-09-10 20:59:00 132

转载 多进程编程

1.进程是正在运行的程序的实例 每个进程都至少包含一个线程 2.计算机程序是由指令组成的 进程是这些指令的实际运行体 3.进程的状态:被创建 就绪 运行 阻塞 挂起 终止等状态 用subprocess模块来管理进程 import subprocess 1.调用subprocess.call()创建进程 retcode = subprocess.call (可执行程序) import su...

2018-09-07 20:08:00 63

转载 Python数据结构--队列

1.插入的一端叫队尾 删除的一端叫队首 插入一个队列元素叫入队 删除一个队列元素叫出队 遵循先进先出原则 class Queue(object): 自定义类Queue 利用Python实现队列的数据结构 def init(self): 构造一个列表queue实现队列的容器 self.queue = [] def isempty(self): 判读队列...

2018-09-07 16:57:00 127

转载 Python数据结构--栈

Python系统定义好的数据结构 称为Python的内置数据结构 比如列表 元组 字典等 Python系统里没有直接定义 需要我们自己去定义实现 这些数据组织方式称为Python扩展数据结构 比如栈和 队列 1.栈的工作原理 先进后出 后进先出 2.构造函数 class Stack: """模拟栈""" def init(self): self.items = [] def isEmpt...

2018-09-07 16:27:00 102

转载 time模块

1.时间的表示方式 时间戳和struct_time数组两种方式 unix时间戳 定义为格林尼治时间1970年01月01日00时00分00秒起至当前的总秒数 struct_time数组包含9个元素: year:4位数的年份 month:月份 1-12的整数 day:日期 1-31的整数 hours:小时 0-23的整数 minute:分钟 0-59的整数 seconds:秒 0-59的整数...

2018-09-07 10:59:00 54

转载 常用的数学模块

1.math模块 定义了e和pi两个常量 import math print(math.e) print(math.pi) 2.random模块 用于生成随机数 import random random.random() 生成一个从0到1的随机浮点数 random.uniform(a,b) 生成一个指定范围内的随机浮点数 random.randint(a,b) 生成一个指定范围内的整数 ...

2018-09-07 10:25:00 146

转载 platform模块

1.获取操作系统名称及版本号 import platform print(platform.platform()) 2.打印当前操作西系统的类型 import platform print(platform.system()) 3.打印当前系统的版本信息 import platform print(platform.version()) 4.打印当前计算机类型信息 import plat...

2018-09-06 13:38:00 135

转载 sys模块

1.获取当前的操作系统平台sys.platform import sys print(sys.platform) 2.字符编码 打印当前系统的编码 import sys print(sys.getdefaultencoding()) 3.搜索 模块的路径 import sys print(sys.path) 如果希望到指定...

2018-09-06 12:49:00 90

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除