alphonse0714-CSDN博客

转载 scrapy笔记

1.安装scrapy框架安装scrapy：通过pip install scrapy (如果无法安装，在 http://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted 下载twisted对应版本的whl文件）还要安装pypiwin32 通过pip install pypiwin32安装 2创建项目和爬虫（1）创建项目：scrapy start...

2018-09-19 14:51:00 79

转载 css选择器

css选择器： 1.根据标签的名字选择： p{ background-color:pink } 2.根据类名选择，要在类名前加一个点： .line{ background-color:pink } 3.根据id名选择要在id前加一个#： box{ background-color:pink } 4.查找子孙元素，在子孙元素中间有一个空格： box p{ background-color...

2018-09-13 16:55:00 91

转载 BeaufitulSoup笔记

find_all的使用：在提取标签的时候，第一个参数是标签的名字，在提取标签的时候想要提取标签属性进行过滤，那么可以在这个方法中通过关键字参数的形式，将属性的名字以及对应的值传进去，或者是使用'attrs'属性，将所有的属性以及对应的值放在一个字典中传给'attrs'属性在提取标签的时候不想提取那么多，那么可以使用'limit'参数限制提取多少个 1.find和find_all的区别...

2018-09-13 11:56:00 1179

转载 lxml结合xpath注意事项

使用Xpath语法，应该使用Element.xpath方法，来执行xpath选择，示例代码如下： trs = html.xpath("//tr[position()>2]") xpath函数返回的永远是一个列表 2.获取某个标签的属性： href = html.xpath("//a/@href") 3.获取文本，通过xpath下的text（）函数： address = tr...

2018-09-11 21:35:00 79

转载 Xpath语法

使用//获取整个页面中的元素，然后写标签名，然后用谓词进行提取。如： //div[@class='abc'] 注意： 1./和//的区别： /只获取子节点， //获取子孙节点一般//用的较多视情况而定 2.contains：有时某个属性包含了多个值，那么可以使用contains函数如： //div[contains(@class,'job_detail')] 3.谓词中的下标是从1...

2018-09-11 13:35:00 77

转载 requests库

1.res.text 和 res.content import requests res = requests.get('http://www.baidu.com/') print(type(res.text)) print(res.text) 自动解码有时候不准确 print(type(res.content)) print(res.content.decode('utf-8')) ...

2018-09-10 21:21:00 66

转载 urllib库

from urllib import request form urllib import parse rsp = request.urlopen('http://www.baidu.com/') 获取url的页面 print(rsp.getcode()) 获取页面的返回值 200为成功 print(rsp.read()) rsp是一个句柄用read（）显示出来 rsp.read(...

2018-09-10 20:59:00 132

转载多进程编程

1.进程是正在运行的程序的实例每个进程都至少包含一个线程 2.计算机程序是由指令组成的进程是这些指令的实际运行体 3.进程的状态：被创建就绪运行阻塞挂起终止等状态用subprocess模块来管理进程 import subprocess 1.调用subprocess.call()创建进程 retcode = subprocess.call (可执行程序） import su...

2018-09-07 20:08:00 63

转载 Python数据结构--队列

1.插入的一端叫队尾删除的一端叫队首插入一个队列元素叫入队删除一个队列元素叫出队遵循先进先出原则 class Queue(object): 自定义类Queue 利用Python实现队列的数据结构 def init(self): 构造一个列表queue实现队列的容器 self.queue = [] def isempty(self): 判读队列...

2018-09-07 16:57:00 127

转载 Python数据结构--栈

Python系统定义好的数据结构称为Python的内置数据结构比如列表元组字典等 Python系统里没有直接定义需要我们自己去定义实现这些数据组织方式称为Python扩展数据结构比如栈和队列 1.栈的工作原理先进后出后进先出 2.构造函数 class Stack: """模拟栈""" def init(self): self.items = [] def isEmpt...

2018-09-07 16:27:00 102

转载 time模块

1.时间的表示方式时间戳和struct_time数组两种方式 unix时间戳定义为格林尼治时间1970年01月01日00时00分00秒起至当前的总秒数 struct_time数组包含9个元素： year：4位数的年份 month：月份 1-12的整数 day：日期 1-31的整数 hours：小时 0-23的整数 minute：分钟 0-59的整数 seconds：秒 0-59的整数...

2018-09-07 10:59:00 54

转载常用的数学模块

1.math模块定义了e和pi两个常量 import math print(math.e) print(math.pi) 2.random模块用于生成随机数 import random random.random() 生成一个从0到1的随机浮点数 random.uniform(a,b) 生成一个指定范围内的随机浮点数 random.randint(a,b) 生成一个指定范围内的整数 ...

2018-09-07 10:25:00 146

转载 platform模块

1.获取操作系统名称及版本号 import platform print(platform.platform()) 2.打印当前操作西系统的类型 import platform print(platform.system()) 3.打印当前系统的版本信息 import platform print(platform.version()) 4.打印当前计算机类型信息 import plat...

2018-09-06 13:38:00 135

转载 sys模块

1.获取当前的操作系统平台sys.platform import sys print(sys.platform) 2.字符编码打印当前系统的编码 import sys print(sys.getdefaultencoding()) 3.搜索模块的路径 import sys print(sys.path) 如果希望到指定...

2018-09-06 12:49:00 90

alphonse0714的博客