- 博客(27)
- 收藏
- 关注
转载 xpath
1、XPATH使用方法使用XPATH有如下几种方法定位元素(相比CSS选择器,方法稍微多一点):a、通过绝对路径定位元素(不推荐!)WebElement ele = driver.findElement(By.xpath("html/body/div/form/input"));b、通过相对路径定位元素WebElement ele = driver.findElement(By.xpa...
2018-08-03 12:10:29 216
原创 scrapy------ ItemLoader(抓取工具包)
from scrapy.contrib.loader import ItemLoader---------工具类(ItemLoader)----用于规范化爬取数据以下是一个典型的ItemLoader的用法I = ItemLoader(item=ItemLoader,response=response)I.add_xpath(字段名,xpath表达式)I.add_css(字段名,cs...
2018-08-01 17:37:02 516
原创 scrapy--总览
一:项目操作创建项目:对应目录下:scrapy startproject 项目名称创建爬虫:scrapy genspider 爬虫名称 对应域名---理应在对应目录下创建运行爬虫:scrapy crawl 爬虫名以下是一个典型的scrapy项目的目录结构。其中:1:items.py 设置数据存储模板,用于结构化数据。即列出我们需要爬取的字段,为爬虫获取页面信息提供...
2018-08-01 14:24:16 219
原创 python--re
正则表达式-----是由普通字符(例如字符 a 到 z)以及特殊字符(称为"元字符")组成的文字模式。 可以用来检查一个串是否含有某种子串、将匹配的子串替换或者从某个串中取出符合某个条件的子串等。构建方法-------用多种元字符与运算符可以将小的表达式结合在一起来创建更大的表达式。 正则表达式的组件可以是单个的字符、字符集合、字符范围、字符间的选择或者所有这些组件的任...
2018-07-22 22:01:44 150
原创 python----property
class Money(object): """property演示""" def __init__(self): self.__money = None def getmoney(self): return self.__money def setmoney(self,money): self.__money...
2018-07-19 22:32:08 129
原创 selenium 操作
定位# 1By ID# 2By Class Name# 3By Tag Name# 4By Name# 5By Link Text# cheese = driver.find_element_by_link_text("cheese")# cheese = driver.find_element(By.LINK_TEXT, "cheese")# 链接元素上面有文字描述...
2018-07-19 21:02:26 196
原创 python-私有化
_x:私有化属性或方法,from xxx import * 禁止导入,类对象和子类可以导入。但是可以通过import xxxxxx.xx来访问。__x:双下划线开始的属性在运行时被混淆,所以直接访问是不允许的(from+import和import都不允许)。实际上以双下划线开始的属性会在解释时在前面加上下划线和类名,如self.__num会被解析为self._className...
2018-07-19 20:59:33 297
原创 python-----深拷贝和浅拷贝(copy模块)
复制:没有在内存中重新创建,b是对a列表的又一个引用,a与b的id相同,可以说是完全相同的。 a = [11,22,33]b = aprint(id(a))------3229560921736print(id(b))-------3229560921736a和b指向同一片内存,为浅拷贝copy:copy.copy(浅拷贝):只拷贝父对象,不会拷贝对象的内部的子对象。...
2018-07-16 23:05:04 167
原创 python---可变类型和不可变类型
不可变类型(数字、字符串、元组、不可变集合):python在声明不可变类型时会在已经声明的对象中寻找该对象是否已经被声明过,若该对象被声明过则,变量会直接指向该对象不会再申请新的内存空间。a = 88888b = 888888print(id(a))print(id(b))以下是输出17582161139361758214794960不可变类型不能对其内容直接修改,如字符...
2018-07-16 22:33:26 280
原创 python = 、==、is
=:赋予==:比较,值是否相等is:是否指向同一个,利用id(即存储地址)来判断。注意:在-6 到 120这几个数字中,无论赋予给多少个变量,他们的地址都是相同的。...
2018-07-14 19:05:29 157
原创 python---重新导入模块
当你在使用一个外部导入的模块时,有人修改了这个模块,此时你需要重新导入,否则这个模块不会更新。使用from a import *,不会实现重新导入,因为在主程序开始时,已经创建了sys.module记录了所有需要的模块,因此再次导入只是从sys.module中导入(目的是为了程序的效率)。可以使用from imp import *reload(module_name)实现重新导入。...
2018-07-14 18:57:22 996
原创 python--------模块循环导入
a.pyfrom b import *b.pyfrom a import *a.py 与 b.py相互导入,会发生错误。或者几个程序之间相互调用,形成闭合,发生错误。解决:创建主程序,而不在子模块中调用。...
2018-07-14 18:48:00 559
转载 python---sys模块
sys模块是python的内置函数:可供访问由解释器使用或维护的变量和与解释器进行交互的函数。sys内的常用函数:1:sys.path:获取指定模块搜索路径的字符串集合,即一个list。在import导入module_name时,就是根据sys.path的路径来搜索module.name。import syspath_list = sys.pathfor i in path_list: ...
2018-07-14 18:00:53 221
原创 数据结构——五
class Node(object): """构造节点""" def __init__(self,item): self.elem = item self.next = Noneclass SingleCycleLinkList(object): """单向循环链表""" def __init__(self,item=No
2018-07-03 19:55:43 148
原创 数据结构——四
class Node(object): """构造节点""" def __init__(self,item): self.elem = item self.next = Noneclass SingleLinkList(object): """单链表""" def __init__(self,item=None):
2018-07-03 19:55:02 144
原创 数据结构——三
class Stack(): "简单的栈" __slots__ = ("__list") def __init__(self): """栈的初始化""" self.__list = []#__代表__list为Stack的私有属性,不对外显示 def is_empty(self): """判断是否
2018-07-03 19:54:16 108
原创 数据结构——2
class Queue(object): """队列(双端队列)""" def __init__(self): """私有化,封装""" self.queue = [] def enqueue(self,item): "从尾部往队列中添加一个元素" self.queue.appe
2018-07-03 19:53:35 119
原创 微医生网站爬虫
import requestsfrom lxml import etreeimport reimport timeimport mathimport csvimport randomfrom user_agent import get_uesr_agent#获取user_agentfrom requests.adapters import HTTPAdapter#设置尝试次数...
2018-07-03 19:50:32 451
原创 IP 代理池
"""建立一个IP代理池"""import requestsfrom lxml import etreeimport csvimport timeimport subprocess as spimport redef fetch(url,proxy=None): """模拟浏览器打开网页""" s = requests.Session() head
2018-07-03 19:49:35 618
原创 百度爬图
import requestsimport refrom bs4 import BeautifulSoupfrom lxml import etreeheaders = {"user_agent":"Mozilla/5.0 (Windows NT 10.0; …) Gecko/20100101 Firefox/58.0"}proxies = {}def download(u...
2018-07-03 19:48:50 200
原创 58同城爬虫
from urllib.request import urlopen,Request,build_opener,install_opener,ProxyHandlerfrom urllib.error import URLError,HTTPErrorfrom urllib.parse import urlparse#用于对url进行分析import refrom bs4 import B...
2018-07-03 19:47:34 2200
原创 mongodb
数据库:开启服务端servious mongod start 开启客户端 mongo展示全部数据库 show dbs展示现在使用的书数据库 db使用某个数据库 use py3 -----不存在时就回指向,当输入数据时才会创建删除数据库 db.dropDatabase()集合:创建集合: db.createCollection(name,options)---name是集合的名称,o...
2018-06-24 09:00:05 143
原创 mysql -python
mysql 不区分大小写(类b)数据库 创建数据库 create database 数据库名 charset=ust8 删除数据库 delete database 数据库名 使用某个数据库 use 数据库名 显示所有数据库 show databases 显示当前使用的数据库 select database()表 创建表 create table 表名(字...
2018-06-24 08:59:12 130
原创 python----3.15--闭包
#闭包:在一个函数的内部定义了另一个函数,外部的我们叫他外函数,内部的我们叫他内函数。def wai(): mylocetion = [0] def nei(): mylocetion[0] += 1 print(mylocetion[0]) return mylocetion return nei#外函数返回内函数,并...
2018-03-15 13:29:19 155
原创 数据结构----python(1.1)
#n*n矩阵相乘的实现 # 1:传入两个矩阵------list传入 # 2:表示矩阵的每个元素-------将第二个矩阵转置def matrix_n(list1,list2): list3 = [] list4 = [] listsa = [] listsb = [] n = int(len(list1)**0.5)#求平方根 ...
2018-03-14 21:54:27 192
原创 python---3.14.2018--变量以及作用域注1
python函数作用域:LEGB L:local:函数内部作用域 E:enclosing:函数内部与内嵌函数之间作用域-------间接发生延长变量寿命的作用,但是变量不可以在内函数中被更改。 G:global:全局变量 B:buind-in:内置作用域函数调用变量时会一级一级的查找注:num = 10def func(): pri...
2018-03-14 17:46:08 223
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人