- 博客(31)
- 资源 (1)
- 收藏
- 关注
原创 pyquery的使用
#coding=utf-8from pyquery import PyQuery as pqhtml = '''<div class="shop"> <a class="shopname J_Mou> <span class="dsrs"> <span...
2018-03-30 14:35:26 150
转载 Selenium库的使用
一、什么是Seleniumselenium 是一套完整的web应用程序测试系统,包含了测试的录制(selenium IDE),编写及运行(Selenium Remote Control)和测试的并行处理(Selenium Grid)。Selenium的核心Selenium Core基于JsUnit,完全由JavaScript编写,因此可以用于任何支持JavaScript的浏览器上。selenium...
2018-03-27 13:29:45 309
转载 Selenium3.0 文档——selenium.webdriver.common.by
selenium.webdriver.common.by.By支持的定位器分类。CLASS_NAME = 'class name'CSS_SELECTOR = 'css selector'ID = 'id'LINK_TEXT = 'link text'NAME = 'name'PARTIAL_LINK_TEXT = 'partial link text'TAG_NAME = 'tag...
2018-03-26 17:49:58 1873
转载 使用webdriver打开本地浏览器--python版
背景:经常性的,在项目中我们需要打开不同配置的不同浏览器。在学习selenium的过程中,打开本地火狐和本地chrome是一个稍微麻烦的事情,网上的java版本资料很多,但是python版的不多,在这里,我研究了一份关于python版Selenium打开浏览器的文档,供自己备注,也希望给大家一些参考。1.打开默认的火狐browser = webdriver.Firefox() 2.打开本地配置的火...
2018-03-26 16:13:03 4036 3
转载 PyQuery库的详解
PyQuery库也是一个非常强大又灵活的网页解析库,如果你有前端开发经验的,都应该接触过jQuery,那么PyQuery就是你非常绝佳的选择,PyQuery 是 Python 仿照 jQuery 的严格实现。语法与 jQuery 几乎完全相同,所以不用再去费心去记一些奇怪的方法了。官网地址:http://pyquery.readthedocs.io/en/latest/jQuery参考文档: ht...
2018-03-26 14:55:32 2020
转载 BeautifulSoup库的使用
其实对很多人来说用起来是不方便的,加上需要记很多规则,所以用起来不是特别熟练,而这节我们提到的beautifulsoup就是一个非常强大的工具,爬虫利器。beautifulSoup “美味的汤,绿色的浓汤”一个灵活又方便的网页解析库,处理高效,支持多种解析器。利用它就不用编写正则表达式也能方便的实现网页信息的抓取快速使用通过下面的一个例子,对bs4有个简单的了解,以及看一下它的强大之处:from ...
2018-03-26 14:15:58 253
原创 js代码如何转化为python代码
var jdepY0NXtSrABwruYSVzHHk52Sw0uoJlYX = function(m, r, d) { var e = "DECODE"; var r = r ? r: ""; var d = d ? d: 0; var q = 4; r = md5(r); var o = md5(r.substr(0, 16)); var...
2018-03-26 13:04:03 9614
原创 js的window.btoa与window.atob
window.btoa(字符串);//base64->asciiwindow.atob(字符串);//ascii->base64
2018-03-26 12:46:44 1129
原创 字符串格式的json转化为字典
json="{\"count\":9,\"sub_images\":[{\"url\":\"http:\\/\\/p3.pstatp.com\\/origin\\/32040003ff7b9e3d5b0e\",\"width\":690,\"url_list\":[{\"url\":\"http:\\/\\/p3.pstatp.com\\/origi
2018-03-20 21:21:02 3095
原创 利用python对字符串处理,取中间的字符
比如 str = "(sdadsafsfsdfdgfdghfhfghgjg)"取出括号里面的内容:str.strip()[1:-1]
2018-03-20 21:15:47 17701
原创 requests的用法详情
# coding=utf-8import requestsimport jsonresponse = requests.get('https://www.baidu.com/')print(type(response))print(response.status_code)#print(response.text)print(type(response.text))print(r...
2018-03-20 12:29:25 372
原创 python爬虫异常的处理方式
# coding=UTF-8from urllib import request,errortry: response = request.urlopen('http://cuiqingcai.com/index.html')except error.URLError as e: print(e.reason) print(e.reason)try: ...
2018-03-19 20:44:30 1027
原创 爬虫cookie的获取与使用
# coding=UTF-81.打印cookieimport http.cookiejarimport urllib.requestcookie = http.cookiejar.CookieJar()handler = urllib.request.HTTPCookieProcessor(cookie)opener = urllib.request.build_opener...
2018-03-19 20:31:38 4945
原创 java 启动Tomcat报错:The specified JRE installation does not exist
启动TomCat服务报错: The specified JRE installation does not exist解决方法: Eclipse:window->perferences->server->runtime Environment 选中服务器,Edit->重选JRE
2018-03-19 16:15:42 3810
原创 命令别名设置
nianxiongdi123@ubuntu:~$ alias cls='clear' 设置别名nianxiongdi123@ubuntu:~$ clsnianxiongdi123@ubuntu:~$ alias dir='ls -l'nianxiongdi123@ubuntu:~$ dirtotal 56drwxr-xr-x 3 nianxiongdi123 nianxiongdi123 409...
2018-03-19 15:37:40 660
原创 Linux变量的详解
定义变量变量名=值注意: 不能有空格var = 123 这样定义是错误的查看变量:以PATH为例echo $PATHecho "PATH"echo ${PATH}1.单引号与双引号的区别? 单引号内仅能是一般字符,而不能有特殊字符 nianxiongdi123@ubuntu:var='\\\\\\\\///////////\n' nianxiong...
2018-03-19 15:22:59 5113 1
转载 爬虫链接的解析
1.urlparse()属于urllib.parse在urlparse世界里面,一个标准的URL链接格式如下scheme://nrtlooc/path;paramters?query#fragment所以,一个url='http://www.baidu.com/index.html;user?id=5#comment'我们使用urlparse的话,就可以被分成6个部分(scheme='http',...
2018-03-19 10:03:12 1322
转载 html中相对路径的处理
首先说下什么叫URL拼接,我们有这么一个HTML片段:1<a href="../../a.html">click me</a>做为一只辛苦的爬虫,我们要跟踪到这个click me指向的页面,假设这个片段来自:http://www.xxxdu.com,那么目标页面是什么呢?显然不是1http://www.xxxdu.com/../../a.html而是1http://www....
2018-03-19 09:58:07 1852
转载 Scrapy框架中选择器的用法
Scrapy提取数据有自己的一套机制,被称作选择器(selectors),通过特定的Xpath或者CSS表达式来选择HTML文件的某个部分Xpath是专门在XML文件中选择节点的语言,也可以用在HTML上。CSS是一门将HTML文档样式化语言,选择器由它定义,并与特定的HTML元素的样式相关联。XPath选择器常用的路径表达式,这里列举了一些常用的,XPath的功能非常强大,内含超过100个的内建...
2018-03-14 21:29:43 324
转载 python爬虫之xpath的基本使用
一、简介 XPath 是一门在 XML 文档中查找信息的语言。XPath 可用来在 XML 文档中对元素和属性进行遍历。XPath 是 W3C XSLT 标准的主要元素,并且 XQuery 和 XPointer 都构建于 XPath 表达之上。 参照二、安装1pip3 install lxml 三、使用 1、导入1from lxml import etree 2、基本使用12345678...
2018-03-13 20:06:14 793
转载 python中xpath的使用
XPath在Python的爬虫学习中,起着举足轻重的地位,对比正则表达式 re两者可以完成同样的工作,实现的功能也差不多,但XPath明显比re具有优势,在网页分析上使re退居二线。XPath介绍: 是什么? 全称为XML Path Language 一种小型的查询语言 说道XPath是门语言,不得不说它所具备的优点: 1) 可在XML中查找信息 2) 支持HTML的查找 3) 通过元素和属性进行...
2018-03-13 20:04:26 644
转载 xpath的基本语法01
一、选取节点常用的路劲表达式:表达式描述实例 nodename选取nodename节点的所有子节点xpath(‘//div’)选取了div节点的所有子节点/从根节点选取xpath(‘/div’)从根节点上选取div节点//选取所有的当前节点,不考虑他们的位置xpath(‘//div’)选取所有的div节点.选取当前节点xpath(‘./div’)选取当前节点下的div节点..选取当前节点的父节点x...
2018-03-13 18:51:58 210
原创 python 列表转换成字符串输出
列表转换成字符串输出例如:我的列表是:a=[1, 0, 0, 0, 0, 0, 0, 0]然后输出100000字符之间有无空格:没有空格:1"".join(map(int, a)) 有空格:1" ".join([str(a[i])+str(a[i+1]) for i in range(0, len(a),2)]) 字符的类型需要修改,int或者str其他类型。原文地址:http://www.ais...
2018-03-13 11:04:35 2426 1
原创 windows安装python3的scrapy框架
安装scrapy在windows安装,非常的麻烦,依赖的架包比较多,需要一步一步的安装,下载的网址https://www.lfd.uci.edu/~gohlke/pythonlibs/cp后面代表你python的版本号,例如cp35m,UI有的版本为python3.5.0还要注意电脑是32位还是64位还要确保自己的pip是否完成安装,pip -V命令测试下依据下面的5步完成安装wheel安装这个库...
2018-03-12 18:26:07 735
转载 python pip使用报错:Fatal error in launcher: Unable to create process using '"'
windows下同时安装python2和python3,应将python2和python3直接安装在 C盘下面,分别为python27和python36文件夹下。(避免Program Files的空格出现,后期会出错!)为了方便同时使用,需将python3下的python.exe更名为python3.exe。(python2下的保持默认)(当然win系统环境变量的path路径需要添加!python...
2018-03-12 18:02:46 987
转载 Linux下安装jdk8步骤详述
一、文件准备 1.1 文件名称 jdk-8u121-linux-x64.tar.gz 1.2 下载地址 http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html二、工具准备 2.1 Xshell 一个强大的安全终端模拟软件,...
2018-03-08 12:45:18 199
转载 linux下VI模式中上下左右键和回退键出现字母
在linux下,初始使用Vi的时候有两个典型的问题:1、在编辑模式下使用方向键的时候,并不会使光标移动,而是在命令行中出现A、B、C、D四个字母;2、当编辑出现错误,想要删除时,发现Backspace键不起作用,只能用Delete键来删除。方法:1.Linux系统下打开终端,敲入命令:sudo gedit /etc/vim/vimrc.tiny ,按回车键,输入密码,再按回车键。Linux下vi中...
2018-03-08 11:33:34 14514 4
转载 python 向上取整ceil 向下取整floor 四舍五入round
#encoding:utf-8import math#向上取整print "math.ceil---"print "math.ceil(2.3) => ", math.ceil(2.3)print "math.ceil(2.6) => ", math.ceil(2.6)#向下取整print "\nmath.floor---"print "math.floor(2.3...
2018-03-05 15:01:26 2480
转载 python中input()与raw_input()的区别分析
使用input和raw_input都可以读取控制台的输入,但是input和raw_input在处理数字时是有区别的纯数字输入当输入为纯数字时 input返回的是数值类型,如int,float raw_inpout返回的是字符串类型,string类型输入字符串为表达式input会计算在字符串中的数字表达式,而raw_input不会。如输入 “57 + 3”: input会得到整数6...
2018-03-05 14:57:09 278
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人