Python
# Python
问道于旁
江湖易老,岁月难催,且行且珍惜!
展开
-
xpath sibling mark
进行网页抓取的时候,分析定位html节点是获取抓取信息的关键,目前我用的是lxml模块(用来分析XML文档结构的,当然也能分析html结构), 利用其lxml.html的xpath对html进行分析,获取抓取信息;以下是关于xpath的一些基本用法:在介绍XPath的匹配规则之前,我们先来看一些有关XPath的基本概念。首先要说的是XPath数据类型。XPath可分为四种数据类型: 节点集(...原创 2022-06-30 06:30:00 · 250 阅读 · 0 评论 -
python:笔记
命令python:cmd=>pythonimport this退出:quit()pip install {name}查看关键字import keywordkeyword.kwlistlambda语法形式: lambda argument_list: expression其中,lambda是Python预留的关键字,argument_list和expressi...原创 2019-11-03 23:40:21 · 163 阅读 · 0 评论 -
python:读取文件并替换字段
fp = open(''test2.txt','w') #打开你要写得文件test2.txtlines = open('test1.txt').readlines() #打开文件,读入每一行for s in lines:fp.write( s.replace('love','hate').replace('yes','no')) # replace是替换,write是写入fp.cl原创 2016-11-12 16:16:46 · 19432 阅读 · 1 评论 -
Python:时间戳转换
1432196564000 13位时间戳,年月日,时分秒,毫级 转为正常,则除以1000。即十位数值为年月日时分秒将字符串的时间转换为时间戳 a = “2013-10-10 23:40:00” 将其转换为时间数组 import time timeArray = time.strptime(a, “%Y-%m-%d %H:%M:%S”) 转换为时间戳: time原创 2015-05-21 18:27:46 · 3259 阅读 · 0 评论 -
Linux : ctrl+c和ctrl+z区别
是中断命令,但有区别:ctrl+c是强制中断程序的执行, ctrl+z是将任务中断,但是此任务并没有结束,仍然在进程中他只是维持挂起的状态,后续命令: fg 重新启动前台被中断的任务, bg 将被中断的任务放在后台执行.原创 2015-07-17 10:00:31 · 657 阅读 · 0 评论 -
Linux:install command
ipython: sudo easy_install ipython包安装工具pip: sudo yum install python-pip原创 2015-07-07 16:13:52 · 632 阅读 · 0 评论 -
Python: 爬取json下的table数据,lxml
引入包import lxml,json读取json数据res=json.loads(response.body)读取table数据list=lxml.html.fromstring(str(res['data']))编码格式unicodeunicode(inv.xpath('td[1]/text()')[0])EndPS:此文仅供交流记录,不作他用。原创 2015-06-18 10:12:51 · 2337 阅读 · 0 评论 -
python:re.sub简要分析
一直以来,re.findall(”, ” )[0] 正则替换是用的最多的,今天碰到一个需要替换page值的URL,值好用sub直接作替换 找了下sub的用法, re.sub(pattern, repl, string, count, flags) pattern: 正则; repl:replacement,替换后的部分,可以是字符串也可以是函数; string:被替换的那部分 cou原创 2015-06-10 18:55:58 · 876 阅读 · 0 评论 -
Python:各种编码简单总结
JSON(JavaScript Object Notation) 是一种轻量级的数据交换格式。它基于JavaScript(Standard ECMA-262 3rd Edition - December 1999)的一个子集。 JSON采用完全独立于语言的文本格式,但是也使用了类似于C语言家族的习惯(包括C, C++, C#, Java, JavaScript, Perl, Python等)。这些原创 2015-06-23 19:07:05 · 1354 阅读 · 0 评论 -
Scrapy:登陆+rules简要分析
爬了好多天,今天开始做模拟登陆: 其实,模拟登陆爬取思路很简单——>首先申请一个账户,然后将浏览器登陆的过程切换成自己手动请求登陆数据,登陆成功后,保持状态,爬取需要的链接数据。 根据我的理解,大致是这样的。 发送请求(包含登陆信息)->验证,返回响应数据->接受返回数据,成功则继续爬取,失败就找找问题。在网上只找到这个,但是尝试了一下,还是没有原创 2015-06-11 18:36:12 · 3042 阅读 · 0 评论 -
Python:xpath备忘
选取,注意节点 // /根结点 //@href @ 表示选取属性, . 选取当前节点; .. 选取当前节点的父节点; *匹配任何元素节点; @* 匹配任何属性节点; node() 匹配任何类型的节点; example: response.xpath(‘//div[@class=”abc”]/text()’)路径: | //book/title | //book/p原创 2015-06-18 10:16:25 · 440 阅读 · 0 评论 -
Python:入门笔记之list slices计算方法、匿名表达式、CGI、数据类型及应用领域
>>> a="python">>> print(a[::-1])nohtyp>>> >>> print(a[:-1])pythostring后面跟的[]里面是index,表示的是对string中字符的指向,比如[0:n]表示string的中第一个到第n-1个字符,是用0来表示第一个字符的位置。如果不写开头或结尾,就默认从头开始,或直到最后。例如[:3]其实就是[0:3],原创 2015-01-09 16:31:29 · 2230 阅读 · 0 评论 -
[译]Python:学习Python的艰难之路(3rd) 前言
原文链接:http://learnpythonthehardway.org/book/preface.html前言这本简单的书意味着你可以开始编程。按照本文标题理解,学习编码是一条艰难的路,然而事实上不是这样的。它之所以被称为艰难之路,是因为Python使用了一种被称为指令的技术。指令是我想让你去做的一种有序的可控的操作,它设计建立一种通过重复利用的可操作性能。这种技术性工作对那些翻译 2014-11-20 17:48:39 · 681 阅读 · 0 评论 -
[译]Python:学习Python的艰难之路(3rd) 第0节:安装
第0节:安装本节不用编写代码。在你的电脑上运行Python,已完成简单的次内容。你应该尽可能准确的按照本文提示去操作。例如,Mac OS X操作系统已经存在Python 2, 所以已经不需要下载Python 3 或者其他版本。 重要提示1:如果你不懂得如何在Windows系统上操作PowerShell,在OS X系统或者Linux系统上操作翻译 2014-11-26 15:35:13 · 888 阅读 · 0 评论