- 博客(7)
- 资源 (11)
- 收藏
- 关注
原创 Python:各种编码简单总结
JSON(JavaScript Object Notation) 是一种轻量级的数据交换格式。它基于JavaScript(Standard ECMA-262 3rd Edition - December 1999)的一个子集。 JSON采用完全独立于语言的文本格式,但是也使用了类似于C语言家族的习惯(包括C, C++, C#, Java, JavaScript, Perl, Python等)。这些
2015-06-23 19:07:05 1351
原创 Python:xpath备忘
选取,注意节点 // /根结点 //@href @ 表示选取属性, . 选取当前节点; .. 选取当前节点的父节点; *匹配任何元素节点; @* 匹配任何属性节点; node() 匹配任何类型的节点; example: response.xpath(‘//div[@class=”abc”]/text()’)路径: | //book/title | //book/p
2015-06-18 10:16:25 436
原创 Python: 爬取json下的table数据,lxml
引入包import lxml,json读取json数据res=json.loads(response.body)读取table数据list=lxml.html.fromstring(str(res['data']))编码格式unicodeunicode(inv.xpath('td[1]/text()')[0])EndPS:此文仅供交流记录,不作他用。
2015-06-18 10:12:51 2335
原创 Scrapy:登陆+rules简要分析
爬了好多天,今天开始做模拟登陆: 其实,模拟登陆爬取思路很简单——>首先申请一个账户,然后将浏览器登陆的过程切换成自己手动请求登陆数据,登陆成功后,保持状态,爬取需要的链接数据。 根据我的理解,大致是这样的。 发送请求(包含登陆信息)->验证,返回响应数据->接受返回数据,成功则继续爬取,失败就找找问题。在网上只找到这个,但是尝试了一下,还是没有
2015-06-11 18:36:12 3042
原创 python:re.sub简要分析
一直以来,re.findall(”, ” )[0] 正则替换是用的最多的,今天碰到一个需要替换page值的URL,值好用sub直接作替换 找了下sub的用法, re.sub(pattern, repl, string, count, flags) pattern: 正则; repl:replacement,替换后的部分,可以是字符串也可以是函数; string:被替换的那部分 cou
2015-06-10 18:55:58 873
原创 linux:每天学习一个命令——清屏
常用基本清屏命令是: clear或者ctrl+L 但是这个并没有彻底清屏,鼠标往上拉,还是有的快速清屏 printf ‘\ec’ 或者 printf ‘\033c’ 工作原理是:\033 == \x1B == 27 == ESC。 这个命令变成了c,在VT-XXX中表示“Full Reset (RIS)”的转义码。printf是bash里内置的命令,内置命令的优先级比其它可执行文件要高
2015-06-08 11:12:45 5259
原创 web:初识http协议(待补充)
初步了解http协议 请求获取网站流程,(待说明)OPTIONS( 选项 ) :查找适用于一个特定网址资源的通讯选择。 在不需执行具体的涉及数据传输的动作情况下, 允许客户端来确定与资源相关的选项以及 / 或者要求, 或是一个服务器的性能。GET( 获取 ) :检索由网址资源所确定的信息,如获取一个特定的网页或图片。这是最常用的方法。HEAD( 头 ) :除了服务器只反馈标头信息而不是网址资
2015-06-05 15:35:01 621
OCR识别工具,只能识别文字
2020-09-14
FreeTextBox.DLL
2014-07-18
netReflector8(包括FileDisassembler.dll)
2014-05-09
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人