python
qq_30717683
这个作者很懒,什么都没留下…
展开
-
批量安装当前目录下的apk文件
#!/usr/bin/env python# -*- coding:utf-8 -*-import osimport sys# 脚本用来进行adb 批量push文件,并预置So库,逻辑为按照push脚本所在目录中list文件进行相应的apk下载。脚本所在目录应包含list(各个包)和so库文件夹# reload(sys)# sys.setdefaultencoding('utf8')# ad原创 2017-03-31 10:29:51 · 718 阅读 · 0 评论 -
python中的virtualenv安装配置学习 windows
安装指令pip install virtualenvUsage:$ virtualenv ENV # 切换到所在目录,然后执行指令#! /path/to/ENV/bin/python #指定ENV环境变量原创 2017-04-06 15:14:12 · 349 阅读 · 0 评论 -
Scrapy学习笔记III-Command line tool
scrapy startproject myproject [project_dir]scrapy genspider mydomain mydomain.com #创建一个新的spiderscrapy <”command“> -h #查看所有可用指令global commands: startproject #创建一个新的项目 # scrapy startproject mypr原创 2017-04-05 18:10:47 · 434 阅读 · 0 评论 -
Scrapy学习笔记IV-Spiders
spider定义如何从站点爬取 class MySpider(scrapy.Spider): name = 'myspider' def start_requests(self): return [scrapy.FormRequest("http://www.example.com/login",原创 2017-04-06 14:51:47 · 292 阅读 · 0 评论 -
Scrapy学习笔记九--Downloading and processing files and images
item pipelines 对爬取的数据进行处理,如下载图片,保存等等Files Pipeline 处理文件Images Pipeline 处理图片下载每个pipelines都需实现以下特色:如果最近有下载记录,避免重复下载指定存储media(爬取的数据)的路径images Pipeline 增加了额外的功能:将下载的图片转化为同一的格式JPG和RGB生成缩略图 检查图片长宽确保原创 2017-04-13 16:01:22 · 464 阅读 · 0 评论 -
爬虫框架Scrapy学习记录II--Selector学习
Selectors (选择器)当抓取网页时,一般都是从HTML源码中提取数据。 BeautifulSoup—网页分析库,缺点慢lxml,基于ElementTree的XML解析库Scrapy 拥有自己一套机制。即为选择器(selectors),通过特定的 XPath 和 CSS 表达式来选择HTML文件中的某个部分XPath 是一门用来在XML文件中选择节点的语言,也可以用在HTML上。 C原创 2017-04-02 00:15:01 · 392 阅读 · 0 评论 -
CSS学习笔记ing
CSS 概述层叠样式表(Cascading Style Sheets)定义如何显示HTML文档内容与样式分离,便于管理存储在CSS文件中外部样式表,多个样式可层叠为一HTML 标签原本被设计为用于定义文档内容。实现浏览器布局。CSS实现样式表现,布局与样式分离,甚至可以在同一个 HTML 文档内部引用多个外部样式表层叠次序浏览器缺省设置 外部样式表内部样式表(位于* head*原创 2017-04-03 21:53:20 · 260 阅读 · 0 评论 -
Scrapy学习笔记VIII--Feed exports
当爬取完数据后,可以产生一个“export file”(输出文件)–>export feed(反馈报告),可以被其他系统所使用消耗scrapy提供 Feed Exports,可以为items产生一个feed(文件如json,CSV,xml等),然后格式化的存储到后端Serialization formats 当你爬取数据后,想把数据保存在本地路径(如json格式)或者其他地方,scrapy 使用(原创 2017-04-12 16:06:49 · 1297 阅读 · 0 评论 -
XPath学习笔记
XPath使用路径表达式在XML文档中进行导航。 使用路径表达式来选取 XML 文档中的节点或节点集。节点是通过沿着路径 (path) 或者步 (steps) 来选取的。XPath 标准函数 ,超过100个內建函数XPath XPath 是 XSLT 标准中的主要元素。如果没有 XPath 方面的知识,您就无法创建 XSLT 文档XPath 是 W3C 标准XPath 术语节点(Node) : 元原创 2017-04-03 00:13:19 · 521 阅读 · 0 评论 -
爬虫框架Scrapy学习记录I--ing
Scrapy主要组件: 引擎(Scrapy)—-类似于中央cpu,发动机,安排各个部门的任务调度器(Scheduler)—-队列,决定下一个抓取的URL下载器(Downloader)—下载网页的内容(资源),并Response给Spider{此下载器是建立在twisted这个异步模型上} ________twisted异步模型????有待学习爬虫(Spiders)—获取自己需要的信息,原创 2017-03-31 20:10:31 · 557 阅读 · 0 评论 -
Scrapy学习笔记VII--Item Pipeline
通过spider爬取到所需的数据存放在item后,item可以发送到item pipeline 进行进一步的处理(通过几个组件-python class),如是否需要pipeline进行进一步处理,或者丢弃,或者不再处理它。item pipeline 使用场景:清除HTML数据验证爬取的数据(检查是否包含某一字段)检查是否有重复数据(duplicate),然后去重把爬取的数据(scraped原创 2017-04-11 15:07:49 · 565 阅读 · 0 评论 -
Scrapy学习中遇到问题及解决的方法
1.在执行scrapy crawl firstSpier(spider的名字)出现以下的报错:ImportError: No module named win32api解决办法:pip install pypiwin32原创 2017-04-01 14:09:29 · 368 阅读 · 0 评论 -
Scrapy学习笔记VI--Item Loaders
Item Loaders理解:Items为爬取的数据提供容器,而Item Loaders为容器填充数据(提取数据的路径、规则等等……为了方便,便于管理、扩展)from scrapy.loader import ItemLoaderfrom myproject.items import Product # 项目中已经定义的items 类def parse(self, res原创 2017-04-07 15:36:37 · 587 阅读 · 0 评论 -
获取apk包中的版本号,以此给文件重新命名
#!usr/bin/env python# -*- coding:utf-8 -*-# 1.".apk"文件必须符合命名规则"a-b-c-d..."的 2.将脚本放在需要修改文件的目录中 3.此脚本:os.rename()|os.chdir()|os.getcwd() \ re.compile()| re.findall \ str.split() \os.path....impo原创 2017-03-31 13:51:02 · 1261 阅读 · 0 评论 -
Python连接ftp,并对FTP进行操作
#!usr/bin/env python# -*- coding:utf-8 -*-# 作用登录连接FTP,当无法连接时,显示错误代码,ftp.connect()和ftp.login()# 可以了解FTP的环境搭建,了解ftp --help 即可import ftplibimport osimport socketfrom ftplib import FTPimport sysrelo原创 2017-03-31 12:03:58 · 3516 阅读 · 0 评论 -
爬虫初探
对煎·····蛋网的图片进行批量下载,但此脚本下载会漏图(与该网站的限制有关).输出信息时可能存在文字编码问题#!usr/bin/env python# -*- coding:utf-8 -*-# URl:http://jandan.net/ooxx/page-+str(1-3000)+#commentsimport multiprocessingimport osimport random原创 2017-03-31 11:55:10 · 267 阅读 · 0 评论 -
实现匹配文件(并自定义命名)的批量拷贝,后续上传改良版
#! usr/bin/env python# -*- coding: utf-8 -*-#实现对文件的自定义命名的并批量复制,脚本并未对异常情况进行处理import osimport datetimeimport timeimport fnmatchimport reimport shutiltime = time.strftime("%Y%m%d%H%M%S") #定义时间的输出原创 2017-03-31 11:42:17 · 476 阅读 · 0 评论 -
Scrapy学习笔记V--Items 爬虫数据的存储.数据模板
当我们利用爬虫程序从源数据中提取(extract)自己所需要的数据,如N个电影名,N个电影作者,不同排名,不同点赞数,不同下载地址,文章内容或者一些其他数据,并把这些提取的内容存储到一个Python字典中返回但是字典存储数据会出现排版或者前后不一致的情况,尤其是在大型的爬虫程序中那提取的数据应该保存在哪里?又能保持数据的一致性呢?Item scrapy中item 类 中提供容器收集这些爬取的原创 2017-04-06 17:52:35 · 761 阅读 · 0 评论