python scrapy 修改时间统计信息源码

修改scrapy 时间统计,优化时间,增加总耗时统计! 修改文件:corestats.py  位置: D:\python\Lib\site-packages\scrapy\extensions 修改下面两个函数: 注释的都是源码 def spider_opened(self,...

2018-10-29 10:04:19

阅读数 164

评论数 0

pyhon3模拟鼠标点击滚动,键盘输入中文

安装包 pip install pyautogui pip install pyperclip   pyautogui 更多参考官网:https://github.com/asweigart/pyautogui  不支持中文输入 from time import sleep im...

2018-10-22 15:13:04

阅读数 1205

评论数 0

python+appium windows下搭建运行环境【启动微信app】

本人设备说明: 手机:三星Samsung S8+  安卓android8.0 电脑:win10 64位 所需的软件 python3.6.5 java nodejs appium ---这里安装的是界面版本的 通过 android studio 安装安卓sdk 软件都可以通过官网...

2018-10-03 11:54:22

阅读数 437

评论数 0

python 发送邮件及附件

用授权码登录发送邮件及附件 需要对邮件进行POP3/SMTP服务设置,例如qq邮箱: 特别提示- --->    千万不要泄漏自己的授权码  这里的邮箱的域名与端口根据自己的实际邮箱去填写(这是qq邮箱) #!/usr/bin/python ...

2018-09-29 16:48:42

阅读数 2654

评论数 2

python高级算法:列表冒泡/字典排序/字典统计相加

列表冒泡一: ''' 这里 if list_x[k] < list_x[k+1]: < 和 > 控制着输出的顺序 > 表示正序 < 表示倒序 隐藏部分是查看的...

2018-08-09 10:16:41

阅读数 435

评论数 0

scrapy:Pipelines三种方法保存json文件

推荐:JsonLiensItemExporter 这个是每次调用export_item 时,都会存储到硬盘中。 好处:每次处理数据的时候直接储存到硬盘中,减少内存的使用,数据比较安全 坏处:字典是一行一行写入json文件中,整个文件不是一个满足json格式的文件。 解决办法:读取时,遍历每...

2018-08-08 20:30:28

阅读数 693

评论数 0

scrapy框架-解决windows安装报错/Ubantu安装与scrapy项目创建

安装scrapye 提示:不管windows/ubantu 下载scrapy需要进入自己的虚拟环境安装scrapy,不使用虚拟环境忽略这个提示...  windows安装 1. 下载Twisted包 推荐离线安装,在线安装我这里失败报错,所以推荐离线安装,不下载这个会报一个缺少windows...

2018-08-08 20:20:49

阅读数 294

评论数 0

Selenium-快速使用

点击查看 selenium-python-关闭与定位操作 点击查看 selenium-python-操作表单元素与切换窗口 点击查看 selenium-python-行为链与cookie操作 点击查看 selenium-python-隐式等待与显示等待 点击查看 selenium-pyth...

2018-08-07 23:01:57

阅读数 80

评论数 0

MySQL数据的基本类型——实用篇

MySQLMySQL 是现在最流行的关系型数据库管理系统关系型数据关系型数据库指:多张能互相联接的二维行列表格组成的数据库——类似windows下的Excel表格数据SQL 表示: Structrued Query Language 结构化查询语言MySQL主要功能:  - 存储数据(仓库)  -...

2018-05-23 00:12:53

阅读数 1575

评论数 0

MySQL基础操作(增删查改) ——实用篇

  MySQL语法是大写!  语句结束必须用分号结尾 ; 在SQL语句中-- 英文双横杠+空格表示注释   MySQL 查看数据库 我们可以在登陆 MySQL 服务后,我们可以使用 show 查看数据库 database 语法 SHOW DATABASES;   MySQL ...

2018-05-23 00:12:25

阅读数 16709

评论数 3

python 修改包的导入(优先级) 解决 cmd 导入自定义包 报错

解决 cmd 导入自定义包 报错 # 获取 路径 file_path = os.path.dirname(os.path.abspath(__file__)) # 修改运行路径 sys.path.append(file_path) sys.path.insert(0, os.path.dirn...

2018-11-12 10:56:24

阅读数 163

评论数 0

python 有损和无损 方式替换表情符号

无损方法 好处:保留原来字符串的全部内容 缺点:耗内存,需要对源字符串进行url解码 这个是把对应的表情和英文符号进行urlencode 这样就可以保存原有的字符串,不会破坏原来的样式,直接对字符串进行url解码即可 import re from urllib.parse impor...

2018-11-08 19:40:42

阅读数 138

评论数 0

扩展爬虫 框架

async  可以快速下载简单的网页   spynner,ghost  这个是模拟浏览器的框架   这段代码配合专门的selenium+chrome 可以过淘宝的webdriver 检测 这个必须结合try 捕获异常,每次翻页必须捕获 driver=webdriver.Chrome()...

2018-11-07 22:07:17

阅读数 54

评论数 0

python list 查找所有匹配元素的位置

import re word = "test" s = "test abcdas test 1234 testcase testsuite" w = [m.start() for m in re.finditer(word...

2018-10-30 11:20:35

阅读数 7376

评论数 0

python 字符串输出报错 'utf-8' codec can't encode characters in position

一些字符串无法被utf-8解码,所以可以把无法转化为utf-8格式的字符‘ignore’掉,再进行解码。 str().encode('UTF-8', 'ignore').decode('UTF-8') 测试代码:  text = ''' '\n &...

2018-10-26 10:42:50

阅读数 683

评论数 3

python+appium 自动化启动微信app

更新中...

2018-10-03 14:26:49

阅读数 1004

评论数 2

解决scrapy+redis分布式爬虫 空跑问题

问题说明: 在scrapy 结合redis做分布式爬取时,会出现scrapy已经完成爬取,但是爬虫却不会结束,一直等待新的url。  将以下代码复制即可   实现: 1. 在settings.py目录下创建一个extensions.py文件,代码如下 # -*- coding: ut...

2018-09-29 13:21:59

阅读数 559

评论数 1

selenium-python-设置代理IP操作与WebElement元素

设置代理IP 有时候频繁的爬取一些网页。服务器发现你是爬虫会封掉你的ip,这时候需要更改ip,不同的浏览器有不同的实现方式。 from selenium import webdriver options = webdriver.ChromeOptions() # 设置谷歌浏览器的一些选项...

2018-08-07 23:46:13

阅读数 1350

评论数 0

selenium-python-隐式等待与显示等待

页面等待 隐式等待: 调用driver.implicitly_wait 那么在获取不可用的元素之前,会等待10秒中的时间 driver = webdriver.Chrome() driver.implicitly_wait(10) driver.get(‘https:\\www.bai...

2018-08-07 23:39:15

阅读数 3887

评论数 1

selenium-python-行为链与cookie操作

行为链 有时候在页面中的操作可能要有很多步,那么这时候可以使用鼠标行为链ActionChains来完成。 比如现在要将鼠标移动到某个元素上并执行点击事件 from selenium import webdriver from selenium.webdriver.common.action...

2018-08-07 23:35:13

阅读数 155

评论数 0

提示
确定要删除当前文章?
取消 删除