果冻先生的专栏

向那些技术过硬并且愿意分享和共同推动科技进步的大佬们致敬!

文件下载url中存在../的情况

废话不多说,上代码 import urllib2 import urllib url = "http://www.wayos.com/../Upfiles/down/WAP_3048-18.07.04V.trx" req = urllib2.urlopen(url, tim...

2019-06-03 17:00:20

阅读数 19

评论数 0

python2.7的urllib2.urlopen()无法打开中文url

处理url含中文的方法 url = urllib.quote(url, safe=string.printable) ###处理含中文的情况 req = urllib2.urlopen(url, timeout = 60) 这种是最好用的方法,能够处理整个url。 参考链接:http...

2019-05-17 11:12:42

阅读数 16

评论数 0

python 获取请求链接下载文件的大小和文件特征

###根据url链接提取下载文件的大小特征和下载文件类型 def getRemoteFileSize(url, proxy=None): ''' 通过content-length头获取远程文件大小 ''' opener = urllib2.build_opener...

2018-11-17 15:47:18

阅读数 516

评论数 0

python获取页面所有a标签下href的值

参考下面的链接中的内容: https://blog.csdn.net/suibianshen2012/article/details/61915222 # -*- coding:utf-8 -*- #python 2.7 #http://tieba.baidu.com/p/246015086...

2018-11-02 10:49:05

阅读数 6094

评论数 2

python scrapy的crapy.core.downloader.handlers.http11] WARNING: Received more bytes than download 错误

python scrapy框架的爬虫遇到下面的错误,一直没查找到解决的办法,请求大佬指教。 在爬取http://firmware.koolshare.cn/网站的时候遇到异常。 2018-10-15 22:07:57 [scrapy.core.downloader.handlers.http...

2018-10-15 22:21:53

阅读数 681

评论数 3

python Scrapy的spider中回调函数的多个参数传递方法

通常有两种方法,一种是使用meta进行参数传递。另一种是使用lambda进行参数传递。 方法一: 使用meta进行参数传递。 举例如下: from scrapy.spiders import Spider import scrapy import FirmCrawler.items as...

2018-10-15 12:13:08

阅读数 897

评论数 0

python的scrapy运用xpath爬取一个标签下的所有文字

通常针对某一行的内容时,使用text(). 如:  filename = d.xpath("./div[2]/div/div/a[1]/text()").extract().pop() 针对标签下的存在多个子标签下的多行时,我们采用string(.)进行获取...

2018-10-10 16:48:45

阅读数 823

评论数 0

python处理链接url的重要参数都在#后,需要保存#后内容的处理方法.

在网上看到下面这个问题: 某个url的重要参数都在“#”后面,网络请求的时候“#”后面的参数会被忽略,这种情况该怎么处理? 在scrapy爬虫框架中会自动过滤掉#后面的内容,这时我们我需要将#进行字符转化,将#转化为%23进行处理. 问题如下:当不改变#为 %23时,输出结果入下截图 c...

2018-09-28 16:27:28

阅读数 277

评论数 0

python正则匹配,以某某开头某某结尾的最长子串匹配

python正则匹配,以某某开头某某结尾的最长子串匹配 如 firmwarename: SMARTCPU_V02.03.02_00.00.01.00_Firmware_update_files.zip   匹配出:V02.03.02_00.00.01.00 firmwarename: SMART...

2018-09-18 09:32:29

阅读数 2618

评论数 0

从linux和windows上传文件到服务器指定目录下方法

 从windows上传文件到服务器: (1)在windows下上传文件到服务器方法是配置rz和sz功能. sudo pip install lrzsz 然后直接文件上传就行 rz 为文件上传到服务器 sz为文件保存到本地命令 (2)从linux上传文件到服务器: 下面以ubuntu系...

2018-09-17 16:32:47

阅读数 1214

评论数 0

WebDriverException: Message: 'phantomjs' executable may have wrong permissions错误

python调用无头浏览器的时候出现错误WebDriverException: Message: 'phantomjs' executable may have wrong permissions. 错误如下: 最直接的做法是进入到phantomjs目录下,找到可执行文件phantomjs,然...

2018-09-17 10:04:31

阅读数 387

评论数 0

HTTP status code is not handled or not allowed的解决方法

scrapy框架使用时发生的错误: 解决办法: 将报错的403加入到settings.py文件中. HTTPERROR_ALLOWED_CODES = [403]  

2018-09-11 16:51:24

阅读数 533

评论数 0

python测试代理ip是否有效

(1)免费ip使用地址:www.xicidaili.com (2)编写脚本测试ip是否有效 推荐大家看一下这个博客:https://blog.csdn.net/Oscer2016/article/details/75000148这 这篇博客很好地展示了免费ip的获取和测试是否能用的情况. ...

2018-09-08 13:20:15

阅读数 416

评论数 0

关于ftp的文件批量下载(包括文件夹和文件)的多种方法

博主纯手工打字,转载请注明出处!各位大佬不喜勿喷! 先笼统说一下本文针对ftp协议下的文件夹和文件递归下载方法: (I)使用FileZilla工具进行下载; (II)使用脚本爬取; (III)使用命令直接下载; (IV)python脚本直接下载。        最近需要下载一批新的固件...

2018-08-20 16:08:34

阅读数 8538

评论数 0

python 使用selenium webdriver编写自动登录126或163邮箱并发送邮件的程序。

这是一个有问题的代码,摆弄了很久,找不到解决的办法,希望看到我错误的大神给于留言指点。也可以发邮件给我,邮箱aixuexiba666@126.com,大家有高明的解决方案,欢迎大佬指教。谢谢!我的问题主要出在点击“写信”按钮无反应。无法准确找到获取该按钮,并有反应的方法。发现下面这位博主和我的问题...

2018-04-26 20:24:23

阅读数 893

评论数 0

python scrapy部署scrapyd

scrapyd是一个部署scrapy spiders的应用,它可以使用ison API部署工程,并控制spider。 scrapyd可以部署多个工程,每个工程都可以有多个版本,但只运行最新的那个版本。 1.scrapyd安装 首先配置scrapy:1.0.3,Twisted:15.4.0...

2017-08-22 15:37:48

阅读数 228

评论数 0

scrapy selenium第三方库使用

使用第三方库selenium模拟执行js脚本 form selenium import webdriver driver = webdriver.Firefox() driver.get("http://www.baidu.com") drive.page_source

2017-08-22 13:58:56

阅读数 285

评论数 0

scrapy代理ip

方法1: 首先可以在类似西刺网站获取ip并存储在数据库 然后在spider的middlewares.py中添加代理ip # importing base64 library because we'll need it ONLY in case #if the proxy we are ...

2017-08-22 10:52:40

阅读数 407

评论数 0

scrapy日志的设置方法

import scrapy from scrapy import spider logger = logging.getLogger('mylogger')   ###命名自己的日志文件名 class ZgdSpider(spider):      name = 'zgd'  ...

2017-08-19 16:04:01

阅读数 393

评论数 0

python scrapy爬取生物谷之模拟登陆(使用FormRequest)

# -*- coding: utf-8 -*- import json import scrapy from scrapy import FormRequest from bioon import settings ###############工程名为bioon,修改了...

2017-08-19 15:24:47

阅读数 563

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭