
爬虫开发学习
不愿透露姓名的菜鸟
积跬步,致千里!
展开
-
robots.txt防爬虫使用
robots.txt文件用法举例:首先来看看robots.txt文件的使用位置情况,如github的robots使用情况。下面参考https://blog.csdn.net/cc1254383393/article/details/48753961/1.robots.txt文件是什么robots.txt是一个纯文本文件,是搜索引擎中访问网站的时候要查看的第一个文件。robots...原创 2019-10-31 10:25:14 · 1651 阅读 · 0 评论 -
关于ftp的文件批量下载(包括文件夹和文件)的多种方法
博主纯手工打字,转载请注明出处!各位大佬不喜勿喷!先笼统说一下本文针对ftp协议下的文件夹和文件递归下载方法:(I)使用FileZilla工具进行下载;(II)使用脚本爬取;(III)使用命令直接下载;(IV)python脚本直接下载。 最近需要下载一批新的固件,本来是准备写脚本爬取的,但是使用scrapy框架爬取的时候,发现并不能有效地支持ftp协议的情况,貌...原创 2018-08-20 16:08:34 · 48611 阅读 · 1 评论 -
测试代理ip是否有效
(1)免费ip使用地址:www.xicidaili.com(2)编写脚本测试ip是否有效推荐大家看一下这个博客:https://blog.csdn.net/Oscer2016/article/details/75000148这这篇博客很好地展示了免费ip的获取和测试是否能用的情况.下面是我在别的博客上看到的,拿过来使用,发现很难用,有的时候还无法测试出结果.方法一:使用requ...原创 2018-09-08 13:20:15 · 13719 阅读 · 0 评论 -
HTTP status code is not handled or not allowed的解决方法
scrapy框架使用时发生的错误:解决办法:将报错的403加入到settings.py文件中.HTTPERROR_ALLOWED_CODES = [403]原创 2018-09-11 16:51:24 · 3827 阅读 · 3 评论 -
WebDriverException: Message: 'phantomjs' executable may have wrong permissions错误
python调用无头浏览器的时候出现错误WebDriverException: Message: 'phantomjs' executable may have wrong permissions.错误如下:最直接的做法是进入到phantomjs目录下,找到可执行文件phantomjs,然后使phantomjs修改权限为可执行文件.修改方法如下:$ chmod 777 phanto...原创 2018-09-17 10:04:31 · 2259 阅读 · 0 评论 -
从linux和windows上传文件到服务器指定目录下方法
从windows上传文件到服务器:(1)在windows下上传文件到服务器方法是配置rz和sz功能.sudo pip install lrzsz然后直接文件上传就行rz 为文件上传到服务器sz为文件保存到本地命令(2)从linux上传文件到服务器:下面以ubuntu系统为例:scp -P 2200 netgearSpider.py root@10.10.2.191...原创 2018-09-17 16:32:47 · 7822 阅读 · 0 评论 -
python正则匹配,以某某开头某某结尾的最长子串匹配
python正则匹配,以某某开头某某结尾的最长子串匹配如firmwarename: SMARTCPU_V02.03.02_00.00.01.00_Firmware_update_files.zip 匹配出:V02.03.02_00.00.01.00firmwarename: SMARTCPU_V02.02.00_00.00.01.00.zip 匹配出:V02.02.00_00.0...原创 2018-09-18 09:32:29 · 6410 阅读 · 0 评论 -
python处理链接url的重要参数都在#后,需要保存#后内容的处理方法.
在网上看到下面这个问题:某个url的重要参数都在“#”后面,网络请求的时候“#”后面的参数会被忽略,这种情况该怎么处理?在scrapy爬虫框架中会自动过滤掉#后面的内容,这时我们我需要将#进行字符转化,将#转化为%23进行处理.问题如下:当不改变#为 %23时,输出结果入下截图class netcoreSpider(Spider): name = "netcore" ...原创 2018-09-28 16:27:28 · 1668 阅读 · 0 评论 -
python Scrapy的spider中回调函数的多个参数传递方法
通常有两种方法,一种是使用meta进行参数传递。另一种是使用lambda进行参数传递。方法一:使用meta进行参数传递。举例如下:from scrapy.spiders import Spiderimport scrapyimport FirmCrawler.items as MIfrom sets import Setimport timeimport urlpars...原创 2018-10-15 12:13:08 · 4463 阅读 · 0 评论 -
python scrapy的crapy.core.downloader.handlers.http11] WARNING: Received more bytes than download 错误
python scrapy框架的爬虫遇到下面的错误,一直没查找到解决的办法,请求大佬指教。在爬取http://firmware.koolshare.cn/网站的时候遇到异常。2018-10-15 22:07:57 [scrapy.core.downloader.handlers.http11] WARNING: Received more bytes than download warn...原创 2018-10-15 22:21:53 · 5829 阅读 · 6 评论 -
python的scrapy运用xpath爬取一个标签下的所有文字
通常针对某一行的内容时,使用text().如: filename = d.xpath("./div[2]/div/div/a[1]/text()").extract().pop()针对标签下的存在多个子标签下的多行时,我们采用string(.)进行获取.如: desc_info = d.xpath("./div[2]/div/div") desc_ = desc_info.x...原创 2018-10-10 16:48:45 · 4444 阅读 · 1 评论 -
python获取页面所有a标签下href的值
参考下面的链接中的内容:https://blog.csdn.net/suibianshen2012/article/details/61915222# -*- coding:utf-8 -*-#python 2.7#http://tieba.baidu.com/p/2460150866#标签操作from bs4 import BeautifulSoupimport urll...原创 2018-11-02 10:49:05 · 60524 阅读 · 5 评论 -
python 获取请求链接下载文件的大小和文件特征
###根据url链接提取下载文件的大小特征和下载文件类型def getRemoteFileSize(url, proxy=None): ''' 通过content-length头获取远程文件大小 ''' opener = urllib2.build_opener() if proxy: if url.lower().startswith(...原创 2018-11-17 15:47:18 · 5223 阅读 · 0 评论 -
python2.7的urllib2.urlopen()无法打开中文url
处理url含中文的方法url = urllib.quote(url, safe=string.printable) ###处理含中文的情况 req = urllib2.urlopen(url, timeout = 60)这种是最好用的方法,能够处理整个url。参考链接:https://blog.csdn.net/sijiaqi11/article/details/784497...原创 2019-05-17 11:12:42 · 1737 阅读 · 0 评论 -
文件下载url中存在../的情况
废话不多说,上代码import urllib2import urlliburl = "http://www.wayos.com/../Upfiles/down/WAP_3048-18.07.04V.trx"req = urllib2.urlopen(url, timeout=60)try: urllib.urlretrieve(url, filePath)except Ex...原创 2019-06-03 17:00:20 · 2258 阅读 · 0 评论 -
python 使用selenium webdriver编写自动登录126或163邮箱并发送邮件的程序。
这是一个有问题的代码,摆弄了很久,找不到解决的办法,希望看到我错误的大神给于留言指点。也可以发邮件给我,邮箱aixuexiba666@126.com,大家有高明的解决方案,欢迎大佬指教。谢谢!我的问题主要出在点击“写信”按钮无反应。无法准确找到获取该按钮,并有反应的方法。发现下面这位博主和我的问题基本一样。没有很好的解决方法。https://www.cnblogs.com/yin-tao/p/72...原创 2018-04-26 20:24:23 · 2103 阅读 · 0 评论 -
xpath语言使用
xpath是一门语言,可以在xml文档中查找信息,在爬虫中比正则表达式方便很多;xpath是属于lxml库,安装xpath首先需要安装python第三方库lxml库文件;from lxml import etreeSelector = etree.HTML(网页源代码)Selector.xpath翻译 2017-08-15 20:52:40 · 572 阅读 · 0 评论 -
爬虫requests对post的使用方法
这篇内容主要针对爬虫针对遇到发送请求页面url = “https://www.crowdfunder.com/?q=filter&page=2"data={ 'entities_only': 'true', 'page': '1' #也可以改成2,3,4,5...... }ht原创 2017-08-15 16:25:46 · 1447 阅读 · 0 评论 -
python中map多进程使用方法
from multiprocessing.dummy import Pool as ThreadPoolimport requestsurls=[]for i in range(1,20+1): newpage="http://www.xxxxxx.xxx.page="+str(i)def getsource(url): html= rea原创 2017-08-16 10:08:07 · 2056 阅读 · 0 评论 -
python爬虫设置cookie模拟登录微博方法
#-*-coding:utf8-*-import requestsfrom lxml import etreecook = {"Cookie": "此处请填写你获取到的Cookie"} ####使用fiddler进行抓包,或者查看元素中的网络均可找到cookieurl = 'http://weibo.cn/u/xxxxxxxx' #此处请修改为微博网址(登陆后的网址)原创 2017-08-17 10:11:36 · 2551 阅读 · 0 评论 -
python爬虫之新浪微博模拟登陆
#-*-coding:utf8-*-import requestsfrom lxml import etreeurl = 'http://weibo.cn/u/xxxxxx' #此处请修改为微博地址url_login = 'https://login.weibo.cn/login/'html = requests.get(url).contentselector = etree.原创 2017-08-17 10:51:44 · 766 阅读 · 0 评论 -
python爬虫之追女神监督微博信息
#-*-coding:utf8-*-import smtplibfrom email.mime.text import MIMETextimport requestsfrom lxml import etreeimport osimport timeimport sysreload(sys)sys.setdefaultencoding('utf-8')class mai原创 2017-08-17 11:14:55 · 663 阅读 · 0 评论 -
Python与MongoDB
python运用MongoDB很方便安装:~$ sudo apt-get install mongodb~$ mongo –version卸载:~$ sudo apt-get --purge remove mongodb mongodb-clients mongodb-server安装pymongo:pip install pymongo可以安装Mong原创 2017-08-17 16:37:58 · 553 阅读 · 0 评论 -
安装scrapy-Redis
redis把数据保存在内存MongoDB把数据保存在硬盘pip install scrapy-rediseasy_install scrapy-redis或者下载安装包下载。scrapy 配置redis,在settings.py文件中配置redis默认端口6379#-*-coding:utf8-*-from scrapy_redis.spider原创 2017-08-17 21:02:32 · 1693 阅读 · 0 评论 -
scrapy的重要对象Requests,Responses的使用
def parse_page1(self, response): return scrapy.Request(url, callback=self.parse_page2)def parse_page2(self, response): self.logger.info(response.url) meta使用方法一定要学会:request.meta['it原创 2017-08-19 11:41:52 · 698 阅读 · 0 评论 -
scrapy日志的设置方法
import scrapy from scrapy import spiderlogger = logging.getLogger('mylogger') ###命名自己的日志文件名class ZgdSpider(spider): name = 'zgd' start_urls = ['http://www/.XXXXX.com'] de原创 2017-08-19 16:04:01 · 805 阅读 · 0 评论 -
python scrapy爬取生物谷之模拟登陆(使用FormRequest)
# -*- coding: utf-8 -*-import jsonimport scrapyfrom scrapy import FormRequestfrom bioon import settings ###############工程名为bioon,修改了settings.pyfrom bioon.items import BioonItem原创 2017-08-19 15:24:47 · 984 阅读 · 0 评论 -
scrapy selenium第三方库使用
使用第三方库selenium模拟执行js脚本form selenium import webdriverdriver = webdriver.Firefox()driver.get("http://www.baidu.com") drive.page_source原创 2017-08-22 13:58:56 · 578 阅读 · 0 评论 -
scrapy代理ip
方法1:首先可以在类似西刺网站获取ip并存储在数据库然后在spider的middlewares.py中添加代理ip# importing base64 library because we'll need it ONLY in case #if the proxy we are going to use requires authentication#-*- coding:ut原创 2017-08-22 10:52:40 · 767 阅读 · 0 评论 -
python scrapy部署scrapyd
scrapyd是一个部署scrapy spiders的应用,它可以使用ison API部署工程,并控制spider。scrapyd可以部署多个工程,每个工程都可以有多个版本,但只运行最新的那个版本。1.scrapyd安装首先配置scrapy:1.0.3,Twisted:15.4.0,python:2.7.9 ,pippip install scrapyd安装完成之后,检原创 2017-08-22 15:37:48 · 544 阅读 · 0 评论 -
pyspider爬虫设置延时
pyspider爬虫设置延时,在scrawl中添加function函数,设置时延.另外可以正则匹配网址方法也可以参见本条方案 def index_page(self, response): print(response) for each in response.doc('a[href^="http://www.zhanqi.tv/games/"]原创 2017-08-14 15:24:42 · 2197 阅读 · 0 评论 -
cve_details按照时间爬取(pyspider)
#!/usr/bin/env python# -*- encoding: utf-8 -*-# Created on 2017-08-11 10:19:23#Created by zhangguodong# Project: CVE_Detailsfrom pyspider.libs.base_handler import *import refrom collec原创 2017-08-14 11:06:43 · 1094 阅读 · 3 评论 -
python爬虫xpath针对json代码的分析方法
本文学会使用多进程爬取的map方法,json提取页面内容方法,xpath解析页面的方法:http://tieba.baidu.com/p/3522395718?pn=1页面代码:<div class="l_post j_l_post l_post_bright " data-field="{"author":{"user_id":5原创 2017-08-16 15:11:22 · 2474 阅读 · 0 评论