2018年07月_Kwoky

原创 xpath获取指定多标签内数字

from lxml import etreehtml = '''<div class="p-name p-name-type-2"> <a target="_blank" title="希捷（seagate）Expansion 新睿翼2TB 黑钻版USB3.0 2.5英寸移动硬盘经典黑 (STEA2000400)" href="/...

2018-07-30 13:56:05 6983

世界杯刚过，想从世界杯贴吧爬取一些图片，用requests库，发现当设置User-Agent时，li标签用xpath提取不到，div标签只能提取到部分，并且发现当不设置User-Agent时就能正常提取到所用的User-Agnet为谷歌浏览器：Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like G...

2018-07-21 16:27:28 4960

原创 xpath解析网页中tbody问题

xpath解析网页是如果包含tbody标签，因为浏览器会对html文本进行一定的规范化，解析会报错去掉xpath中的tbody即可

2018-07-19 12:02:01 3112

原创 python3 urlopen打开包含中文的url的问题

打开包含中文的url时，报错：UnicodeEncodeError: ‘ascii’ codec can’t encode characters in position 10-12: ordinal not in range(128)解决方法：url = 'https://baike.baidu.com/item/比特币/4143690'url = parse.quote(url,...

2018-07-19 10:08:04 2630

原创 sql注入语句原理及其python中的预防

举例，你要登录一个网站，需要输入用户名字和密码。开发过程中构造sql语句：str1 = "select * from user where username='%s' and pwd='%s'"%('admin','123')服务器端验证时，拼接的结果：str1 = "select * from user where username='admin' and pwd='123'"假如你输...

2018-07-18 22:43:11 2745

原创 lxml解析本地HTML文件报错的问题

使用lxml.etree.parse()解析html文件，该方法默认使用的是“XML”解析器，所以如果碰到不规范的html文件时就会解析错误，报错代码如下：lxml.etree.XMLSyntaxError: Opening and ending tag mismatch: meta line 3 and head, line 3, column 87解决办法：自己创建html解析器，增...

2018-07-18 15:56:57 6510 4

原创 Python3中使用 RSA加/解密

安装rsa模块：pip install rsa加解密过程：import rsa# rsa加密def rsaEncrypt(str): # 生成公钥、私钥 (pubkey, privkey) = rsa.newkeys(512) print(pubkey, privkey) # 明文编码格式 content = str.encode('utf-8') # 公钥加密...

2018-07-14 15:03:28 12971

原创 Filtered offsite request to 错误

用scrapy-redis进行数据爬取，遇到了问题:DEBUG: Filtered offsite request to 'www.xxx.com': 。。。那就是request的地址和allow_domain里面的冲突而被过滤我的爬虫类继承自RedisSpider，是不需要写allowd_domains的解决方法：使用Request的参数dont_filter=True，即：yield Re...

2018-07-10 11:27:42 5332 1

原创常见redis配置项

redis bind表示的是指定本机可以接受连接的网卡地址，redis使用该IP来接受外部的连接redis默认是不能被远程连接的，如果要接受远程连接，可以粗暴地注释掉下面的行：bind 127.0.0.1也可以指定一个redis服务器上的一个IP：bind 192.168.1.110关闭保护模式protected-mode no Redis默认不是以守护进程的方式运行，可以通过该配置项修改，使用y...

2018-07-07 15:54:04 2328

原创 scrapy-redis中redis的设置

阅读了几遍scrapy-redis的源码connection.py，根据注释终于弄清楚了redis的设置可以设置主机，端口和密码等在setting.py中添加如下代码：REDIS_HOST = “192.168.21.228” REDIS_PORT = 6379 REDIS_PARAMS = { ‘password’: ‘123456’, }...

2018-07-07 12:25:21 3307

转载 Python os.walk() 方法

转自：http://www.runoob.com/python/os-walk.html概述os.walk() 方法用于通过在目录树中游走输出在目录中的文件名，向上或者向下。os.walk() 方法是一个简单易用的文件、目录遍历器，可以帮助我们高效的处理文件、目录方面的事情。在Unix，Windows中有效。语法walk()方法语法格式如下：os.walk(top[, topdown=True[,...

2018-07-04 16:09:41 2428

原创 XX Spider.parse callback is not defined

scrapy报错之：XX Spider.parse callback is not defined解决办法：爬虫继承的父类改为CrawlSpider即可

2018-07-02 11:01:47 5302 1

原创 ImportError: No module named 'sgmllib'

scrapy项目下创建爬虫，竟然报错：ImportError: No module named 'sgmllib' 网上查了一下，有是版本问题，恶心死了，原因：sgmllib是2.6以后引入python，在3.0以后这个库被移除了。如果你的python版本<2.6或者>=3.0就找不到这个module。如果你要使用已有的、依赖sgmllib的代码，安装python2.7等合适的版本。...

2018-07-02 10:26:54 7238 1

Kwoky的博客