- 博客(13)
- 收藏
- 关注
原创 xpath获取指定多标签内数字
from lxml import etreehtml = '''<div class="p-name p-name-type-2"> <a target="_blank" title="希捷(seagate)Expansion 新睿翼2TB 黑钻版USB3.0 2.5英寸 移动硬盘 经典黑 (STEA2000400)" href="/...
2018-07-30 13:56:05 6983
原创 xpath只能提取到部分页面元素的问题
世界杯刚过,想从世界杯贴吧爬取一些图片,用requests库,发现当设置User-Agent时,li标签用xpath提取不到,div标签只能提取到部分,并且发现当不设置User-Agent时就能正常提取到所用的User-Agnet为谷歌浏览器:Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like G...
2018-07-21 16:27:28 4960
原创 xpath解析网页中tbody问题
xpath解析网页是如果包含tbody标签,因为浏览器会对html文本进行一定的规范化,解析会报错去掉xpath中的tbody即可
2018-07-19 12:02:01 3112
原创 python3 urlopen打开包含中文的url的问题
打开包含中文的url时,报错:UnicodeEncodeError: ‘ascii’ codec can’t encode characters in position 10-12: ordinal not in range(128)解决方法:url = 'https://baike.baidu.com/item/比特币/4143690'url = parse.quote(url,...
2018-07-19 10:08:04 2630
原创 sql注入语句原理及其python中的预防
举例,你要登录一个网站,需要输入用户名字和密码。开发过程中构造sql语句:str1 = "select * from user where username='%s' and pwd='%s'"%('admin','123')服务器端验证时,拼接的结果:str1 = "select * from user where username='admin' and pwd='123'"假如你输...
2018-07-18 22:43:11 2745
原创 lxml解析本地HTML文件报错的问题
使用lxml.etree.parse()解析html文件,该方法默认使用的是“XML”解析器,所以如果碰到不规范的html文件时就会解析错误,报错代码如下:lxml.etree.XMLSyntaxError: Opening and ending tag mismatch: meta line 3 and head, line 3, column 87解决办法:自己创建html解析器,增...
2018-07-18 15:56:57 6510 4
原创 Python3中使用 RSA加/解密
安装rsa模块:pip install rsa加解密过程:import rsa# rsa加密def rsaEncrypt(str): # 生成公钥、私钥 (pubkey, privkey) = rsa.newkeys(512) print(pubkey, privkey) # 明文编码格式 content = str.encode('utf-8') # 公钥加密...
2018-07-14 15:03:28 12971
原创 Filtered offsite request to 错误
用scrapy-redis进行数据爬取,遇到了问题:DEBUG: Filtered offsite request to 'www.xxx.com': 。。。 那就是request的地址和allow_domain里面的冲突而被过滤我的爬虫类继承自RedisSpider,是不需要写allowd_domains的解决方法:使用Request的参数dont_filter=True,即:yield Re...
2018-07-10 11:27:42 5332 1
原创 常见redis配置项
redis bind表示的是指定本机可以接受连接的网卡地址,redis使用该IP来接受外部的连接redis默认是不能被远程连接的,如果要接受远程连接,可以粗暴地注释掉下面的行:bind 127.0.0.1也可以指定一个redis服务器上的一个IP:bind 192.168.1.110关闭保护模式protected-mode no Redis默认不是以守护进程的方式运行,可以通过该配置项修改,使用y...
2018-07-07 15:54:04 2328
原创 scrapy-redis中redis的设置
阅读了几遍scrapy-redis的源码connection.py,根据注释终于弄清楚了redis的设置可以设置主机,端口和密码等在setting.py中添加如下代码:REDIS_HOST = “192.168.21.228” REDIS_PORT = 6379 REDIS_PARAMS = { ‘password’: ‘123456’, }...
2018-07-07 12:25:21 3307
转载 Python os.walk() 方法
转自:http://www.runoob.com/python/os-walk.html概述os.walk() 方法用于通过在目录树中游走输出在目录中的文件名,向上或者向下。os.walk() 方法是一个简单易用的文件、目录遍历器,可以帮助我们高效的处理文件、目录方面的事情。在Unix,Windows中有效。语法walk()方法语法格式如下:os.walk(top[, topdown=True[,...
2018-07-04 16:09:41 2428
原创 XX Spider.parse callback is not defined
scrapy报错之:XX Spider.parse callback is not defined解决办法:爬虫继承的父类改为CrawlSpider即可
2018-07-02 11:01:47 5302 1
原创 ImportError: No module named 'sgmllib'
scrapy项目下创建爬虫,竟然报错:ImportError: No module named 'sgmllib' 网上查了一下,有是版本问题,恶心死了,原因:sgmllib是2.6以后引入python,在3.0以后这个库被移除了。如果你的python版本<2.6或者>=3.0就找不到这个module。 如果你要使用已有的、依赖sgmllib的代码,安装python2.7等合适的版本。...
2018-07-02 10:26:54 7238 1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人