自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Kwoky的博客

个人笔记,不求流量,不求关注,万一能帮到你,万分荣幸,不对你的症,海涵!

  • 博客(13)
  • 收藏
  • 关注

原创 xpath获取指定多标签内数字

from lxml import etreehtml = '''<div class="p-name p-name-type-2"> <a target="_blank" title="希捷(seagate)Expansion 新睿翼2TB 黑钻版USB3.0 2.5英寸 移动硬盘 经典黑 (STEA2000400)" href="/...

2018-07-30 13:56:05 6983

原创 xpath只能提取到部分页面元素的问题

世界杯刚过,想从世界杯贴吧爬取一些图片,用requests库,发现当设置User-Agent时,li标签用xpath提取不到,div标签只能提取到部分,并且发现当不设置User-Agent时就能正常提取到所用的User-Agnet为谷歌浏览器:Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like G...

2018-07-21 16:27:28 4960

原创 xpath解析网页中tbody问题

xpath解析网页是如果包含tbody标签,因为浏览器会对html文本进行一定的规范化,解析会报错去掉xpath中的tbody即可

2018-07-19 12:02:01 3112

原创 python3 urlopen打开包含中文的url的问题

打开包含中文的url时,报错:UnicodeEncodeError: ‘ascii’ codec can’t encode characters in position 10-12: ordinal not in range(128)解决方法:url = 'https://baike.baidu.com/item/比特币/4143690'url = parse.quote(url,...

2018-07-19 10:08:04 2630

原创 sql注入语句原理及其python中的预防

举例,你要登录一个网站,需要输入用户名字和密码。开发过程中构造sql语句:str1 = "select * from user where username='%s' and pwd='%s'"%('admin','123')服务器端验证时,拼接的结果:str1 = "select * from user where username='admin' and pwd='123'"假如你输...

2018-07-18 22:43:11 2745

原创 lxml解析本地HTML文件报错的问题

使用lxml.etree.parse()解析html文件,该方法默认使用的是“XML”解析器,所以如果碰到不规范的html文件时就会解析错误,报错代码如下:lxml.etree.XMLSyntaxError: Opening and ending tag mismatch: meta line 3 and head, line 3, column 87解决办法:自己创建html解析器,增...

2018-07-18 15:56:57 6510 4

原创 Python3中使用 RSA加/解密

安装rsa模块:pip install rsa加解密过程:import rsa# rsa加密def rsaEncrypt(str):    # 生成公钥、私钥    (pubkey, privkey) = rsa.newkeys(512)    print(pubkey, privkey)    # 明文编码格式    content = str.encode('utf-8')    # 公钥加密...

2018-07-14 15:03:28 12971

原创 Filtered offsite request to 错误

用scrapy-redis进行数据爬取,遇到了问题:DEBUG: Filtered offsite request to 'www.xxx.com': 。。。  那就是request的地址和allow_domain里面的冲突而被过滤我的爬虫类继承自RedisSpider,是不需要写allowd_domains的解决方法:使用Request的参数dont_filter=True,即:yield Re...

2018-07-10 11:27:42 5332 1

原创 常见redis配置项

redis bind表示的是指定本机可以接受连接的网卡地址,redis使用该IP来接受外部的连接redis默认是不能被远程连接的,如果要接受远程连接,可以粗暴地注释掉下面的行:bind 127.0.0.1也可以指定一个redis服务器上的一个IP:bind 192.168.1.110关闭保护模式protected-mode no Redis默认不是以守护进程的方式运行,可以通过该配置项修改,使用y...

2018-07-07 15:54:04 2328

原创 scrapy-redis中redis的设置

阅读了几遍scrapy-redis的源码connection.py,根据注释终于弄清楚了redis的设置可以设置主机,端口和密码等在setting.py中添加如下代码:REDIS_HOST = “192.168.21.228” REDIS_PORT = 6379 REDIS_PARAMS = { ‘password’: ‘123456’, }...

2018-07-07 12:25:21 3307

转载 Python os.walk() 方法

转自:http://www.runoob.com/python/os-walk.html概述os.walk() 方法用于通过在目录树中游走输出在目录中的文件名,向上或者向下。os.walk() 方法是一个简单易用的文件、目录遍历器,可以帮助我们高效的处理文件、目录方面的事情。在Unix,Windows中有效。语法walk()方法语法格式如下:os.walk(top[, topdown=True[,...

2018-07-04 16:09:41 2428

原创 XX Spider.parse callback is not defined

scrapy报错之:XX Spider.parse callback is not defined解决办法:爬虫继承的父类改为CrawlSpider即可

2018-07-02 11:01:47 5302 1

原创 ImportError: No module named 'sgmllib'

scrapy项目下创建爬虫,竟然报错:ImportError: No module named 'sgmllib' 网上查了一下,有是版本问题,恶心死了,原因:sgmllib是2.6以后引入python,在3.0以后这个库被移除了。如果你的python版本<2.6或者>=3.0就找不到这个module。 如果你要使用已有的、依赖sgmllib的代码,安装python2.7等合适的版本。...

2018-07-02 10:26:54 7238 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除