2018年09月_Kwoky

原创 BeautifulSoup解析出不含子节点的文本

tag_p = """<p> 目标文本 <a>子节点文本</a></p>"""bs4_p = BeautifulSoup(tag_p)print(bs4_p.p.contents)print(bs4_p.p.contents[0].strip())

2018-09-28 21:57:43 6603

原创提示账户不被允许使用docker的情况

windows10下启动docker，报错：docker for windows access denied.You are not allow to use Docker You must be in the "ducker-user" group 设置用户组权限 ...

2018-09-25 22:05:59 6755 3

原创 scrapyd出现KeyError: 'url'的问题

查看当前可用的于部署到scrapyd服务中的爬虫出现了如下错误：(env2) E:\Python\代码\scrapy\JobSpider>scrapyd-deploy -lTraceback (most recent call last): File "d:\test\vritualenv\env2\Scripts\scrapyd-deploy", line 292, in &lt...

2018-09-21 17:29:50 6896

原创 window下scrapyd-client安装的问题

在windows上使用scrapyd-client 安装后，并不能使用相应的命令'scrapyd-deploy' 需要在"D:\test\vritualenv\env2\Scripts" 目录下新建批处理文件scrapyd-deploy.bat：内容：@echo off "d:\test\vritualenv\env2\scripts\python.exe" "d:\test...

2018-09-21 16:51:16 3028

默认情况下，MongoDB 的每个数据库的命名空间保存在一个 16MB 的 .ns 文件中，平均每个命名占用约 628 字节，也即整个数据库的命名空间的上限约为 24000。每一个集合、索引都将占用一个命名空间。所以，如果每个集合有一个索引（比如默认的 _id 索引），那么最多可以创建 12000 个集合。如果索引数更多，则可创建的集合数就更少了。同时，如果集合数太多，一些操作也会变慢。不过，...

2018-09-21 16:07:58 9862

原创 print实时打印的问题

想实现下载进度的打印，就想着用print不断打印█来实现。想把内容打印在一行，很自然的想到了print的end参数import timefor i in range(10): print('█',end='') time.sleep(0.5)测试发现内容不是实时打印，而是等到计时结束的时候一次打印，这不是我想要的效果，后来知道了解决的方法：import time...

2018-09-20 10:23:55 2933

原创 GIL全局解释器锁

并发：进行交替处理多件事情。并行：多个cpu同时处理多个事，只在多核上能实现。 GIL是全局解析器锁，保证同一时刻只有一个线程可以使用cpu，让我们的多线程没办法真正实现并行。在一个进程中只有一个GIL锁，那个线程拿到GIL就可以使用cpu多个进程有多个GIL锁什么时候会释放GIL锁？1 、遇到像 i/o操作这种会有时间空闲造成cpu闲置的情况会释放GIL。 2 、会...

2018-09-19 12:52:45 2352

原创 Appium 安装app 权限问题

autoGrantPermissions （Android Only）Have Appium automatically determine which permissions your app requires and grant them to the app on install. Defaults to falsedesired_caps['autoGrantPermission...

2018-09-18 18:11:18 5692 2

原创安装pip

安装pip，在控制台下输入“easy_install pip”老记不住，做个笔记

2018-09-18 11:52:38 2292

原创 selenium+chrome代理ip的使用

ip = '123.157.67.30:34942'chome_options = webdriver.ChromeOptions()chome_options.add_argument(('--proxy-server=http://' + ip))url = 'http://www.gsxt.gov.cn/index.html'driver = webdriver.Chrome(c...

2018-09-17 14:01:59 12843

转载多表关联更新

转自：https://blog.csdn.net/chdyiboke/article/details/78140015 有A、B张表，其记录如下：A表c1 c2--------------1 a12 a23 a38 a8B表c1 c3--------------1 b12 ...

2018-09-17 12:42:42 2415

原创 assert断言的使用

在没完善一个程序之前，我们不知道程序在哪里会出错，与其让它在运行时崩溃，不如在出现错误条件时就崩溃，这时候就需要assert断言的帮助。python assert断言是声明其布尔值必须为真的判定，如果发生异常就说明表达示为假。可以理解assert断言语句为raise-if-not，用来测试表示式，其返回值为假，就会触发异常。assert 1==1assert 2+2==2*2asser...

2018-09-16 15:34:38 2617 1

原创 python中base64编码与解码

Base64是一种用64个字符来表示任意二进制数据的方法。用记事本打开exe、jpg、pdf这些文件时，我们都会看到一大堆乱码，因为二进制文件包含很多无法显示和打印的字符，所以，如果要让记事本这样的文本处理软件能处理二进制数据，就需要一个二进制到字符串的转换方法。Base64是一种最常见的二进制编码方法。Base64的原理很简单，首先，准备一个包含64个字符的数组：['A', 'B',...

2018-09-14 17:10:20 4884

原创 fiddler的响应显示乱码问题

fiddler中Response出现乱码，这是因为HTML被压缩了解决方法1：点击Response Raw上方的"Response is encoded. click to decode"按钮，该响应的乱码文字立刻正常显示中文。方法2：选中工具栏中的"Decode"。这样会自动解压缩。Decode按钮为选中状态后，再次发送请求，响应都自动解压，显示中文，若不想自动解压，可取消选中...

2018-09-04 17:08:49 3647

原创 scrapy-redis中DEBUG: Filtered offsite request to xxx问题的解决办法

使用scrapy-redis开发分布式爬虫，既想使用分布式，又想用Rule规则实现深度爬取，所以使用了RedisCrawlSpider但是出现了警告信息： Filtered offsite request to xxx解决的办法就是在setting.py中设置:SPIDER_MIDDLEWARES = { 'scrapy.spidermiddlewares.offsite.Of...

2018-09-03 23:52:24 3198 2

Kwoky的博客