- 博客(15)
- 收藏
- 关注
原创 BeautifulSoup解析出不含子节点的文本
tag_p = """<p> 目标文本 <a>子节点文本</a></p>"""bs4_p = BeautifulSoup(tag_p)print(bs4_p.p.contents)print(bs4_p.p.contents[0].strip())
2018-09-28 21:57:43 6603
原创 提示账户不被允许使用docker的情况
windows10下启动docker,报错:docker for windows access denied.You are not allow to use Docker You must be in the "ducker-user" group 设置用户组权限 ...
2018-09-25 22:05:59 6755 3
原创 scrapyd出现KeyError: 'url'的问题
查看当前可用的于部署到scrapyd服务中的爬虫出现了如下错误:(env2) E:\Python\代码\scrapy\JobSpider>scrapyd-deploy -lTraceback (most recent call last): File "d:\test\vritualenv\env2\Scripts\scrapyd-deploy", line 292, in <...
2018-09-21 17:29:50 6896
原创 window下scrapyd-client安装的问题
在windows上使用scrapyd-client 安装后,并不能使用相应的命令'scrapyd-deploy' 需要在"D:\test\vritualenv\env2\Scripts" 目录下新建批处理文件scrapyd-deploy.bat:内容:@echo off "d:\test\vritualenv\env2\scripts\python.exe" "d:\test...
2018-09-21 16:51:16 3028
原创 MongoDB数据库最多可创建多少集合?
默认情况下,MongoDB 的每个数据库的命名空间保存在一个 16MB 的 .ns 文件中,平均每个命名占用约 628 字节,也即整个数据库的命名空间的上限约为 24000。每一个集合、索引都将占用一个命名空间。所以,如果每个集合有一个索引(比如默认的 _id 索引),那么最多可以创建 12000 个集合。如果索引数更多,则可创建的集合数就更少了。同时,如果集合数太多,一些操作也会变慢。不过,...
2018-09-21 16:07:58 9862
原创 print实时打印的问题
想实现下载进度的打印,就想着用print不断打印█来实现。想把内容打印在一行,很自然的想到了print的end参数import timefor i in range(10): print('█',end='') time.sleep(0.5)测试发现内容不是实时打印,而是等到计时结束的时候一次打印,这不是我想要的效果,后来知道了解决的方法:import time...
2018-09-20 10:23:55 2933
原创 GIL全局解释器锁
并发:进行交替处理多件事情。并行:多个cpu同时处理多个事,只在多核上能实现。 GIL是全局解析器锁,保证同一时刻只有一个线程可以使用cpu,让我们的多线程没办法真正实现并行。在一个进程中只有一个GIL锁,那个线程拿到GIL就可以使用cpu多个进程有多个GIL锁 什么时候会释放GIL锁?1 、遇到像 i/o操作这种会有时间空闲造成cpu闲置的情况会释放GIL。 2 、会...
2018-09-19 12:52:45 2352
原创 Appium 安装app 权限问题
autoGrantPermissions (Android Only)Have Appium automatically determine which permissions your app requires and grant them to the app on install. Defaults to falsedesired_caps['autoGrantPermission...
2018-09-18 18:11:18 5692 2
原创 selenium+chrome代理ip的使用
ip = '123.157.67.30:34942'chome_options = webdriver.ChromeOptions()chome_options.add_argument(('--proxy-server=http://' + ip))url = 'http://www.gsxt.gov.cn/index.html'driver = webdriver.Chrome(c...
2018-09-17 14:01:59 12843
转载 多表关联更新
转自:https://blog.csdn.net/chdyiboke/article/details/78140015 有A、B张表,其记录如下:A表c1 c2--------------1 a12 a23 a38 a8B表c1 c3--------------1 b12 ...
2018-09-17 12:42:42 2415
原创 assert断言的使用
在没完善一个程序之前,我们不知道程序在哪里会出错,与其让它在运行时崩溃,不如在出现错误条件时就崩溃,这时候就需要assert断言的帮助。python assert断言是声明其布尔值必须为真的判定,如果发生异常就说明表达示为假。可以理解assert断言语句为raise-if-not,用来测试表示式,其返回值为假,就会触发异常。assert 1==1assert 2+2==2*2asser...
2018-09-16 15:34:38 2617 1
原创 python中base64编码与解码
Base64是一种用64个字符来表示任意二进制数据的方法。用记事本打开exe、jpg、pdf这些文件时,我们都会看到一大堆乱码,因为二进制文件包含很多无法显示和打印的字符,所以,如果要让记事本这样的文本处理软件能处理二进制数据,就需要一个二进制到字符串的转换方法。Base64是一种最常见的二进制编码方法。Base64的原理很简单,首先,准备一个包含64个字符的数组:['A', 'B',...
2018-09-14 17:10:20 4884
原创 fiddler的响应显示乱码问题
fiddler中Response出现乱码, 这是因为HTML被压缩了解决方法1:点击Response Raw上方的"Response is encoded. click to decode"按钮,该响应的乱码文字立刻正常显示中文。方法2:选中工具栏中的"Decode"。 这样会自动解压缩。Decode按钮为选中状态后,再次发送请求,响应都自动解压,显示中文,若不想自动解压,可取消选中...
2018-09-04 17:08:49 3647
原创 scrapy-redis中DEBUG: Filtered offsite request to xxx问题的解决办法
使用scrapy-redis开发分布式爬虫,既想使用分布式,又想用Rule规则实现深度爬取,所以使用了RedisCrawlSpider但是出现了警告信息: Filtered offsite request to xxx解决的办法就是在setting.py中设置:SPIDER_MIDDLEWARES = { 'scrapy.spidermiddlewares.offsite.Of...
2018-09-03 23:52:24 3198 2
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人