2019年12月_MengDiLI

原创 python爬虫进程池，线程池，异步，的使用

也就是说本文使用的多进程，多线程，异步爬虫，适合没有顺序要求的爬取需求，比如你爬取楼盘网，哪个楼盘信息先入库其实问题不大吧。本文章爬取的小说放在了一个文件里，所以使用多进程，多线程，异步，会导致文章顺序不对。简直可以用恐怖形容，当然这里我们没有规定最大请求数，而进程和线程我们都限制了10条，但是异步请求的速度还是真的可观。任务量多的时候可以考虑使用，因为任务多，值得我们搞一些稳定的代理，也就不担心速度快被封了。但是打印顺序是乱的，其实很好理解，有的进程跑得慢，有的进程跑得快。

2019-12-27 09:59:22 1099

原创 python两列表对应元素求和

一种方法是循环，但是有简便方法，用numpyimport numpy as nplist1=[1,2,3,4]list2=[1,2,3,4]a_array = np.array(list1)b_array = np.array(list2)c_arry=a_array+b_arrayprint(c_arry)列表中的数字是字符串形式的话import numpy as np...

2019-12-26 14:49:49 8271

原创 python爬虫破解简单的字体反爬

这两天一直在看字体反爬方面的文章，现在难一点的还没摸清怎么搞，但是58的品牌公寓的字体反爬相对简单一些，已经自己做出来了，特此记下来，也可以帮刚在这方面入门的小伙伴更快熟悉起来。整体代码我会在文末发出来。话不多说，开始正题打开58公寓的页面，链接点这里页面是这样的打开调试可以看到源码是乱码的用代码跑出来之后，是这样的很明显的，出现了字体反爬。一般这种反爬，网页文件里是会有他们自...

2019-12-25 17:50:34 937

原创 python打开xml文件并转为Beautiful格式

from xml.dom.minidom import parseimport xml.dom.minidom#打开xml文档dom = xml.dom.minidom.parse('newmy.xml')#转为字符串collection = dom.documentElement.toxml()print(type(collection))#转Beautifulsoup=Beau...

2019-12-25 14:09:29 155

原创 python的全文检索库Whoosh使用示例

pip install whoosh首先，我有一个xiaoshuo文件夹，装了几部小说直接上代码：首先是创建索引的文件from whoosh.filedb.filestore import FileStoragefrom whoosh.fields import *from jieba.analyse import ChineseAnalyzerimport osanaly...

2019-12-14 15:54:00 2079 1

原创批量取文件

file_dir='G:/2017年更新2018年楼盘/' for root, dirs, files in os.walk(file_dir): # print(root) # 当前目录路径 # print(dirs) # 当前路径下所有子目录 # print(files) # 当前路径下所有非目录子文件 for x...

2019-12-14 15:35:21 150 1

原创 python爬虫重试模块

from retrying import retry@ retry(stop_max_attempt_number = 10) #让被装饰的函数反复执行10次，10次全部报错才会报错，中间有一次正常就继续往下走def get_url(): pass...

2019-12-06 11:38:59 213 1

原创使用anaconda新建各种python版本虚拟运行环境（附pycharm设置运行环境）笔记

下载地址：https://www.anaconda.com/download/安装包下载下来之后，点击安装，自己定义选择安装到哪里，之后一路next到这里，就按他默认的这样不动。因为第一个是加环境变量，选择的话后面会有不少麻烦，后面咱们手动添加。第二个意思是默认使用python3.7然后耐心等待，中间电脑可能有提示木马修改啥的，全部允许了最后装好后配置环境变量配置好后打开命令行输入c...

2019-12-06 10:27:18 6343 4

李孟笛的博客