Python
the_fool_
这个作者很懒,什么都没留下…
展开
-
【python3两小时快速入门】入门笔记01:基础
又要我搞爬虫了,这次的源网站使用的ajax加载数据,我用java爬下来的页面内容部分全都是空,虽然java也有插件,但是使用起来感觉很麻烦,所以,python!老子来了。 1、 版本:python3肯定选3啊,据说23版本差异巨大,但是3也出来很久了,第三方类库估计都肯定跟上了;再说IT这行业,学新不学 旧,所以,直接安装了python3并且配置完成环境变量.环境变量啊配置方法百度。 ...原创 2018-06-27 15:10:40 · 5693 阅读 · 0 评论 -
【python3两小时快速入门】入门笔记02:类库导入
昨晚遇到了一个问题:pip下载了request类库,以及在pyCharm的setting中下载了request类库,项目左侧也能显示出requst文件夹,但是引入报错! 这里贴一下我的解决方案,在此记录一下: 1、我系统中环境变量配置的python地址:P:\python33 cmd进入P:\python33\Scripts下 ...原创 2018-06-28 14:54:02 · 265 阅读 · 0 评论 -
【python3两小时快速入门】入门笔记03:简单爬虫+多线程爬虫
作用,之间将目标网页保存金本地 1、爬虫代码修改自网络,目前运行平稳,博主需要的是精准爬取,数据量并不大,暂未加多线程。 2、分割策略是通过查询条件进行分类,循环启动多条线程。 1、单线程简单爬虫(第二次整理) import urllib.parse import urllib.request import os import datetime import json #获取页面数...原创 2018-06-28 15:11:10 · 811 阅读 · 0 评论 -
【python3两小时根本不够】入门笔记04:线程+Lock安全同步
有了简单爬虫,但是效率实在是太慢,于是决定启用线程进行爬取数据但是对于临界资源的定义不好把握,思路如下:1、定义队列(Queue的数据结构,List也可,安全性待考究)2、对页码数++的部分进行加锁在此之前,要讲一下继承,网上看了一个博主写的两个demo清晰明了,列在下面:以下代码为博主转载,个人记录做笔记用,尊重原博主原创,侵删: ...原创 2018-06-30 10:12:35 · 244 阅读 · 0 评论 -
【python】UnicodeDecodeError: 'utf-8' codec can't decode byte 0x8b in position 1: invalid start byte
header中干掉 "Accept-Encoding": "gzip, deflate, br", 注意:原创 2019-04-10 14:59:07 · 801 阅读 · 0 评论