python/python爬虫
文章平均质量分 89
主要写一些python的相关知识和爬虫的知识
苦逼的虾
不管出于什么目的,都要提升学会提升自己!
展开
-
【python】InvalidHeader: Invalid return character or leading space in header: user-agent
运行爬虫代码时,出现这个错误:requests.exceptions.InvalidHeader: Invalid return character or leading space in header: user-agent小虾也查询了许多资料,终于找到解决方法:因为我们在复制网页的user-agent,如下图所示:画红圈的地方,多了个空格,把其删除了就好。删除了之后,一切就正常了。...原创 2020-08-14 22:31:50 · 3527 阅读 · 2 评论 -
【python爬虫】基本库_requests
requests: 在这篇博客里面,我们介绍了urlib库的使用(https://blog.csdn.net/qq_33432841/article/details/108007545),但它存在许多不方便的地方,例如在处理网页验证和Cookies时,需要写Opener和 Handler来处理。接下来介绍的requests对于上面的解决都不是问题。 在使用该库之前,要确保自己的电脑已经安装好 requests 库。 下面来看一个例子,学习一下:...原创 2021-03-31 21:48:50 · 176 阅读 · 0 评论 -
【python爬虫】基本库_urllib
【python爬虫】基本库_urlliburllib . request 模块**urlopen () 方法:****Request:****高级用法--强大的工具 Handle:**代理:处理异常:解析链接:urlparse():urlunparse():urlsplit():urlunsplit():urljoin():urlencode():parse_qs():parse_qsl():quote():unquote():分析 Robots 协议:Robots 协议:urllib . request原创 2020-08-14 16:29:32 · 281 阅读 · 0 评论 -
【Python】python内置模块 time 和 datetime 模块 详解
time 时间相关的操作,时间有三种表示方式:时间戳 1970年1月1日之后的秒,即:time.time() 格式化的字符串 2014-11-11 11:11, 即:time.strftime('%Y-%m-%d') 结构化时间 元组包含了:年、日、星期等... time.struct_time 即:time.localtime()其常包含的函数有:time.time(): 返回一个时间戳 time.asctime(...原创 2020-08-07 21:26:19 · 222 阅读 · 0 评论 -
【Python】python 模块_知识
定义: 模块:用来从逻辑上组织python代码(变量,函数,类,逻辑:实现一个功能),本质就是 .py 结尾的python文件(文件名:test.py ,对应的模块名:test) 包:用来从逻辑上组织模块的,本质就一个目录(必须带上一个__init__.py文件)模块分类:自定义模块 内置标准模块(又称标准库) 开源模块导入模块的方法: Python中提供许多可为程序员使用的模块,那么如果想要使用模块,则需要导入。导入模块有以下最常见的几种方法...原创 2020-08-07 12:32:00 · 115 阅读 · 0 评论 -
【Python】python比较常用的内置函数
python比较常用的内置函数(更新中)警告,长文预警!目录1.abs(x)2.all(iterable)3.any(iterable)4.bin(x)5.oct(x)6.hex(x)7.bool(x)8.bytes() 9.str() 10.chr()11.ord()12.@classmethod¶13.complie() 14.complex()15.dict()16.divmod()17.enumerate(...原创 2020-08-04 22:39:52 · 354 阅读 · 0 评论 -
【JSON】使用python 语言将 数据为 CSV格式 和Json 格式之间的转换
1、json格式转成csv格式import jsonfr=open("C:\\Users\\Administrator\\Desktop\\price2016.json","r") #打开json文件ls=json.load(fr) #将json格式的字符串转换成python的数据类型,解码过程data=[ list(ls[0].keys()) ] #获取列名,即keyfor ...原创 2020-08-04 21:43:47 · 2430 阅读 · 0 评论 -
【Python】python生成器
生成器 定义:Python中,一边循环一边计算的机制,称为生成器:generator(生成器是一类特殊的迭代器 https://blog.csdn.net/qq_33432841/article/details/107774634)生成器的由来: (1)列表所有数据都在内存中,如果有海量数据的话将会非常耗内存。 如:仅仅需要访问前面几个元素,那后面绝大多数元素占用的空间都白白浪费了。 (2)如果列表元素按照某种...原创 2020-08-04 18:00:21 · 323 阅读 · 0 评论 -
【Python】python的迭代器
一、迭代器 迭代器是访问集合元素的一种方式。 迭代器对象从集合的第一个元素开始访问,直到所有的元素被访问完结束。 迭代器的特点:访问者不需要关心迭代器内部的结构,仅需通过next()方法不断去取下一个内容 不能随机访问集合中的某个值 ,只能从头到尾依次访问 访问到一半时不能往回退 便于循环比较大的数据集合,节省内存小虾刚刚说了一些迭代器的特点,那么如果需要迭代器的话,肯定会涉及到迭代对象,那么接下来让我们看一下迭代对象都是有哪些吧! 可迭代对象分...原创 2020-08-03 23:05:48 · 266 阅读 · 0 评论 -
【Python】python装饰器_详解
装饰器: 定义:本质是函数(装饰其他函数),意思就是为其他函数添加附加功能。 原则:1.不能修改被装饰函数的源代码 2.不能修改被装饰函数的调用方式 实现装饰器,要具备的知识: 1.函数即变量 2.高阶函数(满足下面一个条件就是高阶函数) a:把一个函数名当做实参传递给另外一个函数 b:返回值中包含函数名 (不修改函数的调用方式) ...原创 2020-08-03 21:33:18 · 147 阅读 · 0 评论 -
【python】函数里面的参数(*args,**kwargs)代表什么意思
python函数中最常见的2个参数 *args,**kwargs,*args是非关键字参数,用于元组,**kw是关键字参数,用于字典下面具体来介绍:*args:关键标志为星号*,名称可以随意 当传入函数中的参数个数未知,且不需要知道参数名称时,使用*args。 传入函数中的几个参数组成元组例如:def func_arg(farg, *args): print("formal arg:", farg) print(args)func_arg(1,"youz...原创 2020-08-03 16:59:01 · 7416 阅读 · 1 评论 -
【python】ModuleNotFoundError: No module named 'nltk' 的解决方法
如果你报上面这个错误:直接一条命令解决问题:小虾的版本为python3.7.3版本的,所以用 pip3.7pip3.7 install -U nltk原创 2019-12-31 21:57:22 · 10008 阅读 · 7 评论 -
【Anaconda 更新失败 】使用 conda -upgrade --all 显示错误CondaHTTPError: HTTP 000 CONNECTION FAILED for url
在命令终端使用 conda -upgrade --all 更新Anaconda 报错,如下图所示:如果更新失败,一般原因是由于repo.continuum.io在国外,国内访问速度太慢造成。所以我们就需要修改相关内容,使用清华大学镜像。具体操作是: 更新本地配置文件(文件路径在: C:\用户\用户名\.condarc) -----找到这个文件(用记事本...原创 2019-12-16 16:08:30 · 4049 阅读 · 2 评论 -
【python】用python实现多个excel合并成一个excel文件------直接上代码
小虾也是参考了一些大神的代码,然后自己动手实现了一下,然后发布出来,有需要的来学习呀! 小虾在这儿提供2种方法来实现,但小虾比较喜欢第一种,容易而且好理解一点。第一种实现方法:# 导入需要使用的包import xlrd # 读取Excel文件的包import xlsxwriter # 将文件写入Excel的包source_xls = [...原创 2019-11-20 20:08:50 · 6568 阅读 · 10 评论 -
【python爬虫】如何在Windows下成功安装Scrapy(小虾的python版本是3.7.3)
小虾的python版本是python3.7.3,小虾在安装时候也遇到了许多错误,但最终还是找到一个比较好的办法,那就听小虾细细诉说:1.)由于scrapy依赖非常多的第三方库,又由于Scrapy的依赖库文件中,pywin32和Twisted的底层是基于C语言开发的,因此需要安装C语言的编译环境。对于Python3.7.3来说,可以通过安装Visual C++ Build Tools来安装这个环...原创 2019-08-30 14:45:26 · 258 阅读 · 0 评论 -
【python】SyntaxError: ‘unicodeescape’ codec can’t decode bytes in position XXX: trunc.错误的解决方案
Python 中 ‘unicodeescape’ codec can’t decode bytes in position XXX: trun错误解决方案 报下面的错误:SyntaxError: (unicode error) 'unicodeescape' codec can't decode bytes in position 2-3: truncate...原创 2019-09-09 19:54:57 · 1697 阅读 · 0 评论 -
【python】 AttributeError: module 'urllib.request' has no attribute 'post'
在导入 import requests 这个模块的时候报错,看下面的错误代码: AttributeError: module 'urllib.request' has no attribute 'post'这时候就要重装一下 requests这个模块了:下面是代码命令:pip install requests这是小虾的安装示意图:小虾用的是python3...原创 2019-09-21 15:47:52 · 2706 阅读 · 0 评论 -
【python】python错误集---------------------------python错误集--集装箱---------------------------(应该有你要找的哦!)
【1】ModuleNotFoundError: No module named 'nltk' 的解决方法 如果你报上面这个错误:直接一条命令解决问题:小虾的版本为python3.7.3版本的,所以用 pip3.7pip3.7 install -U nltk 【2】ModuleNotFoundError: No module nam...原创 2019-09-19 11:10:33 · 305 阅读 · 0 评论 -
【python】ImportError: Missing optional dependency 'xlrd'. Install xlrd >= 1.0.0 for Excel support Use
先跟着小虾看一下什么错误吧:ImportError: Missing optional dependency 'xlrd'. Install xlrd >= 1.0.0 for Excel support Use pip or conda to install xlrd.那么小虾就建议你按装一下xlrd这个模块。pip install xlrd这是小虾的安装示意图:小虾用...原创 2019-09-21 15:47:27 · 107478 阅读 · 14 评论 -
【python爬虫】python 中继承中涉及到super函数解析
今天小虾也是才接触到这个super函数,感觉有点绕,所以还是决定写一下。先说一下super函数的工作原理: def super(cls,inst): # 其中,cls代表类,inst代表实例,上面的代码做了两件事: ...原创 2019-08-28 14:30:15 · 166 阅读 · 0 评论