自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(65)
  • 收藏
  • 关注

原创 python面试中较常问及的知识点梳理---高级特性

• 高级特性1.函数装饰器有什么作用?请列举说明?2. Python 垃圾回收机制?3. 魔法函数 _call_怎么使用?4. 如何判断一个对象是函数还是方法?5. @classmethod 和 @staticmethod 用法和区别6. Python 中的接口如何实现?7. Python 中的反射了解么?8. metaclass 作用?以及应用场景?9. hasattr()、g...

2019-08-28 10:27:49 2005

原创 解决pip安装matplotlib过程中Could not find a version that satisfies the requirement pyparsing问题

Win10,Python3.7,在安装matplotlib中途Collecting pyparsing步骤报错,Collecting pyparsing!=2.0.4,!=2.1.2,!=2.1.6,>=2.0.1 (from matplotlib)Could not find a version that satisfies the requirement pyparsing!=2.0...

2019-08-17 15:01:20 22433 17

原创 解决windows pip安装时提示Microsoft Visual C++ 14.0 is required.

win10,在用pip安装wordcloud时遇到问题:error: Microsoft Visual C++ 14.0 is required. Get it with “Microsoft Visual C++ Build Tools”: https://visualstudio.microsoft.com/downloads/,官方给的链接又一时找不到哪个是我需要装的Microsoft ...

2019-08-17 14:19:13 1436 1

原创 python中try except异常处理的使用

https://baijiahao.baidu.com/s?id=1594434243519686727&wfr=spider&for=pc

2019-08-16 20:31:48 452

原创 python中strftime和strptime区别及timedelta用法

strftime是转换为特定格式输出,按照想要的格式去转换。strptime是将一个(时间)字符串解析为时间的一个类型对象,不管什么格式,只要把特定的时间字符串转成时间类型即可。timedalte 是datetime中的一个对象,该对象表示两个时间的差值构造函数:datetime.timedelta(days=0, seconds=0, microseconds=0, millisecon...

2019-08-15 14:39:29 1501

原创 python中正则表达式用法

https://www.runoob.com/python/python-reg-expressions.html开头放个正则表达式解释:解析:首先,这是一个字符串,前面的一个 r 表示字符串为非转义的原始字符串,让编译器忽略反斜杠,也就是忽略转义字符。但是这个字符串里没有反斜杠,所以这个 r 可有可无。实例:#!/usr/bin/pythonimport reline = "Cat...

2019-08-15 12:33:19 315

原创 python中Pandas.DataFrame简介及用法

https://www.cnblogs.com/IvyWong/p/9203981.htmlhttps://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.to_excel.htmlDataFrame是Python中Pandas库中的一种数据结构,它类似excel,是一种二维表。或许说它可能有点像matl...

2019-08-15 10:57:14 1238

原创 python中if __name__=='__main__'

https://www.cnblogs.com/chenhuabin/p/10118199.htmlhttps://www.cnblogs.com/guoyaohua/p/9059522.htmlif __name__ == '__main__'无论是否指定入口函数都是从上到下执行,只不过条件为真实,才会执行if下面的代码。就相当于是 Python 模拟的程序入口。Python 本身并没有规...

2019-08-14 18:37:44 129

原创 Python strip()方法

Python strip()方法描述Python strip() 方法用于移除字符串头尾指定的字符(默认为空格或换行符)或字符序列。注意:该方法只能删除开头或是结尾的字符,不能删除中间部分的字符。语法strip()方法语法:str.strip([chars]);参数chars – 移除字符串头尾指定的字符序列。返回值返回移除字符串头尾指定的字符生成的新字符串。实例以下实例展...

2019-08-14 16:47:26 217

原创 python中 requests.timeout用法

超时(timeout)为防止服务器不能及时响应,大部分发至外部服务器的请求都应该带着 timeout 参数。在默认情况下,除非显式指定了 timeout 值,requests 是不会自动进行超时处理的。如果没有 timeout,你的代码可能会挂起若干分钟甚至更长时间。连接超时指的是在你的客户端实现到远端机器端口的连接时(对应的是 connect() ),Request 会等待的秒数。一个很好的...

2019-08-14 14:05:10 4731 1

原创 进程池和multiprocess.Pool模块

https://www.cnblogs.com/huangjm263/p/8418200.htmlhttps://blog.csdn.net/brucewong0516/article/details/85788202为什么要有进程池首先,创建进程需要消耗时间,销毁进程也需要时间。其次,即使开启了成千上万的进程,操作系统也不能让它们同时执行,这样反而会影响程序的效率。因此我们不能无限制的根据...

2019-08-14 13:50:32 316

原创 Python 模块简介 -- warnings

http://blog.konghy.cn/2017/12/16/python-warnings/Python 通过调用 warnings 模块中定义的 warn() 函数来发出警告。警告消息通常用于提示用户一些错误或者过时的用法,当这些情况发生时我们不希望抛出异常或者直接退出程序。警告消息通常写入 sys.stderr,对警告的处理方式可以灵活的更改,例如忽略或者转变为为异常。警告的处理可以根...

2019-08-14 13:46:01 1089

原创 几个反反爬手段

反反爬的主要思路尽可能的去模拟浏览器,浏览器在如何操作,代码中就如何去实现。浏览器先请求了地址url1,保留了cookie在本地,之后请求地址url2,带上了之前的cookie,代码中也可以这样去实现。很多时候,爬虫中携带的headers字段,cookie字段,url参数,post的参数很多,不清楚哪些有用,哪些没用的情况下,只能够去尝试,因为每个网站都是不相同的。当然在盲目尝试之前,可以参考...

2019-08-13 16:40:02 287

原创 MySQL与MongoDB对比及应用场景区别

MySQL关系型数据库。在不同的引擎上有不同 的存储方式。查询语句是使用传统的sql语句,拥有较为成熟的体系,成熟度很高。开源数据库的份额在不断增加,mysql的份额页在持续增长。缺点就是在海量数据处理的时候效率会显著变慢。Mongodb非关系型数据库(nosql ),属于文档型数据库。先解释一下文档的数据库,即可以存放xml、json、bson类型系那个的数据。这些数据具备自述性(...

2019-08-13 15:24:15 236

原创 python面试中较常问及的知识点梳理---列表&字典&综合部分

• 数据类型 - 列表1.已知 AList = [1,2,3,1,2],对 AList 列表元素去重,写出具体过程。2.如何实现 “1,2,3” 变成 [“1”,“2”,“3”]3.给定两个 list,A 和 B,找出相同元素和不同元素4. [[1,2],[3,4],[5,6]] 一行代码展开该列表,得出 [1,2,3,4,5,6]5. 合并列表 [1,5,7,9] 和 [2,2,6,8...

2019-07-30 16:23:08 751

原创 python面试中较常问及的知识点梳理---字符串

1.列举 Python 中的基本数据类型?2. 如何区别可变数据类型和不可变数据类型3. 将"hello world"转换为首字母大写"Hello World"4. 如何检测字符串中只含有数字?5. 将字符串"ilovechina"进行反转6. Python 中的字符串格式化方式你知道哪些?7. 有一个字符串开头和末尾都有空格,比如“ adabdw ”,要求写一个函数把这个字符串的前后...

2019-07-30 11:08:54 243

原创 python面试中较常问及的知识点梳理---操作部分

• 操作类题目o 1. Python 交换两个变量的值o 2. 在读文件操作的时候会使用 read、readline 或者 readlines,简述它们各自的作用o 3. json 序列化时,可以处理的数据类型有哪些?如何定制支持 datetime 类型?o 4. json 序列化时,默认遇到中文会转换成 unicode,如果想要保留中文怎么办?o 5. 有两个磁盘文件 A 和 B,各存...

2019-07-24 16:26:51 365

原创 python面试中较常问及的知识点梳理---综合部分

o 1. 解释一下 Python 中 pass 语句的作用?o 2. 简述你对 input()函数的理解o 3. Python 中的 is 和==o 4. Python 中的作用域o 5. 三元运算写法和应用场景?o 6. 了解 enumerate 么?o 7. 列举 5 个 Python 中的标准模块o 8. 如何在函数中设置一个全局变量o 9. pathlib 的用法举例o ...

2019-07-23 16:31:06 1158

原创 python面试中较常问及的知识点梳理---网络编程&并发部分

• 网络编程o 1. TCP 和 UDP 的区别?o 2. 简要介绍三次握手和四次挥手o 3. 什么是粘包? socket 中造成粘包的原因是什么? 哪些情况会发生粘包现象?• 并发o 1. 举例说明 concurrent.future 的中线程池的用法o 2. 说一说多线程,多进程和协程的区别。o 3. 简述 GILo 4. 进程之间如何通信o 5. IO 多路复用的作用?o...

2019-07-22 23:21:21 237

原创 python面试中较常问及的知识点梳理---爬虫及正则部分

在 requests 模块中,requests.content 和 requests.text 什么区别简要写一下 lxml 模块的使用方法框架说一说 scrapy 的工作流程scrapy 的去重原理scrapy 中间件有几种类,你用过哪些中间件你写爬虫的时候都遇到过什么?反爬虫措施,你是怎么解决的?为什么会用到代理?代理失效了怎么处理?列出你知道 header 的内容以及信息...

2019-07-22 17:37:54 672

原创 python爬有道翻译,同时模拟实现本地窗口

前端,是一种GUI软件。而我们现在要用的是Python里的一个模块实现本地窗口的功能。它就是Tkinter~Tkinter 模块是 Python 的标准 Tk GUI 工具包的接口。Tk 和 Tkinter 可以在大多数的 Unix 平台下使用,同样可以应用在 Windows 和 MacOS系统里。Tk8.0 的后续版本可以实现本地窗口风格,并良好地运行在绝大多数平台中。import r...

2019-07-18 20:06:09 226

原创 python中hashlib模块的简单使用

第一次听,简单做了下实验,贴个代码以免往后忘记用法>>> import hashlib>>> hash = hashlib.md5()>>> hash.update(bytes('小菲菲',encoding='utf-8'))>>> print(hash.hexdigest())cdc944d1644a882048e...

2019-07-18 11:09:40 151

原创 爬取饿了么某一地址附近全部商家

如下是爬取饿了么某一地址附近全部商家的简单实现,可细化点:1.发现同一手机号请求验证码3次后被要求图形验证,还没去研究解决方法.简单加了个KeyError跳过.import requestssession = requests.session()headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) Ap...

2019-07-16 13:56:14 2029

原创 借助Python发表博客评论

#借助Python发表博客评论import requests,jsonsession = requests.session()#创建会话。headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.11...

2019-07-12 14:08:25 432

原创 csv&excel的写入及读取

csv:写入:0.首先导入模块import csv1.创建文件open('newone.csv','w',encoding='utf-8',newline='')2.创建对象csv.writer(newfile)3.写入内容:XX.writerow([XX','XX'])4.关闭文件newfile.close()读取:1.打开文件:csv_file =...

2019-06-30 13:38:19 1498

原创 python写入csv文件用excel打开是乱码

用以下代码写入csv文件,明明已经utf-8了,用Excel打开却是乱码,百度之后顺利找到解决方法, 原来把excel设置成自文本就行…import csvnewfile = open('newone.csv','w',encoding='utf-8',newline='')wr = csv.writer(newfile)wr.writerow(['姓名','角色'])wr.writ...

2019-06-29 14:48:56 5718 4

原创 爬取qq音乐评论完整代码

import requests,openpyxlwb=openpyxl.Workbook() #创建工作薄sheet=wb.active #获取工作薄的活动表sheet.title='restaurants' #工作表重命名sheet['A1'] ='歌曲名' #加表头,给A1单元格赋值sheet['B1'] ='所属专辑' #加表头,给B1单元格赋值sheet[...

2019-06-17 11:25:23 2251

原创 大白话版爬虫原理html是啥以及requests/json/beautifulsoup咋用

html是一种文件格式,可以用浏览器打开。html文件可以被查看、编辑、修改。一个网页由哪几部分组成:标签:网页上充满标签。标签由两部分构成——开始标签和结束标签。正常情况下,二者内容一致,但结束标签会多一个符号“/”,构成一个完整的标签。少数情况会以<文字文字文字/>,或者<文字文字文字>出现.开始标签示例结束标签示例< head>...

2019-06-14 13:06:53 969

原创 python不同方式爬qq音乐(get)及网易云(post)某歌手单曲歌名

本来想爬网易云,发现打开request url是空的,无解…幸好QQ音乐没有嫌弃我这个小白…#尝试爬取QQ音乐陈粒歌名,import requests,jsonurl = "https://c.y.qq.com/soso/fcgi-bin/client_search_cp?ct=24&qqmusic_ver=1298&new_json=1&remoteplac...

2019-06-14 10:49:50 1594

原创 文本类及图片音视频类内容内容爬取顺序

(一)文本类:引用requests模块 import requestsrequests.get(‘url’)下载open(’《XXX.txt’,‘w’)创建一个txt文档for循环遍历for words in XXX.text:try:XXX(比如k.write(words))except:passcontinue关闭文档k.close()(二)...

2019-06-13 15:54:59 274

原创 几个python中最常引用的模块

记录下python中一些经常用到的模块随时更新...目录1.requests模块2.bs4(BeautifulSoup)3.urllib(request)4.os5.threading6.time7.random8.re9.sys10.pyquery(PyQuery)11.importlib12.importlib.reload13.lx...

2019-06-12 10:36:37 379

原创 http和https区别

httphttp的全称是Hypertext Transfer Protocol Vertion (超文本传输协议),说通俗点就是用网络链接传输文本信息的协议,要获得网络上超文本信息,必须要遵循其超文本传输的规范.httpshttps的全称是Secure Hypertext Transfer Protocol(安全超文本传输协议),它是一个安全通信通道,它基于HTTP开发,用于在客户计算机和服...

2019-06-10 16:31:15 171

原创 centos外网访问不了网站,服务器里能访问

可能是防火墙开着.关掉试试哈哈哈哈哈哈哈哈iptables stop怕有风险不想关?可以试试添加防火墙规则.添加iptables规则首先添加INPUT链,INPUT链的默认规则是DROP,所以我们就写需要ACCETP(通过)的链。为了能采用远程SSH登陆,我们要开启22端口。[root@tp ~]# iptables -A INPUT -p tcp --dport 22 -j ...

2019-06-10 14:23:37 1239

原创 vim命令相关

最常用:编辑文本后, 先按ESC,然后:wq(保存并退出),:q!(不保存并强制退出),i进入vim模式。全::w 保存文件但不退出vi:w file 将修改另外保存到file中,不退出vi:w! 强制保存,不推出vi:wq 保存文件并退出vi:wq! 强制保存文件,并退出viq: 不保存文件,退出vi:q! 不保存文件,强制退出vi:e! 放弃所有修改,从上次保存文件开始再编...

2019-06-04 14:53:17 134

原创 Xpath简介及用法整理

一、XPath的介绍与配置1 XPath是什么?XPath,即XML路径语言(XML Path Language),它是一门在XML文档中查找信息的语言。它最初是用来搜寻XML文档的,但是它同样适用于HTML文档的搜索。所以在做爬虫时,我们完全可以使用XPath来做相应的信息抽取简言之,XPath是一门语言,可以在XML文档中查找信息,支持HTML,通过元素和属性进行导航;XPath用以提...

2019-06-03 15:45:10 4091

原创 urllib借鉴二

urlib库为python3的HTTP内置请求库urilib的四个模块:urllib.request:用于获取网页的响应内容urllib.error:异常处理模块,用于处理异常的模块urllib.parse:用于解析urlurllib.robotparse:用于解析robots.txt,主要用于看哪些网站不能进行爬取,不过少用一、urllib.requesturllib.reques...

2019-06-03 14:03:03 147

原创 urllib借鉴一

官方文档网址:https://docs.python.org/3/library/urllib.htmlurllib是python内置的HTTP请求库,包括以下模块:1)urllib.request 请求模块2)urllib.error 异常处理模块3)urllib.parse url解析模块4)urllib.robotparser robots.txt解析模块urlopen关于...

2019-06-03 13:51:09 129

原创 Scrapy爬虫框架

Scrapy爬虫框架是一个使用Python编程语言编写的爬虫框架, 它不仅可以实现对web上信息的高效、准确、自动的获取,还利于研究人员对采集到的数据进行后续的挖掘分析。应用场景:数据采集、数据挖掘、网络异常用户检测、存储数据等方面。Scrapy架构示意图:Scrapy使用了Twisted异步网络库来处理网络通讯。整体架构大致如下图所示。Scrapy爬虫框架主要组成部分:1)Scra...

2019-06-03 13:01:14 220

原创 网络数据抓取的工作原理及工作流程

爬虫基本流程发起请求:浏览器发送消息给该网址所在的服务器,这个过程叫做HTTP Request。而爬虫通过模拟浏览器的HTTP库向目标站点发送一个Request(可以包含额外的headers等信息),等待服务器响应。Request详解请求方式:主要有GET、POST两种类型,另外还有HEAD、PUT、DELETE、OPTIONS等。请求URL:URL全称统一资源定位符,如一个网页文档...

2019-06-03 12:38:58 2434

原创 python打印右上九九乘法表用format函数填充

打印右上九九乘法表用format函数填充;for i in range(1,10): s='' for j in range(i,10): s += '{}*{}={:<{}}'.format(i,j,i*j,2 if j<4 else 3 print('{:>80}'.format(s))...

2019-06-03 11:22:39 1423

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除