- 博客(7)
- 资源 (4)
- 收藏
- 关注
原创 python之正则表达式(复杂篇)
前言继上篇文章说了正则表达式的基础用法,那今天我们就继续说一下正则表达式的复杂的用法。好了,废话不多说,直接进入正题。正文情景:当你想要匹配一个qq号,qq号码长度为5-10位,那根据上篇文章的说法,很容易就可以想到该正则:[0-9]{5,10}这样是可以的,但是当你匹配一个长度大于10的号码时就会出错,这时就会去该字符串的前10个数字出来,如下:import ...
2018-08-22 23:06:18 1999
原创 python之正则表达式(基础篇)
前言在向网页进行了提交请求之类的之后,我们可以得到了网页的返回内容,里面自然而然会有我们想要的数据,但是html元素文本这么多,我们不可能一 一去找我们需要的数据,这时就需要用到正则表达式了,正则表达式是学爬虫必须学的内容,而且不止python可以用,java等其他语言都可以用,所以学了好处大大。正文什么是正则表达式?正则表达式就是一个特殊的字符序列,可以用于检测一个字符串...
2018-08-22 22:12:44 898
原创 Python之requests库的基本使用(填坑)
前言在使用了urllib库之后,感觉很麻烦,比如获取个cookie都需要分几步,代码又多,又繁,那有没有更加容易点的请求库呢?答案是有的,那就是第三方库requests,这个库的作者是大名鼎鼎的kennethreitz,创作这个库的原因就是想让python开发者更加容易地发起请求,处理请求。里面还有个名字:HTTP for Humans,顾名思义,就是用来请求http的。想看源代码的可以在gi...
2018-08-19 00:50:17 2245
原创 Python之urlib库的基本使用(填坑)
以下为个人在学习Python过程中做的笔记总结之爬虫常用库urllib前言urlib库为python3的HTTP内置请求库urilib的四个模块:urllib.request:用于获取网页的响应内容urllib.error:异常处理模块,用于处理异常的模块urllib.parse:用于解析urlurllib.robotparse:用于解析robots.txt,主要用于看哪些...
2018-08-18 17:43:49 4497
原创 Jupyter Notebook 快速入门
Jupyter NotebookJupyter Notebook(此前被称为 IPython notebook)是一个交互式笔记本,支持运行 40 多种编程语言。在本文中,我们将介绍 Jupyter notebook 的主要特性,以及为什么对于希望编写漂亮的交互式文档的人来说是一个强大工具。Jupyter 主界面在开始使用 notebook 之前,我们先需要安装该库。你可以在 ...
2018-08-15 16:32:06 502
原创 python网络爬虫实例:Requests+正则表达式爬取猫眼电影TOP100榜
一、前言最近在看崔庆才先生编写的《Python3网络爬虫开发实战》这本书,学习了requests库和正则表达式,爬取猫眼电影top100榜单是这本书的第一个实例,主要目的是要掌握requests库和正则表达式在实际案例中的使用。二、开发环境运行平台: Windows 10 Python版本: Python3.6 IDE: PyCharm三、爬取思路抓取单页内容正则表达...
2018-08-07 14:03:11 3720 1
转载 有趣的代码:一行Python代码能干嘛?
前言python有很多优雅有趣的代码写法,同时还很简短,以至于当我刚开始接触这个编程语言的时候,就爱不释手。而前几天的编程语言榜单中python也超越了java成为了第一,挺替python开心的。python到底有多有趣呢?一行代码告诉你!正文1)画爱心print('\n'.join([''.join([('WangGangdan'[(x-y)%10]if((x*0...
2018-08-02 13:44:07 88831 13
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人