python新人笔记
文章平均质量分 73
gnipgnoy
这个作者很懒,什么都没留下…
展开
-
re 模块与正则表达式(实验楼学习笔记3)
re是Python自带库,该库使python语言拥有了全部的正则表达式功能。关于正则表达式在Python爬虫中的重要性,你可以把它上升到和HTML+JS的高度,如果你想对爬虫有比较深入的理解,正则表达式是必备技能之一。这里,我们的核心是利用第三方库提高我们的爬虫编写速度,故对正则表达式部分,仅仅是简单介绍。...原创 2022-07-15 15:01:53 · 276 阅读 · 1 评论 -
爬虫未来学习方向(实验楼最后一章节)
基础部分学完后,学习方向是从基础部分提高,到爬虫框架,到手机APP爬虫,再到分布式爬虫,每个领域都需要投入精力去学习与研究。为了不让你迷失到爬虫世界里,这里为你梳理了一条最简单、最直接的技术线。。...原创 2022-07-14 20:47:08 · 260 阅读 · 0 评论 -
Beautiful Soup 基础入门(实验楼学习笔记2)
接下来将学习用 Beautiful Soup 库来实现数据抓取。将会通过爬取世界大学校园排名和蓝桥云课课程的数据来讲解 Beautiful Soup 库的基础知识。它包括如何用 Beautiful Soup 库的解析器去解析页面内容、如何遍历和搜索标签树、如何提取出关键的数据并保存到列表或者字典里Beautiful Soup 库简单来说,就是一个可以从 HTML 或 XML 文件中提取数据的 Python 库。本次实验中,第一个例子是在 软科上去爬取 2021年软科类世界大学排名的数据。爬取的内容如下图所示原创 2022-07-13 10:55:43 · 418 阅读 · 0 评论 -
requests 库 get 方法详解(实验楼学习笔记1)
requests.get 方法是一种发起网络请求的方式,如果你对 HTML 和 JS 语言有所了解,这部分内容应该非常熟悉,和 get 方法类似的还有 post、 put、 delete、 head、 options,主要掌握get 与 post对于一个方法而言,最重要的就是它的参数,在 get 方法中,主要参数如下:url, 请求地址,必填项headers,请求头,非必填params,请求参数,非必填proxies,代理 IP,非必填verify,SSL 验证,非必填,主要用在访问 https 协原创 2022-07-13 10:30:56 · 3410 阅读 · 0 评论 -
迭代器、生成器、装饰器
目录迭代器生成器生成器表达式闭包装饰器迭代器Python 迭代器(_Iterators_)对象在遵守迭代器协议时需要支持如下两种方法。__iter__(),返回迭代器对象自身。这用在for和in语句中。 __next__(),返回迭代器的下一个值。如果没有下一个值可以返回,那么应该抛出StopIteration异常。 class Counter(object): ......原创 2021-10-10 21:41:54 · 105 阅读 · 0 评论 -
__init__ 方法
类的实例化使用函数符号。只要将类对象看作是一个返回新的类实例的无参数函数即可。例如(假设沿用前面的类):>>> class MyClass(object):... """A simple example class"""... i = 12345... def f(self):... return 'hello world'x = MyClass()以上创建了一个新的类实例并将该对象赋给局部变量 x。这个实例化操作创建一.原创 2021-10-09 15:54:35 · 147 阅读 · 0 评论 -
字符串的方法(几个常用内置公式)
>>> s = "shi yan lou">>> s.title()'Shi Yan Lou'方法title()返回字符串的标题版本,即单词首字母大写其余字母小写>>> z = s.upper()>>> z'SHI YAN LOU'>>> z.lower()'shi yan lou'方法 upper() 返回字符串全部大写的版本,反之 lower() 返回字符串的全部小写版本。&g...原创 2021-10-07 09:43:23 · 241 阅读 · 0 评论