- 博客(2)
- 收藏
- 关注
原创 2021-01-21
用 Python 写爬虫,首先需要会 Python,把基础语法搞懂,知道怎么使用函数、类、list、dict 中的常用方法。接着需要了解 HTML,然后是关于 HTTP 的知识,爬虫基本原理就是通过网络请求从远程服务器下载数据的过程,而这个网络请求背后的技术就是基于 HTTP 协议。了解 HTTP 协议之后,可以专门有针对性的学习和网络相关的模块,比如 Python 自带有 urllib、httplib,Cookie等内容,数据爬下来,大部分情况是 HTML 文本,也有少数是基于 XML 格式或者 Json
2021-01-21 11:25:08 54
原创 正则表达式
正则表达式又称规则表达式(Regular Expression),通常被用来检索、替换那些符合某个模式(规则)的文本,目前很多编程语言都支持正则表达式,正则表达式的缩写为regex 正则表达式的优点有: ①灵活性、逻辑性和功能性非常强 ②可以迅速地用极简单的方式达到字符串的复杂控制 python使用正则表达式需要导入re包,因为re包是python自带的,所以无需下载就可以使用。 下面这些是正则表达式的常用方法 模板re包含使用正则表达式的函数。 1、search(pattern, strin...
2020-10-20 13:11:34 209
空空如也
pagehelper报错
2023-02-28
TA创建的收藏夹 TA关注的收藏夹
TA关注的人