python爬虫
爬虫学习
大妮子噻
这个作者很懒,什么都没留下…
展开
-
会话和Cookies 、代理基本原理
静态网页和动态网页网页内容是HTML代码编写的,文字、图片等内容均通过写好的HTML代码来指定,这种页面叫静态网页。特点:家在速度快,编写简单,可维护性差,不能根据URL灵活多变地显示内容。动态网页,它可以动态解析URL中参数的变化,关联数据库并动态呈现不同的页面内容,非常灵活多变。此外动态网页可以实现用户登陆和注册的功能。无状态HTTPHTTP无状态是指HTTP协议对事物处理是没有记忆能...原创 2019-10-22 14:19:22 · 252 阅读 · 0 评论 -
网页基础
网页可以分为- HTML(骨架)、CSS(皮肤) 和 JavaScript(肌肉)。1、HTMLHTML是用来描述网页的一种语言 (hyper text market langue),即超文本标记语言。网页包含文字、按钮、图片和视频等各种复杂的元素,其基础架构就是HTML。不同类型的文字用不同的标签来表示。图片-img、视频- video、段落-video、段落-p等。他们之间的布局通过标签...原创 2019-10-21 21:49:43 · 152 阅读 · 0 评论 -
正则表达式常见用法
正则表达式是处理字符串的强大工具,具有特定的语法结构,可以实现字符串的检索、替换、匹配验证等。1、match()第一个参数传入正则表达式,第二个参数传入要匹配的字符串;尝试从字符串的起始位置匹配正则表达式,如果匹配成功就返回匹配的结果,否则返回None;import recontent ='Hello 1234 5678 Word_This is a Demo'result=re.match('^Hello\s\d\d\d\d\s\d{4}\s\w{9}',content)print原创 2020-05-15 10:49:28 · 227 阅读 · 0 评论 -
resquests库
1、基本用法 get请求方式import requestsresponse = requests.get('https://www.python.org/')print(type(response))print(response.status_code)print(response.text)运行:<class 'requests.models.Response'>200(此处省略了response.text内容)各种请求方式...原创 2020-05-14 17:55:10 · 559 阅读 · 0 评论 -
爬虫基本原理
目录爬虫定义爬虫流程Request包含内容Response包含内容解析方式解决javascript的渲染问题保存数据爬虫定义请求网站并提取数据的自动化程序爬虫流程发起请求获取响应内容 类型可能书Html、Json字符串、二进制数据解析内容 保存数据Request包含内容内容 备注 请求方...原创 2020-04-28 09:37:57 · 134 阅读 · 0 评论