python 网络爬虫
mingyuewu
做一个有用的工具人
展开
-
正则表达式的应用
预备实验:正规表达式的应用文章目录预备实验:正规表达式的应用一、实验目的二、实验内容1、设计并实现一个用户注册界面正则表达式 :代码:界面:2 统计源代码中代码行数、注释行数以及空行数。3 抓取网页中的email地址。4. (选做)设计一个本地文件搜索引擎,给定一个搜索目录,支持以正规表达式方式搜索该目录下的所有文件,可以选择搜索文件名称或文件内容。三、实验要求四、实验报告要求四、实验报告要求参考文档界面参考python连接sql-server邮件正则表达式在线匹配测试一、实验目的掌握单原创 2020-10-17 22:23:25 · 571 阅读 · 1 评论 -
正则表达式
正则表达式一、定义regular expression 用于检索、替换、匹配验证字符串。开源中国正则表达式测试工具:https://tool.oschina.net/regex一个URL:http://www.baidu.com正则表达式为[…]匹配一组字符串,[ab]匹配a,b,ab[a-zA-Z]匹配英文字母[^/s]匹配一组非空白字符串*匹配多个二、常用匹配规则字符...原创 2020-02-20 20:15:10 · 255 阅读 · 0 评论 -
urllib.parse
解析链接文章目录解析链接一、简介 urllib.parse二、函数介绍1 urlparse()6(1)代码实例:(2)定义域值域定义域:参数:urlstring :scheme:allow_fragments:值域:(3)ParseResult中各属性的获取方法2 urlunparse()(1)代码实例:(2)定义域值域定义域:值域:3 urlsplit()54 urlunsplit()5 ur...原创 2020-02-16 16:11:55 · 742 阅读 · 0 评论 -
urllib异常处理URLError、HTTPError
urllib异常处理URLError、HTTPError文章目录urllib异常处理URLError、HTTPError一、异常处理二、URLError(1)来源(2)属性?(3)代码示例三、HTTPError(1)来源(2)属性?(3)代码示例一、异常处理urllib 的 error 模块定义了由 request 模块产生的异常。 如果出现了问题, request 模块便会抛州 error...原创 2020-02-16 11:15:50 · 1199 阅读 · 0 评论 -
代理服务器
代理服务器文章目录代理服务器一 目的二 作用1.隐藏真实 IP2 提高访问速度:3 访问一些单位或团体内部资源:三 原理四 分类1 按协议分类FTP 代理服务器:HTTP 代理服务器:SSL 代理:RTSP 代理:Telnet代理:POP3/SMTP 代理:SOCKS 代理:2 按匿名程度分类高度匿名代理:普通匿名代理:透明代理:间谍代理:一 目的伪装自己的IP地址某些网站设置一些反爬虫措...原创 2020-02-13 14:49:16 · 338 阅读 · 0 评论 -
BeautifulSoup简介:day3
BeautifulSoup简介:文章目录BeautifulSoup简介:一、BeautifulSoup功能1解析原理2 编码方式3 其他解析器二、BeautifulSoup4四大对象种类1.Tag2、NavigableString3、BeautifulSoup4、Comment一、BeautifulSoup功能网页解析 , HTML/XML的解析器,主要的功能也是如何解析和提取 ...原创 2020-02-12 17:50:03 · 178 阅读 · 0 评论 -
网页基础(一)组成day2
网页基础(一) 组成文章目录网页基础(一) 组成一、HTML1作用2HTML 标签标签举例3 HTML 文档 = 网页二、CSS1 作用 定义了网页的结构“层叠”:“样式”2 CSS举例:3 使用方法: link标签三、JavaScript1 作用2.对比HTML CSS3 使用方法:script标签四、网页组成总结HTMLCSSJavaScript一、HTML1作用HTM...原创 2020-02-12 17:47:04 · 205 阅读 · 0 评论 -
爬虫构成
一、什么是爬虫爬虫:一段自动抓取互联网信息的程序,从互联网上抓取对于我们有价值的信息。二、Python爬虫架构Python 爬虫架构主要由五个部分组成,分别是调度器、URL管理器、网页下载器、网页解析器、应用程序(爬取的有价值数据)。**调度器相当于一台电脑的CPU,主要负责调度URL管理器、下载器、解析器之间的协调工作。URL管理器:包括待爬取的URL地址和已爬取的URL地址,防止...原创 2020-02-12 17:36:59 · 495 阅读 · 0 评论