爬虫
TNTZS666
从无能到平庸要比从一流到卓越需要人们付出多得多的努力。
展开
-
Datawhale-爬虫-Task1(学习get与post请求)
学习内容Get与Post请求requests库和urllib库的区别断网后发出申请的结果申请返回的状态码分类状态码列表什么是请求头,如何添加请求头定义使用requests库添加请求头Get与Post请求本质: get和post本质上都是TCP链接,并无差别,只是由于HTTP的规定和浏览器/服务器的限制,导致他们在应用过程中体现出一些不同。Get产生一个TCP数据包;Post产生两个TCP数据...原创 2019-03-01 20:34:08 · 351 阅读 · 0 评论 -
Datawhale-爬虫-Task5(selenium学习)
学习内容selenium简介什么是Selenium?如何下载selenium实例:使用selenium模拟登陆163邮箱。selenium简介什么是Selenium?Selenium是最广泛使用的开源Web UI(用户界面)自动化测试套件之一。它最初由Jason Huggins于2004年开发,作为Thought Works的内部工具。 Selenium支持跨不同浏览器,平台和编程语言的自...原创 2019-03-05 16:03:48 · 436 阅读 · 0 评论 -
Datawhale-爬虫-Task2(正则表达式)
学习内容什么是正则表达式案例什么是正则表达式定义:一套规则,可以在字符串文本中进行搜查替换等使用步骤:1.使用 compile() 函数将正则表达式的字符串编译成一个 pattern 对象2.通过 pattern 对象的一些方法对文本进行匹配,匹配结果是一个 match对象3.用 match 对象的方法,对结果进行操作常用方法:match:从开始位置开始查找,一次匹配,即...原创 2019-03-02 20:43:59 · 469 阅读 · 0 评论 -
Datawhale-爬虫-Task3(beautifulsoup)
Beautiful SoupBeautiful Soup是一个非常流行的Python模块。该模块可以解析网页,并提供定位内容的便捷接口。使用Beautiful Soup的第一步是将已下载的HTML内容解析为soup文档。由于大多数网页都不具备良好的HTML格式,因此Beautiful Soup需要对其实际格式进行确定。例如,在下面这个简单的网页列表中,存在属性值两侧引号缺失和标签未闭合的...原创 2019-03-03 21:39:31 · 262 阅读 · 0 评论 -
Datawhale-爬虫-Task6(学习IP相关知识)
学习内容什么是IP(Internet Protocol)定义基本原理IP地址IP封锁定义IP被封的原因如何应对IP被封案例:抓取西刺代理,并构建自己的代理池。什么是IP(Internet Protocol)定义互联网协议地址(Internet Protocol Address,又译为网际协议地址),缩写为IP地址(IP Address),是分配给用户上网使用的网际协议(IP)的设备的数字标签...原创 2019-03-06 17:20:12 · 514 阅读 · 0 评论 -
Datawhale-爬虫-Task4(学习xpath)
学习内容XPath简介lxml简介实例:使用xpath提取丁香园论坛的回复内容。XPath简介XPath 是一门在 XML 文档中查找信息的语言。XPath 用于在 XML 文档中通过元素和属性进行导航。什么是XPath?XPath 使用路径表达式在 XML 文档中进行导航XPath 使用路径表达式来选取 XML 文档中的节点或者节点集。这些路径表达式和我们在常规的电脑文件系统中看到...原创 2019-03-04 19:12:24 · 406 阅读 · 0 评论 -
Datawhale-爬虫-Task7(实战大项目)
实战大项目模拟登录丁香园,并抓取论坛所有的人员的基本信息与回复帖子的内容。丁香园论坛:论坛登录链接首先使用Selenium模拟登录丁香园论坛。这里模拟点击登录后若要使用账号密码登录还需要模拟点击返回电脑登录登录代码如下:def login_zhihu(browser): try: #点击登录 browser.find_element_by_x...原创 2019-03-07 20:36:33 · 434 阅读 · 0 评论