爬虫
Line_Walker
微信公众号:芥子观须弥
展开
-
腾讯新闻爬取
任务目标:获取腾讯新闻首页(https://news.qq.com/)热点精选部分至少50条新闻的id,标题和url.1. 采用Selenium抓取数据使用Selenium模拟鼠标的动作, 完成页面剩余部分的加载. 这里通过对页面打开时的请求进行分析, 找到了请求新闻数据的接口# 使页面向下滑动,以便获取足够多的数据time.sleep(5)# 向下滚动1000像素js = "w...原创 2020-04-27 23:29:59 · 2030 阅读 · 0 评论 -
session、selenium和cookie
session和cookieSession 是会话的意思,会话是产生在服务端的,用来保存当前用户的会话信息,Cookies 是保存在客户端(浏览器),有了 Cookie 以后,客户端(浏览器)再次访问服务端的时候,会将这个 Cookie 带上,这时,服务端可以通过 Cookie 来识别本次请求到底是谁在访问。可以简单理解为 Cookies 中保存了登录凭证,我们只要持有这个凭证,就可...原创 2020-04-25 23:14:09 · 108991 阅读 · 0 评论 -
爬虫之 xpath
1.xpath学习,使用lxml+xpath提取内容。什么是 XPath?XPath 使用路径表达式在XML 文档中进行导航XPath 包含一个标准函数库XPath 是 XSLT 中的主要元素XPath是一个 W3C 标准(1)XPath 节点在 XPath 中,有七种类型的节点:元素、属性、文本、命名空间、处理指令、注释以及文档(根)节点。XML 文档是被作为节点树来对待的。...原创 2020-04-23 22:35:27 · 167 阅读 · 1 评论 -
爬虫 之 正则表达式学习
1.正则表达式下面先给出一个简单的示例:^ 为匹配输入字符串的开始位置。[0-9]+匹配多个数字, [0-9] 匹配单个数字,+ 匹配一个或者多个。abc$匹配字母 abc 并以 abc 结尾,$ 为匹配输入字符串的结束位置。re 模块使 Python 语言拥有全部的正则表达式功能。(1)re.match函数re.match 尝试从字符串的起始位置匹配一个模式,如果不是起始位置匹配...原创 2020-04-23 22:21:06 · 165 阅读 · 0 评论 -
爬虫学习之beautifulsoup
1. Beautiful Soup库入门Beautiful Soup 是用Python写的一个HTML/XML的解析器,主要用于解析和提取 HTML/XML 数据,它可以很好的处理不规范标记并生成剖析树(parse tree)。优点1:提供简单又常用的导航(navigating),搜索以及修改剖析树的操作。优点2:用来解析 HTML 比较简单,API非常人性化,支持CSS选择器、Py...原创 2020-04-23 22:11:29 · 408 阅读 · 0 评论 -
爬虫基础
目录1. 网络与网页基础1.1 网络1.1.1 HTTP请求1.2 HTML 页面1.2.1 CSS1.2.2 HTML DOM1. 网络与网页基础1.1 网络HTTP是一个客户端(用户)和服务器端(网站)之间进行请求和应答的标准。通过使用网页浏览器、网络爬虫或者其他工具,客户代理(user agent)可以向服务器上的指定端口(默认端口为80)发起一个HTTP请求。应答服务器上存储着一...原创 2020-04-21 22:55:45 · 259 阅读 · 0 评论 -
学习get与post请求
目录1.两种 HTTP 请求方法:GET 和 POST2.断开网络后发出请求3.了解什么是请求头,如何添加请求头。1.两种 HTTP 请求方法:GET 和 POST 在客户机和服务器之间进行请求-响应时,两种最常被用到的方法是:GET 和 POST。 (1) GET - 从指定的资源请求数据。请注意,查询字符串(名称/值对)是在 GET 请求的 URL 中发送的...原创 2019-03-01 20:19:46 · 437 阅读 · 0 评论