爬虫
Amber_data
应用统计专业,立志踏上数据分析的道路,目前是小白,记录学习共同成长
展开
-
爬虫学习day04
爬虫学习day04AJAX实战:获取某精选AJAX即异步的 JavaScript 和 XML。AJAX 是一种用于创建快速动态网页的技术。AJAX 最大的优点是在不重新加载整个页面的情况下,可以与服务器交换数据并更新部分网页内容。通过在后台与服务器进行少量数据交换,AJAX 可以使网页实现异步更新。这意味着可以在不重新加载整个网页的情况下,对网页的某部分进行更新。传统的网页(不使用 AJA...原创 2020-04-28 16:07:24 · 237 阅读 · 0 评论 -
爬虫学习day03
爬虫学习day03IP介绍实例:获取代理IP地址selenium介绍测试session和cookie动态网页和静态网页session和cookiessessioncookies实战:模拟登录163小项目:模拟登录丁香园,并抓取论坛页面所有的人员基本信息与回复帖子内容IP介绍为什么会出现IP被封网站为了防止被爬取,会有反爬机制,对于同一个IP地址的大量同类型的访问,会封锁IP,过一段时间...原创 2020-04-25 22:49:15 · 443 阅读 · 0 评论 -
爬虫学习day02
爬虫学习day02XPathXPath 是一门在 XML 文档中查找信息的语言。XPath语法包括选取节点、谓语、通配符、组合路径等。组合路径实战:使用XPath获取丁香园论坛回复内容from lxml import etreeimport requests#1.获取url的htmlurl = "http://www.dxy.cn/bbs/thread/626626#6...原创 2020-04-23 22:07:22 · 366 阅读 · 0 评论 -
爬虫学习day01
爬虫学习day01互联网、HTTP概念互联网HTTP网页基础网页组成网页结构HTML DOMFLowchart流程图导出与导入导出导入互联网、HTTP概念互联网互联网也叫因特网(Internet),是指网络与网络所串联成的庞大网络,这些网络以一组标准的网络协议族相连,连接全世界几十亿个设备,形成逻辑上的单一巨大国际网络。它由从地方到全球范围内几百万个私人的、学术界的、企业的和政府的网络所构成...原创 2020-04-21 22:28:15 · 551 阅读 · 0 评论