![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
python爬虫基本知识
Frank.F.Wu
努力改变自己,使自己紧跟时代潮流,不被时代所抛弃。
展开
-
Python爬虫学习-Day1
一、爬虫简介及网页知识 今天开始学习爬虫,用一周的时间强化学习,坚持下来就是胜利。 随着技术的不断发展,大数据的时代已经到来,数据的获取途径有两条,买数据或者利用工具爬取数据。 根据使用场景,爬虫分为通用爬虫和聚焦爬虫两种。通用爬虫是搜索引擎抓取系统的重要组成部分,例如谷歌、百度、雅虎等,主要目的是将互联网上的网页下载到本地,形成一个互联网内容的镜像备份。聚焦爬虫,是面向特定主题...原创 2019-03-01 21:31:07 · 403 阅读 · 0 评论 -
Python爬虫学习-Day3
文章目录一、Beautiful Soup使用1、简介2、四大种类对象1)Tag2)NavigableString3)BeautifulSoup4)Comment3、遍历文档树1)直接子节点2)所有子孙节点3)节点内容4、搜索文档树1)name参数2)text参数5、CSS选择器1)通过对标签名查找2)通过类名查找3)通过id名查找4)获取内容二、丁香园评论爬取一、Beautiful Soup使用...原创 2019-03-03 21:43:34 · 278 阅读 · 0 评论 -
Python爬虫学习-Day4
1、XML介绍XML指可扩展标记语言(EXtensible Markup Language)XML是一种标记语言,很类似HTMLXML的设计宗旨是传输数据和存储数据,而非显示数据,其焦点是数据的内容(与HTML的区别)XML的标签需要我们自行定义XML被设计为具有自我描述性XML是W3C的推荐标准每个元素以及属性都有一个父(Parent)元素节点可有零个、一个或多个子(Child...原创 2019-03-04 17:45:53 · 217 阅读 · 0 评论 -
Python爬虫学习-Day5
1、安装selenium原创 2019-03-05 21:02:11 · 591 阅读 · 0 评论 -
Python爬虫学习-Day6
1、什么是IPIP,互联网协议地址(英语:Internet Protocol Address,又译为网际协议地址),缩写为IP地址(英语:IPAddress),是分配给用户上网使用的网际协议(英语:Internet Protocol, IP)的设备的数字标签。用来在网络中标记一台电脑的一串数字,每个IP地址包括两部分,网络地址和主机地址。网络地址的最高位必须是0。国际规定有一部分IP地址...原创 2019-03-06 21:45:13 · 114 阅读 · 0 评论 -
Python爬虫学习-Day7
利用selenium模拟登陆,爬取帖子信息代码如下:import timefrom selenium import webdriverfrom lxml import etreeimport jsonbrowser = webdriver.Chrome()url = 'http://www.dxy.cn/bbs/index.html'browser.get(url)time....原创 2019-03-07 21:51:35 · 180 阅读 · 0 评论