爬虫
文章平均质量分 88
硬看黑学头秃秃
这个作者很懒,什么都没留下…
展开
-
python 3 爬虫学习笔记(1) —— 初识BeautifulSoup
结合《Python网络数据采集》,学习爬虫的第一天原创 2018-12-24 20:36:39 · 362 阅读 · 3 评论 -
python 3爬虫学习笔记(2)—— 通过属性查找标签
一.关于层叠样式表(CSS) 层叠样式表(英文全称:Cascading Style Sheets)是一种用来表现HTML(标准通用标记语言的一个应用)或XML(标准通用标记语言的一个子集)等文件样式的计算机语言。CSS不仅可以静态地修饰网页,还可以配合各种脚本语言动态地对网页各元素进行格式化。 CSS可以让HTML元素呈现出差异化,使具有完全相同修饰的元素呈现出不同的样式。 二.通过属性查找标...原创 2018-12-31 21:28:00 · 4592 阅读 · 0 评论 -
python 3爬虫学习笔记(3) —— 正则表达式
一. 正则表达式的定义 正则表达式是一种用来匹配字符串的强有力的武器。它的设计思想是用一种描述性的语言来给字符串定义一个规则,凡是符合规则的字符串,我们就认为它“匹配”了,否则,该字符串就是不合法的。 二.正则表达式的规则: 符号 含义 * 匹配前面的字符,子表达式或者括号里的字符0次或者多次 + 匹配前面的字符,子表达式或者括号里的字符至少一次 [] 匹配任意一个字符...原创 2019-01-12 10:53:30 · 195 阅读 · 0 评论 -
Python 3网络爬虫学习笔记(4)——开始采集
一.遍历单个域名 像之前一样,我们还是利用维基百科来进行数据采集的学习 通过对维基百科上python词条的HTML源代码的观察,可以发现页面有关的链接都在标签名为a的href属性之中: 如图,就是指向消歧义的链接。而这样的链接又分为内链和外链: 内链:同一网站不同内容页面之间的相互链接。内链就是网站域名下内容页面之间的链接,内链优化的好,网站的结构就会好,也就会有利于网站的优化。 外链:从别的...原创 2019-01-17 21:22:47 · 362 阅读 · 0 评论